TRUST4免疫組庫(kù)分析

作者:Resther
審稿:童蒙
編輯:angelica

1.背景介紹

人體淋巴細(xì)胞主要包括T細(xì)胞、B細(xì)胞。B細(xì)胞約占外周淋巴細(xì)胞總數(shù)的20%,其主要功能是產(chǎn)生抗體介導(dǎo)體液免疫應(yīng)答。

B細(xì)胞抗原受體(B cell receptor, BCR)是B細(xì)胞識(shí)別抗原的一種膜表面免疫球蛋白,具有抗原結(jié)合特異性。BCR由兩條重鏈和兩條輕鏈連接而成,其中重鏈分為可變區(qū)(V區(qū))、恒定區(qū)(C區(qū))、跨膜區(qū)及胞質(zhì)區(qū);輕鏈則只有V區(qū)和C區(qū)。V區(qū)由VH和VL兩個(gè)結(jié)構(gòu)域組成,它們各由三個(gè)互補(bǔ)決定區(qū)(CDR1、CDR2和CDR3)組成,CDR的氨基酸組成和排列順序呈現(xiàn)高度多樣性。

在同一個(gè)體內(nèi),可高達(dá)109~1012,構(gòu)成容量巨大的BCR庫(kù),賦予個(gè)體識(shí)別各種抗原、產(chǎn)生特異性抗體的巨大潛能,這三個(gè)CDR均參與對(duì)抗原的識(shí)別,共同決定BCR的抗原特異性。

T細(xì)胞主要功能是介導(dǎo)細(xì)胞免疫。T細(xì)胞抗原受體(T cell receptor,TCR)是T細(xì)胞特異性識(shí)別和結(jié)合抗原肽-MHC分子的分子結(jié)構(gòu),大多數(shù)TCR由α和β肽鏈組成,少數(shù)T細(xì)胞的TCR由γ和δ肽鏈組成。每條肽鏈又可分為可變區(qū)(V區(qū)),恒定區(qū)(C區(qū)),跨膜區(qū)和胞質(zhì)區(qū)等幾部分,而α和β兩條肽鏈的V區(qū)(Vα、Vβ)又各有三個(gè)高變區(qū)CDR1、CDR2、CDR3,其中以CDR3變異最大,直接決定了TCR的抗原結(jié)合特異性。TCR的CDR3由V、D、J三個(gè)基因編碼,在淋巴細(xì)胞的成熟過(guò)程中,通過(guò)V、D、J基因的重排形成了各種重組序列片段,再加上DNA堿基的SNP、Indel突變形成了T細(xì)胞的多樣性。

免疫組庫(kù)(Immune Repertoire,IR)是指某個(gè)個(gè)體在任何特定時(shí)間點(diǎn)其循環(huán)系統(tǒng)中所有功能多樣性B淋巴細(xì)胞和T淋巴細(xì)胞的總和,擁有6種主要的肽鏈,分別為BCR的輕鏈和重鏈、TCR的α、β、γ和δ鏈。免疫組庫(kù)中每一種免疫蛋白彼此間結(jié)構(gòu)差異很小,但亞型種類(lèi)繁多,正是這種多樣性對(duì)健康起著至關(guān)重要的作用,免疫蛋白的亞型越多,越能有效抵抗病原體,亞型越少越容易感染疾病。除此之外,其它很多年齡、環(huán)境、疾病誘發(fā)以及用藥等因素也影響著免疫組庫(kù)的多樣性。免疫組庫(kù)反映機(jī)體免疫系統(tǒng)在特定時(shí)間段內(nèi)應(yīng)對(duì)外界刺激應(yīng)答的能力。

從群體的角度講,人類(lèi)的免疫大分子的多樣性是十分可觀的,因?yàn)槿祟?lèi)幾乎能對(duì)所有外來(lái)感染源產(chǎn)生免疫反應(yīng)??墒窃趥€(gè)體水平,我們的免疫組庫(kù)的大小就有限了。

個(gè)體免疫組庫(kù)的內(nèi)容受三個(gè)因素的控制:遺傳因素;抗原接觸史;時(shí)時(shí)刻刻的免疫調(diào)控。個(gè)體化的免疫組庫(kù)研究可以用來(lái)做疾病相關(guān)性研究,例如尋找Biomarker,對(duì)疾病機(jī)理進(jìn)行一個(gè)全新角度的探討,也可以促進(jìn)對(duì)更多疾病的早期診斷、治療甚至預(yù)防,可應(yīng)用于疫苗和醫(yī)藥的研發(fā)、生物標(biāo)志物的發(fā)現(xiàn)、微小殘留?。∕inimal Residual Disease,MRD)檢測(cè)、自身免疫性疾病的研究以及移植后監(jiān)測(cè)等領(lǐng)域,例如在疾病特異的生物標(biāo)志物的研究中,可通過(guò)高通量測(cè)序在患有同種疾病的人群中找到疾病特異性的CDR3,經(jīng)過(guò)驗(yàn)證后的這些CDR3序列就可以作為代表該病的并可以從外周血中查到的Biomarker;自身免疫性疾病的研究如類(lèi)風(fēng)濕性關(guān)節(jié)炎,可以通過(guò)高通量測(cè)序識(shí)別潛在自體反應(yīng)克隆來(lái)定量早期或已確診的類(lèi)風(fēng)濕性關(guān)節(jié)炎的外周血的T細(xì)胞組庫(kù),作為早期診斷用藥的依據(jù);關(guān)于疫苗的研發(fā),我們可以通過(guò)分析不同年齡段的人群注射疫苗后的效果來(lái)促進(jìn)針對(duì)不同人群的疫苗研發(fā);對(duì)于腫瘤研究,我們可通過(guò)比較患者用藥前后免疫組庫(kù)的變化來(lái)監(jiān)測(cè)疾病、指導(dǎo)用藥,預(yù)防腫瘤復(fù)發(fā)。

研究者可以通過(guò)免疫組庫(kù)測(cè)序(Immune Repertoire sequencing, IR-seq)全面評(píng)估免疫系統(tǒng)的多樣性。該方法是以T/B淋巴細(xì)胞為研究目標(biāo),以多重PCR或5’RACE技術(shù)目的擴(kuò)增決定B細(xì)胞受體(BCR)或T細(xì)胞受體(TCR)多樣性的互補(bǔ)決定區(qū)(CDR區(qū)),再結(jié)合高通量測(cè)序技術(shù),可以深入挖掘免疫組庫(kù)與疾病的關(guān)系。

然而這種方法價(jià)格昂貴,而且需要珍貴的組織樣本。于是研究者另辟蹊徑,考慮到組織或者外周血(PBMC)中包含有表達(dá)的TCR和BCR序列,劉小樂(lè)課題組中Li Song等人在2021年6月開(kāi)發(fā)了TRUST4工具,可以從組織或者外周血的RNA表達(dá)數(shù)據(jù)中挖掘免疫組庫(kù)信息。早在2017年3月,該課題組開(kāi)發(fā)出TRUST(Tcr Receptor Utilities for Solid Tissue)方法,TRUST4性能比TRUST有了更大的提升,既支持FASTQ格式,也支持BAM格式,并且在組裝更長(zhǎng)、甚至是全長(zhǎng)受體庫(kù)方面是更快、更靈敏的。TRUST4還可以從沒(méi)有V(D)J富集的單細(xì)胞RNA-seq(scRNA-seq)數(shù)據(jù)中獲取組庫(kù)序列,并對(duì)SMART-seq和10× Genomics平臺(tái)都是兼容的。

2.運(yùn)行原理

TRUST首先將所測(cè)reads比對(duì)到參考基因組上,將比對(duì)上的reads組裝成contigs,然后根據(jù)IMGT(International Immunogenetics Information System)進(jìn)行注釋:



具體細(xì)節(jié)可以參考下面這張圖:


3.方法效果

首先對(duì)于bulk的RNA-seq數(shù)據(jù),研究者在已知TRB序列生成的RNA-seq數(shù)據(jù)上使用了三種不同的方法,發(fā)現(xiàn)TRUST4比MiXCR多找出281%的CDR3s,比CATT多找出22.9%,比TRUST3多找出57.8%的CDR3s。接著,為了評(píng)估對(duì)BCRs的尋找效率,在有BCR-seq作為金標(biāo)準(zhǔn)的6個(gè)腫瘤RNA-seq數(shù)據(jù)上,TRUST4在5個(gè)數(shù)據(jù)上表現(xiàn)出更高的準(zhǔn)確率和敏感性,同時(shí)只需要MiXCR所需20~25%的運(yùn)行時(shí)間。最后,在全長(zhǎng)組裝方面,TRUST4和MiXCR都能檢測(cè)出全部128個(gè)CDR3s,但是TRUST4可以組裝出93個(gè),而MiXCR只能組裝出39個(gè)。

在單細(xì)胞數(shù)據(jù)上,研究者也做了一系列評(píng)估。在測(cè)試數(shù)據(jù)上,TRUST4可以檢測(cè)到48.1%的TCR CDR3s和78.0%的BCR CDR3s。TRUST4比CellRanger_VDJ時(shí)間快10倍,節(jié)省2倍多的空間。

4.安裝使用

TRUST4的安裝非常簡(jiǎn)單,直接下載代碼網(wǎng)址:https://github.com/liulab-dfci/TRUST4
git clone https://github.com/liulab-dfci/TRUST4.git
然后在下載的代碼所在的文件夾中運(yùn)行make 或者用conda安裝:
conda install -c bioconda trust4
安裝好之后,我們就可以使用TRUST4了。

Usage: ./run-trust4 [OPTIONS]
  Required:
    -b STRING: path to bam file
    -1 STRING -2 STRING: path to paired-end read files
    -u STRING: path to single-end read file
    -f STRING: path to the fasta file coordinate and sequence of V/D/J/C genes
  Optional:
    --ref STRING: path to detailed V/D/J/C gene reference file, such as from IMGT database. (default: not used). (recommended) 
    -o STRING: prefix of output files. (default: inferred from file prefix)
    --od STRING: the directory for output files. (default: ./)
    -t INT: number of threads (default: 1)
    --barcode STRING: if -b, bam field for barcode; if -1 -2/-u, file containing barcodes (defaul: not used)
    --barcodeRange INT INT CHAR: start, end(-1 for lenght-1), strand in a barcode is the true barcode (default: 0 -1 +)
    --barcodeWhitelist STRING: path to the barcode whitelist (default: not used)
    --read1Range INT INT: start, end(-1 for length-1) in -1/-u files for genomic sequence (default: 0 -1)
    --read2Range INT INT: start, end(-1 for length-1) in -2 files for genomic sequence (default: 0 -1)
    --mateIdSuffixLen INT: the suffix length in read id for mate. (default: not used)
    --skipMateExtension: do not extend assemblies with mate information, useful for SMART-seq (default: not used)
    --abnormalUnmapFlag: the flag in BAM for the unmapped read-pair is nonconcordant (default: not set)
    --noExtraction: directly use the files from provided -1 -2/-u to assemble (default: extraction first)
    --repseq: the data is from TCR-seq or BCR-seq (default: not set)
    --stage INT: start TRUST4 on specified stage (default: 0)
      0: start from beginning (candidate read extraction)
      1: start from assembly
      2: start from annotation
      3: start from generating the report table

TRUST4的輸入文件主要有三個(gè):

  • (1) RNA-seq的測(cè)序文件,可以是bam文件,-b,或者是fastq格式,雙端測(cè)序用-1/-2,單端測(cè)序是-u。
  • (2)包含V,J,C基因的基因序列和坐標(biāo),-f,網(wǎng)站已經(jīng)提供了hg38_bcrtcr.fa和hg19_bcrtcr.fa
  • (3)包含注釋信息的參考數(shù)據(jù)庫(kù)序列,--ref,比如IMGT

下載IMGT序列文件:
perl BuildImgtAnnot.pl Homo_sapien > IMGT+C.fa
這一步會(huì)從IGMT網(wǎng)站下載:


運(yùn)行TRUST4后得到的幾個(gè)文件中,trust_raw.out和trust_final.out是contigs和對(duì)應(yīng)的核酸權(quán)重;trust_annot.fa是組裝注釋文件,trust_cdr3.out記錄了每個(gè)組裝的CDR1,2,3和基因信息,trust_report.tsv主要記錄了CDR3的信息。

參考文獻(xiàn)

Song, L., Cohen, D., Ouyang, Z. et al. TRUST4: immune repertoire reconstruction from bulk and single-cell RNA-seq data. Nat Methods (2021).

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容