作者:Resther
審稿:童蒙
編輯:angelica
1.背景介紹
人體淋巴細(xì)胞主要包括T細(xì)胞、B細(xì)胞。B細(xì)胞約占外周淋巴細(xì)胞總數(shù)的20%,其主要功能是產(chǎn)生抗體介導(dǎo)體液免疫應(yīng)答。
B細(xì)胞抗原受體(B cell receptor, BCR)是B細(xì)胞識(shí)別抗原的一種膜表面免疫球蛋白,具有抗原結(jié)合特異性。BCR由兩條重鏈和兩條輕鏈連接而成,其中重鏈分為可變區(qū)(V區(qū))、恒定區(qū)(C區(qū))、跨膜區(qū)及胞質(zhì)區(qū);輕鏈則只有V區(qū)和C區(qū)。V區(qū)由VH和VL兩個(gè)結(jié)構(gòu)域組成,它們各由三個(gè)互補(bǔ)決定區(qū)(CDR1、CDR2和CDR3)組成,CDR的氨基酸組成和排列順序呈現(xiàn)高度多樣性。
在同一個(gè)體內(nèi),可高達(dá)109~1012,構(gòu)成容量巨大的BCR庫(kù),賦予個(gè)體識(shí)別各種抗原、產(chǎn)生特異性抗體的巨大潛能,這三個(gè)CDR均參與對(duì)抗原的識(shí)別,共同決定BCR的抗原特異性。
T細(xì)胞主要功能是介導(dǎo)細(xì)胞免疫。T細(xì)胞抗原受體(T cell receptor,TCR)是T細(xì)胞特異性識(shí)別和結(jié)合抗原肽-MHC分子的分子結(jié)構(gòu),大多數(shù)TCR由α和β肽鏈組成,少數(shù)T細(xì)胞的TCR由γ和δ肽鏈組成。每條肽鏈又可分為可變區(qū)(V區(qū)),恒定區(qū)(C區(qū)),跨膜區(qū)和胞質(zhì)區(qū)等幾部分,而α和β兩條肽鏈的V區(qū)(Vα、Vβ)又各有三個(gè)高變區(qū)CDR1、CDR2、CDR3,其中以CDR3變異最大,直接決定了TCR的抗原結(jié)合特異性。TCR的CDR3由V、D、J三個(gè)基因編碼,在淋巴細(xì)胞的成熟過(guò)程中,通過(guò)V、D、J基因的重排形成了各種重組序列片段,再加上DNA堿基的SNP、Indel突變形成了T細(xì)胞的多樣性。
免疫組庫(kù)(Immune Repertoire,IR)是指某個(gè)個(gè)體在任何特定時(shí)間點(diǎn)其循環(huán)系統(tǒng)中所有功能多樣性B淋巴細(xì)胞和T淋巴細(xì)胞的總和,擁有6種主要的肽鏈,分別為BCR的輕鏈和重鏈、TCR的α、β、γ和δ鏈。免疫組庫(kù)中每一種免疫蛋白彼此間結(jié)構(gòu)差異很小,但亞型種類(lèi)繁多,正是這種多樣性對(duì)健康起著至關(guān)重要的作用,免疫蛋白的亞型越多,越能有效抵抗病原體,亞型越少越容易感染疾病。除此之外,其它很多年齡、環(huán)境、疾病誘發(fā)以及用藥等因素也影響著免疫組庫(kù)的多樣性。免疫組庫(kù)反映機(jī)體免疫系統(tǒng)在特定時(shí)間段內(nèi)應(yīng)對(duì)外界刺激應(yīng)答的能力。
從群體的角度講,人類(lèi)的免疫大分子的多樣性是十分可觀的,因?yàn)槿祟?lèi)幾乎能對(duì)所有外來(lái)感染源產(chǎn)生免疫反應(yīng)??墒窃趥€(gè)體水平,我們的免疫組庫(kù)的大小就有限了。
個(gè)體免疫組庫(kù)的內(nèi)容受三個(gè)因素的控制:遺傳因素;抗原接觸史;時(shí)時(shí)刻刻的免疫調(diào)控。個(gè)體化的免疫組庫(kù)研究可以用來(lái)做疾病相關(guān)性研究,例如尋找Biomarker,對(duì)疾病機(jī)理進(jìn)行一個(gè)全新角度的探討,也可以促進(jìn)對(duì)更多疾病的早期診斷、治療甚至預(yù)防,可應(yīng)用于疫苗和醫(yī)藥的研發(fā)、生物標(biāo)志物的發(fā)現(xiàn)、微小殘留?。∕inimal Residual Disease,MRD)檢測(cè)、自身免疫性疾病的研究以及移植后監(jiān)測(cè)等領(lǐng)域,例如在疾病特異的生物標(biāo)志物的研究中,可通過(guò)高通量測(cè)序在患有同種疾病的人群中找到疾病特異性的CDR3,經(jīng)過(guò)驗(yàn)證后的這些CDR3序列就可以作為代表該病的并可以從外周血中查到的Biomarker;自身免疫性疾病的研究如類(lèi)風(fēng)濕性關(guān)節(jié)炎,可以通過(guò)高通量測(cè)序識(shí)別潛在自體反應(yīng)克隆來(lái)定量早期或已確診的類(lèi)風(fēng)濕性關(guān)節(jié)炎的外周血的T細(xì)胞組庫(kù),作為早期診斷用藥的依據(jù);關(guān)于疫苗的研發(fā),我們可以通過(guò)分析不同年齡段的人群注射疫苗后的效果來(lái)促進(jìn)針對(duì)不同人群的疫苗研發(fā);對(duì)于腫瘤研究,我們可通過(guò)比較患者用藥前后免疫組庫(kù)的變化來(lái)監(jiān)測(cè)疾病、指導(dǎo)用藥,預(yù)防腫瘤復(fù)發(fā)。
研究者可以通過(guò)免疫組庫(kù)測(cè)序(Immune Repertoire sequencing, IR-seq)全面評(píng)估免疫系統(tǒng)的多樣性。該方法是以T/B淋巴細(xì)胞為研究目標(biāo),以多重PCR或5’RACE技術(shù)目的擴(kuò)增決定B細(xì)胞受體(BCR)或T細(xì)胞受體(TCR)多樣性的互補(bǔ)決定區(qū)(CDR區(qū)),再結(jié)合高通量測(cè)序技術(shù),可以深入挖掘免疫組庫(kù)與疾病的關(guān)系。
然而這種方法價(jià)格昂貴,而且需要珍貴的組織樣本。于是研究者另辟蹊徑,考慮到組織或者外周血(PBMC)中包含有表達(dá)的TCR和BCR序列,劉小樂(lè)課題組中Li Song等人在2021年6月開(kāi)發(fā)了TRUST4工具,可以從組織或者外周血的RNA表達(dá)數(shù)據(jù)中挖掘免疫組庫(kù)信息。早在2017年3月,該課題組開(kāi)發(fā)出TRUST(Tcr Receptor Utilities for Solid Tissue)方法,TRUST4性能比TRUST有了更大的提升,既支持FASTQ格式,也支持BAM格式,并且在組裝更長(zhǎng)、甚至是全長(zhǎng)受體庫(kù)方面是更快、更靈敏的。TRUST4還可以從沒(méi)有V(D)J富集的單細(xì)胞RNA-seq(scRNA-seq)數(shù)據(jù)中獲取組庫(kù)序列,并對(duì)SMART-seq和10× Genomics平臺(tái)都是兼容的。
2.運(yùn)行原理
TRUST首先將所測(cè)reads比對(duì)到參考基因組上,將比對(duì)上的reads組裝成contigs,然后根據(jù)IMGT(International Immunogenetics Information System)進(jìn)行注釋:
具體細(xì)節(jié)可以參考下面這張圖:
3.方法效果
首先對(duì)于bulk的RNA-seq數(shù)據(jù),研究者在已知TRB序列生成的RNA-seq數(shù)據(jù)上使用了三種不同的方法,發(fā)現(xiàn)TRUST4比MiXCR多找出281%的CDR3s,比CATT多找出22.9%,比TRUST3多找出57.8%的CDR3s。接著,為了評(píng)估對(duì)BCRs的尋找效率,在有BCR-seq作為金標(biāo)準(zhǔn)的6個(gè)腫瘤RNA-seq數(shù)據(jù)上,TRUST4在5個(gè)數(shù)據(jù)上表現(xiàn)出更高的準(zhǔn)確率和敏感性,同時(shí)只需要MiXCR所需20~25%的運(yùn)行時(shí)間。最后,在全長(zhǎng)組裝方面,TRUST4和MiXCR都能檢測(cè)出全部128個(gè)CDR3s,但是TRUST4可以組裝出93個(gè),而MiXCR只能組裝出39個(gè)。
在單細(xì)胞數(shù)據(jù)上,研究者也做了一系列評(píng)估。在測(cè)試數(shù)據(jù)上,TRUST4可以檢測(cè)到48.1%的TCR CDR3s和78.0%的BCR CDR3s。TRUST4比CellRanger_VDJ時(shí)間快10倍,節(jié)省2倍多的空間。
4.安裝使用
TRUST4的安裝非常簡(jiǎn)單,直接下載代碼網(wǎng)址:https://github.com/liulab-dfci/TRUST4
git clone https://github.com/liulab-dfci/TRUST4.git
然后在下載的代碼所在的文件夾中運(yùn)行make 或者用conda安裝:
conda install -c bioconda trust4
安裝好之后,我們就可以使用TRUST4了。
Usage: ./run-trust4 [OPTIONS]
Required:
-b STRING: path to bam file
-1 STRING -2 STRING: path to paired-end read files
-u STRING: path to single-end read file
-f STRING: path to the fasta file coordinate and sequence of V/D/J/C genes
Optional:
--ref STRING: path to detailed V/D/J/C gene reference file, such as from IMGT database. (default: not used). (recommended)
-o STRING: prefix of output files. (default: inferred from file prefix)
--od STRING: the directory for output files. (default: ./)
-t INT: number of threads (default: 1)
--barcode STRING: if -b, bam field for barcode; if -1 -2/-u, file containing barcodes (defaul: not used)
--barcodeRange INT INT CHAR: start, end(-1 for lenght-1), strand in a barcode is the true barcode (default: 0 -1 +)
--barcodeWhitelist STRING: path to the barcode whitelist (default: not used)
--read1Range INT INT: start, end(-1 for length-1) in -1/-u files for genomic sequence (default: 0 -1)
--read2Range INT INT: start, end(-1 for length-1) in -2 files for genomic sequence (default: 0 -1)
--mateIdSuffixLen INT: the suffix length in read id for mate. (default: not used)
--skipMateExtension: do not extend assemblies with mate information, useful for SMART-seq (default: not used)
--abnormalUnmapFlag: the flag in BAM for the unmapped read-pair is nonconcordant (default: not set)
--noExtraction: directly use the files from provided -1 -2/-u to assemble (default: extraction first)
--repseq: the data is from TCR-seq or BCR-seq (default: not set)
--stage INT: start TRUST4 on specified stage (default: 0)
0: start from beginning (candidate read extraction)
1: start from assembly
2: start from annotation
3: start from generating the report table
TRUST4的輸入文件主要有三個(gè):
- (1) RNA-seq的測(cè)序文件,可以是bam文件,-b,或者是fastq格式,雙端測(cè)序用-1/-2,單端測(cè)序是-u。
- (2)包含V,J,C基因的基因序列和坐標(biāo),-f,網(wǎng)站已經(jīng)提供了hg38_bcrtcr.fa和hg19_bcrtcr.fa
- (3)包含注釋信息的參考數(shù)據(jù)庫(kù)序列,--ref,比如IMGT
下載IMGT序列文件:
perl BuildImgtAnnot.pl Homo_sapien > IMGT+C.fa
這一步會(huì)從IGMT網(wǎng)站下載:
運(yùn)行TRUST4后得到的幾個(gè)文件中,trust_raw.out和trust_final.out是contigs和對(duì)應(yīng)的核酸權(quán)重;trust_annot.fa是組裝注釋文件,trust_cdr3.out記錄了每個(gè)組裝的CDR1,2,3和基因信息,trust_report.tsv主要記錄了CDR3的信息。
參考文獻(xiàn)
Song, L., Cohen, D., Ouyang, Z. et al. TRUST4: immune repertoire reconstruction from bulk and single-cell RNA-seq data. Nat Methods (2021).