單細胞多模態(tài)數(shù)據(jù)整合分析

作者:椰子糖
審稿:童蒙
編輯:amethyst

隨著單細胞測序技術(shù)的發(fā)展,多種組學(xué)的單細胞數(shù)據(jù)也越來越多,要如何更好的使用多組學(xué)的數(shù)據(jù)去解析樣本的細胞組成和特征情況呢?今年4月份發(fā)表在Cell雜志上單細胞多模態(tài)數(shù)據(jù)的整合分析這篇文章中介紹了WNN(Weighted-nearest neighbor,加權(quán)最近鄰)的算法,seurat團隊使用不同的數(shù)據(jù)集對算法模型的構(gòu)建、驗證及應(yīng)用進行了深入淺出的說明。在對文章進行說明前,首先來了解一下10XGenomics推出的一份樣本獲得兩種組學(xué)的產(chǎn)品10XATAC_GEM雙組學(xué)的原理。

10XATAC_GEM雙組學(xué)

單細胞轉(zhuǎn)錄組的優(yōu)勢在于可以發(fā)現(xiàn)新的細胞類群,但難以發(fā)現(xiàn)分子相似,功能不同的類群,例如T細胞中,RNA量少,RNA酶多,就難以區(qū)分亞類群,而此時多組學(xué)就有了更多的優(yōu)勢。10X單細胞雙組學(xué)的原理如下圖所示:

獲取細胞核后,先利用轉(zhuǎn)座酶試劑對其進行轉(zhuǎn)座反應(yīng),對染色質(zhì)開放區(qū)的DNA進行打斷和片段化,單細胞分選,油包水液滴(GEM)中并被回收,隨后細胞核開始裂解并釋放出DNA片段及mRNA,在GEM液滴中完成逆轉(zhuǎn)錄反應(yīng),同時為DNA片段及cDNA標記上該液滴中Gelbead所帶有的特定Barcode標簽序列。最終構(gòu)建出如下圖所示的兩種不同的文庫包括單細胞核轉(zhuǎn)錄組文庫和ATAC的文庫:

這兩種文庫與單獨的轉(zhuǎn)錄組和ATAC文庫無異,僅在ATAC的index序列中增加了8bp的spacer序列。

那么問題來了如何整合這兩個組學(xué)的數(shù)據(jù)呢?seurat團隊給我們提供了一個有效的算法和思路。

文章概覽

多模態(tài)分析(multimodal analysis)就是同時測量單細胞的多模態(tài)數(shù)據(jù),它代表了單細胞基因組學(xué)的一個發(fā)展方向,同時也需要基于多種數(shù)據(jù)類型的新的計算方法來描述細胞狀態(tài)。文章介紹了“加權(quán)最近鄰(weighted-nearest neighbor,WNN)”分析:使用一個無監(jiān)督的框架來學(xué)習每個細胞中每種數(shù)據(jù)類型的相對效用,使多種模式的整合分析成為可能。將文章的算法應(yīng)用于包含幾十萬個人類白細胞的CITE-seq數(shù)據(jù)集以及228個抗體的panel上,以構(gòu)建一個循環(huán)免疫系統(tǒng)的多模態(tài)參考圖譜。文章表明整合分析大大提高了描述細胞狀態(tài)的能力,并驗證了新的淋巴亞群的存在。此外,文章還演示了如何利用這一參考快速繪制新數(shù)據(jù)集,并解釋免疫接種和COVID-19的免疫反應(yīng)。

文章概覽如下:

背景介紹

對人類免疫系統(tǒng)中豐富多樣的細胞類型進行分類鑒定,對單細胞基因組學(xué)來說是一個有力的證明,但也展現(xiàn)出了他的局限性。雖然單細胞轉(zhuǎn)錄組 (scRNA-seq)能夠發(fā)現(xiàn)異質(zhì)組織中的新細胞類型和狀態(tài),但單靠轉(zhuǎn)錄組學(xué)常常無法分離分子上相似但功能上不同的免疫細胞類型。盡管T細胞具有功能多樣性,但不同的T細胞群,如效應(yīng)細胞、調(diào)節(jié)細胞、細胞內(nèi)固定細胞和黏膜相關(guān)不變T細胞(MAIT),即使使用最敏感和最尖端的技術(shù),通常也不能僅用scRNA-seq有效地分離它們。

多模態(tài)單細胞技術(shù),在同一細胞中同時描述多種數(shù)據(jù)類型,代表了細胞狀態(tài)發(fā)現(xiàn)和鑒定的新前沿。例如,最近引入了CITE-seq,它利用寡核苷酸偶聯(lián)抗體,通過測序抗體衍生標簽(antibody-derived tags ,ADTs),同時量化單細胞內(nèi)RNA和表面蛋白的豐度。此外,隨著技術(shù)進步,現(xiàn)在可以在染色質(zhì)可及性(ATAC)、DNA甲基化、核小體占位(nucleosome occupancy )或空間定位的同時對轉(zhuǎn)錄組進行分析。這些方法都提供了一個令人興奮的解決方案,以克服scRNA-seq固有的局限性,并探索多種細胞模式如何影響細胞狀態(tài)和功能。

在這里,文章引入了“加權(quán)最近鄰”(weighted-nearest neighbor,WNN)方法,這是一個分析框架,用于集成細胞內(nèi)測量的多種數(shù)據(jù)類型,并獲得細胞狀態(tài)的聯(lián)合定義。該方法是基于非監(jiān)督策略來學(xué)習細胞特定模態(tài)的“權(quán)重”,它反映每個模態(tài)的信息內(nèi)容,并確定其在下游分析中的相對重要性。我們證明,WNN分析大大提高了我們定義多種生物數(shù)據(jù)類型中的細胞狀態(tài)的能力。我們利用這種方法,基于包含211,000人外周血單核細胞(PBMC)的CITE-seq數(shù)據(jù)集生成多模式“圖譜”,具有可擴展228個抗體的大細胞表面蛋白標記panel。利用這個數(shù)據(jù)集來識別和驗證人類淋巴細胞中的異質(zhì)細胞狀態(tài),并探索人類免疫系統(tǒng)對疫苗接種和SARS-CoV-2感染的反應(yīng)。WNN在開源R工具包Seurat的更新版本中實現(xiàn),代表了對單細胞數(shù)據(jù)進行綜合多模態(tài)分析的廣泛適用的策略。

結(jié)果

01構(gòu)建-量化每個細胞中每個模式的相對效用

文章使用臍帶血單核細胞的CITE-seq數(shù)據(jù)和10個免疫標記共檢測8617個細胞來進行算法的構(gòu)建。要整合分析這兩種狀態(tài)的數(shù)據(jù),要求分析方法滿足以下條件:第一,robust,適應(yīng)不同模態(tài)的數(shù)據(jù);第二,能夠進行多模態(tài)下游分析;第三,多模態(tài)比單模態(tài)下,性能能強?;谶@個數(shù)據(jù)和要求構(gòu)建了WNN的算法。如下圖所示,在分析轉(zhuǎn)錄組時,CD8+和CD4+ T細胞部分混合在一起,但在蛋白數(shù)據(jù)中清晰分離。相比之下,傳統(tǒng)的樹突狀細胞(cDCs),以及罕見的紅系祖細胞和小鼠類3T3對照,在分析RNA時形成不同的簇,但根據(jù)表面蛋白豐度顯示存在與其他類型的細胞混合。對每個細胞,首先計算每個模態(tài)k=20個最近鄰的集合,接下來分別對蛋白近鄰的分子和RNA近鄰的分子表達量求平均值,并將平均值與原始值進行比較。結(jié)果顯示基于蛋白knn的預(yù)測比基于RNA knn的預(yù)測更準確。然后利用預(yù)測的相對準確性來計算RNA和蛋白質(zhì)的權(quán)重,從而衡量每個細胞中的相對信息。

WNN工作流中,關(guān)鍵的步驟如下:1.獲得各模態(tài)預(yù)測和跨模態(tài)預(yù)測;2.基于細胞特定帶寬核(cell-specific bandwidth kernel)將這些預(yù)測轉(zhuǎn)化為預(yù)測親和力;3.使用softmax變換計算模態(tài)權(quán)重。RNA和蛋白質(zhì)模態(tài)權(quán)重是非負的,對每個細胞都是唯一的,總和為1。

最后一步整合并創(chuàng)建一個加權(quán)最近鄰圖(WNN圖),基于標準化后的RNA和蛋白質(zhì)的加權(quán)平均值,計算一組新的knn的細胞。計算公式如下圖:

02 驗證(WNN分析是一種穩(wěn)定且靈活的多模態(tài)分析方法)

驗證數(shù)據(jù)集1:CITE-seq和25中抗體,共檢測30672個細胞

該數(shù)據(jù)集的結(jié)果表明WNN的整合大大提高了對細胞狀態(tài)的注釋,相較于單一模態(tài)更加精細化,更加完善,例如T細胞組,在scRNA分析中基本被掩蓋,但是卻有較高的蛋白模態(tài)的權(quán)重。驗證WNN的穩(wěn)定性時,高斯噪音比重增加時會降低蛋白模態(tài)在數(shù)據(jù)分析中的比重。

驗證數(shù)據(jù)集2:10xGenomic PBMC細胞的ATAC和轉(zhuǎn)錄組數(shù)據(jù),共檢測11351個細胞

該數(shù)據(jù)集結(jié)果表明,模態(tài)組合展現(xiàn)了更優(yōu)秀的免疫亞群的分類,其中ATAC-seq數(shù)據(jù)更能分離初始CD8 +及CD4 + T細胞狀態(tài)由于可靠的檢測細胞特定類型開放的染色質(zhì)區(qū)域。該算法能夠更敏感和強勁捕獲異質(zhì)性,可靈活地應(yīng)用于多種數(shù)據(jù)類型,進行綜合多模態(tài)分析。

驗證數(shù)據(jù)集3:ASAP-seq HumanPBMC細胞的ATAC數(shù)據(jù)和227個蛋白,共檢測4725個細胞

驗證數(shù)據(jù)集4:SHARE-seq 小鼠的皮膚細胞的ATAC數(shù)據(jù)和轉(zhuǎn)錄組數(shù)據(jù),共檢測34774個細胞

以上兩個數(shù)據(jù)集同樣證明了WNN優(yōu)秀的整合分析的能力,更加的精細化。

03 應(yīng)用

文章應(yīng)用這個分析方法研究了多個主題方向,其中之一就是人類外周血單核細胞的多模態(tài)圖譜。利用CITE-seq技術(shù)以及優(yōu)化的抗體panel和整合的WNN分析策略,生成人類PBMC的多模態(tài)圖譜。從8名參與艾滋病毒疫苗試驗的志愿者中獲得了PBMC樣本,年齡跨度20-49歲(中位年齡36.5歲)。每個受試者在三個時間點采集PBMCs:注射HIV疫苗前(第0天)、第3天和第7天。整個數(shù)據(jù)集由24個樣本組成,并使用“Cell hash”來最小化技術(shù)批次效應(yīng)。對于每個樣本,我們使用10X Chromium 3 '(使用228 TotalSeq A抗體)對細胞進行分析,總共代表了161,764個細胞(平均8,003個RNA分子/細胞,5,251個ADT/細胞)。并且還使用ECCITE-seq對所有樣本中共49,147個細胞進行了分析,該技術(shù)可使用10X 5 '技術(shù)對表面蛋白進行。雖然后一組實驗包含了54種抗體,其中包括實驗室偶聯(lián)抗體和TotalSeq-C試劑,反映了在實驗時商業(yè)偶聯(lián)的可用性,但我們也能夠?qū)@些細胞進行免疫庫圖譜分析。經(jīng)過NovaSeq測序、嚴格的質(zhì)量控制和雙重過濾(補充方法),我們最終的數(shù)據(jù)集包含210,911個細胞,并允許我們分析靜息(未接種)和激活(接種后)免疫系統(tǒng)的細胞異質(zhì)性。

該WNN分析中鑒定了57個類群,包括所有主要和次要的免疫細胞類型,并揭示了細胞的多樣性,特別是在淋巴細胞中。除了罕見的細胞類型外,每一類群的細胞都來自全部24個樣本。我們的聚類可以分為幾個大類別,包括CD4 + T細胞(12類),CD8 + T細胞(12類),非傳統(tǒng)的T細胞(7類),NK細胞(6類),B細胞,漿細胞和plasmablasts(8類),樹突細胞和單核細胞(8類),和罕見的集群造血祖細胞、血小板、紅細胞和循環(huán)先天淋巴細胞(ILC)。為了更好的解釋聚類結(jié)果,文章為將細胞進行三個粒度越來越大的注釋(級別1,8個類別;第2級,30個類別;3級,57個類別)。雖然在T細胞亞群有較大程度的異質(zhì)性,我們的分析明確確定異構(gòu)子集的髓細胞與最近的高分辨率scRNA-seq完全整合分析排序的數(shù)量,包括極其罕見的人群(0.02%)定義的樹突狀細胞表達 AXL 和SIGLEC6。

總結(jié)

總之,WNN算法的分析有助于揭示細胞的亞種群差異。雖然我們目前對WNN分析的實現(xiàn)側(cè)重于對兩種模式的分析,但隨著這些技術(shù)的成熟,該框架可以很容易地擴展到處理任意數(shù)量的多模態(tài)數(shù)據(jù)。因此,其為綜合多模態(tài)分析提供了一種途徑,可以超越細胞的局部和轉(zhuǎn)錄聚焦的觀點,并對細胞行為、身份和功能進行統(tǒng)一定義。

參考文獻

[1] Hao Y , Hao S , Andersen-Nissen E , et al. Integrated analysis of multimodal single-cell data[J]. 2021.
[2] https://www.10xgenomics.com/
[3] https://atlas.fredhutch.org/nygc/multimodal-pbmc/

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容