文獻(xiàn)閱讀Orchestrating single-cell analysis with Bioconductor

文獻(xiàn)題目:Orchestrating single-cell analysis with Bioconductor
發(fā)表時(shí)間:2020 Feb
發(fā)表雜志:Nature Methods
長文慎入,可以收藏之后慢慢閱讀。

最近的技術(shù)發(fā)展已經(jīng)能夠在單個(gè)細(xì)胞中分析大量的基因組特征。然而,單細(xì)胞數(shù)據(jù)存在獨(dú)特的挑戰(zhàn),需要開發(fā)專門的方法和軟件,以成功獲得生物學(xué)發(fā)現(xiàn)。Bioconductor項(xiàng)目迅速發(fā)展?jié)M足這些需求,使用開源軟件,并以R包的形式分布。以最先進(jìn)的計(jì)算方法、標(biāo)準(zhǔn)化的數(shù)據(jù)基礎(chǔ)應(yīng)用和交互式數(shù)據(jù)可視化工具為特色,同時(shí)我們?yōu)橛脩籼峁┝藛渭?xì)胞分析方法的概述和在線書籍(https://osca.bioconductor.org)
NOTE:這篇文獻(xiàn)感覺很專業(yè),有很多專業(yè)名詞(統(tǒng)計(jì)模型之類的)。這篇文獻(xiàn)主要是讓大家對單細(xì)胞分析有一個(gè)大體的認(rèn)識,以及對每個(gè)重要步驟涉及的軟件包有個(gè)簡單的了解。個(gè)人認(rèn)為可以挑選部分重點(diǎn)理解,不需要全文理解。

自2001年以來,Bioconductor項(xiàng)目吸引了來自不同科學(xué)領(lǐng)域的開發(fā)者和用戶,推動(dòng)了使用R語言分析高通量生物數(shù)據(jù)的開源軟件包的開發(fā)。雖然bulk profiling分析技術(shù)已經(jīng)產(chǎn)生了重要的科學(xué)發(fā)現(xiàn)和方法,但最近測序技術(shù)在單細(xì)胞分辨率的樣品分析方面的進(jìn)展也已經(jīng)出現(xiàn),可以回答以前難以理解的科學(xué)問題。Bioconductor已經(jīng)擁有了大量用于分析bulk profiling數(shù)據(jù)的軟件包,最近它已經(jīng)擴(kuò)展到單細(xì)胞數(shù)據(jù)分析領(lǐng)域,并且快速增長(圖1)。

圖1

目前的單細(xì)胞檢測既可以是高通量,測量成千上萬個(gè)細(xì)胞,也可以是高維,測量每個(gè)細(xì)胞內(nèi)的數(shù)千個(gè)特征。與bulk分析相比,有兩個(gè)單細(xì)胞數(shù)據(jù)的特征:(1)觀測的數(shù)量規(guī)模的增加(即細(xì)胞);(2)由于所測性狀的生物波動(dòng)或定量小分子的靈敏度有限,數(shù)據(jù)的稀疏性增加。這些獨(dú)特的特征推動(dòng)了單細(xì)胞數(shù)據(jù)分析統(tǒng)計(jì)方法的發(fā)展。此外,隨著單細(xì)胞技術(shù)的成熟,不斷增加的復(fù)雜性和數(shù)據(jù)量要求在數(shù)據(jù)訪問、管理和基礎(chǔ)構(gòu)架方面進(jìn)行根本性的改變,同時(shí)使用專門的方法來促進(jìn)可塑化的分析。

為了應(yīng)對這些挑戰(zhàn),為單細(xì)胞數(shù)據(jù)分析開發(fā)的軟件包已經(jīng)成為Bioconductor項(xiàng)目的一個(gè)組成部分。在這里,我們主要關(guān)注單細(xì)胞RNA-seq (scRNA-seq)數(shù)據(jù)的分析,其中提到的許多概念也適用于其他類型的單細(xì)胞分析。我們涵蓋了數(shù)據(jù)導(dǎo)入、存儲(chǔ)單細(xì)胞分析數(shù)據(jù)的常用數(shù)據(jù)容器、將原始單細(xì)胞數(shù)據(jù)轉(zhuǎn)換為適合下游分析的數(shù)據(jù)、交互式數(shù)據(jù)可視化和下游分析的快速和穩(wěn)定的方法。為了幫助用戶利用這個(gè)框架,我們提供了一本在線書籍(https://osca.bioconductor.org),其中包括安裝、幫助、與scRNA-seq分析的特定方面相關(guān)的專門主題,以及分析各種scRNA-seq數(shù)據(jù)集的完整工作流程。

數(shù)據(jù)基本構(gòu)架

Bioconductor最大的優(yōu)勢之一是可以為復(fù)雜的、高度相互依賴的數(shù)據(jù)集提供通用表示和基本構(gòu)架。Bioconductor使用標(biāo)準(zhǔn)化的數(shù)據(jù)容器來實(shí)現(xiàn)不同軟件包的模塊化和互操作性,同時(shí)保持終端用戶的可訪問性。為此,Bioconductor采用了一種靈活的面向?qū)ο蠓妒?,稱為S4,能夠?qū)⒍鄠€(gè)對象組件封裝到一個(gè)實(shí)體中,具有豐富的、用戶友好的界面。這種方法對生物分析特別重要,因?yàn)樵谡麄€(gè)分析過程中,在原始數(shù)據(jù)和metadata之間往往有許多需要保存的聯(lián)系。

SingleCellExperiment容器

Bioconductor使用SingleCellExperiment class存儲(chǔ)單細(xì)胞實(shí)驗(yàn)數(shù)據(jù)和metadata(圖2)。原始數(shù)據(jù),如count矩陣,以一個(gè)或多個(gè)矩陣的形式存儲(chǔ)在分析組件中,其中行代表特征(例如,基因和轉(zhuǎn)錄本),列代表細(xì)胞。此外,原始數(shù)據(jù)的低維表示,以及描述細(xì)胞或特征的metadata也可以存儲(chǔ)在SingleCellExperiment對象中。通過SingleCellExperiment class,所有與scRNA-seq實(shí)驗(yàn)相關(guān)的數(shù)據(jù)和結(jié)果都可以存儲(chǔ)在單一實(shí)體中。通過標(biāo)準(zhǔn)化單細(xì)胞數(shù)據(jù)和結(jié)果的存儲(chǔ),Bioconductor促進(jìn)了單細(xì)胞分析包之間的互操作性,促進(jìn)了復(fù)雜分析工作流程的開發(fā)和使用。

圖2。Each row of the assays corresponds to a row of the rowData (pink shading), while each column of the assays corresponds to a column of the colData and reducedDims (yellow shading).

數(shù)據(jù)處理

本節(jié)的目的是描述大多數(shù)scRNA-seq分析中常見的數(shù)據(jù)處理步驟。這些初步的步驟遵循一個(gè)一般的工作流程(圖3):(1)預(yù)處理原始測序數(shù)據(jù),產(chǎn)生每個(gè)基因(或轉(zhuǎn)錄本)每個(gè)細(xì)胞的表達(dá)count matrix,然后創(chuàng)建一個(gè)SingleCellExperiment對象;(2)應(yīng)用質(zhì)量控制指標(biāo),并隨后去除低質(zhì)量的細(xì)胞,否則會(huì)干擾下游分析;(3)將counts轉(zhuǎn)化為標(biāo)準(zhǔn)化表達(dá)值,消除細(xì)胞和基因特異性偏差;(4)進(jìn)行特征選擇,選擇生物學(xué)相關(guān)基因進(jìn)行下游分析;(5)采用降維方法,壓縮數(shù)據(jù),降低噪聲;(6)如果需要,整合多個(gè)批次的scRNA-seq數(shù)據(jù)。

圖3

預(yù)處理

對于scRNA-seq數(shù)據(jù),預(yù)處理包括測序reads與參考轉(zhuǎn)錄組比對,并將其量化為每個(gè)細(xì)胞和每個(gè)基因的表達(dá)值count matrix。雖然各種預(yù)處理方法可以用命令行進(jìn)行,Bioconductor包例如scPipe和scruff 等提供一個(gè)預(yù)處理流程,完全是用R語言進(jìn)行的。預(yù)處理工作流程使用命令行軟件,Bioconductor包DropletUtils和tximeta 可以從各種工具導(dǎo)入結(jié)果,包括細(xì)胞Cell Ranger(10X Genomics),Kallisto-Bustools和Alevin。值得注意的是,Alevin和Kallisto等偽對齊方法顯著減少了計(jì)算時(shí)間和內(nèi)存使用。

在以上所有的工作流程中,最終的結(jié)果是將一個(gè)count matrix導(dǎo)入R,并創(chuàng)建一個(gè)SingleCellExperiment對象。對于特定的文件格式,我們可以使用DropletUtils(用于10X數(shù)據(jù))或tximeta(用于偽對齊方法)包中的專用方法。

質(zhì)量控制

scRNA-seq數(shù)據(jù)中低質(zhì)量的文庫可能源于多種原因,如分離過程中細(xì)胞損傷或文庫制備失敗(例如,逆轉(zhuǎn)錄或PCR擴(kuò)增效率低下)。這些通常表現(xiàn)為“細(xì)胞”有低counts總數(shù),表達(dá)的基因很少和高線粒體reads比例。這些低質(zhì)量的庫是有問題的,因?yàn)樗鼈兛赡軐?dǎo)致下游分析中的錯(cuò)誤結(jié)果。

對于基于液滴的方法,通常排除不完全包含一個(gè)細(xì)胞的液滴數(shù)據(jù)。DropletUtils包根據(jù)觀察到的每個(gè)微滴條形碼的頻率,以及它們各自的表達(dá)譜與環(huán)境溶液的比較,區(qū)分空孔的微滴和含有細(xì)胞的微滴。它還可以去除基于液滴的實(shí)驗(yàn)中barcode交換產(chǎn)生的artificial細(xì)胞。類似地,可以使用scran或scds包來識別可能包含多個(gè)細(xì)胞(doublets)的液滴,它們將有問題的液滴與模擬doublets的表達(dá)曲線進(jìn)行比較。

在排除空液滴并識別出潛在的doublets液滴后,還要過濾掉含有潛在受損細(xì)胞或read覆蓋不好的液滴。文庫的大?。ǘx為每個(gè)細(xì)胞的所有相關(guān)特征的counts之和)是一個(gè)經(jīng)常用于過濾的指標(biāo)。文庫較小的細(xì)胞更有可能是低質(zhì)量的,因?yàn)樵谖膸熘苽溥^程中,RNA丟失了,要么是由于細(xì)胞裂解,要么是由于cDNA捕獲和擴(kuò)增效率低下。另一個(gè)指標(biāo)是每個(gè)細(xì)胞中表達(dá)特征的數(shù)量,定義為該細(xì)胞中非零counts的內(nèi)源性基因的數(shù)量。表達(dá)基因很少的細(xì)胞可能質(zhì)量較差,如多樣轉(zhuǎn)錄本細(xì)胞群尚未成功捕獲。線粒體基因組中基因的reads比例也可以使用,因?yàn)楦弑壤砻骺赡苡捎诩?xì)胞損傷而丟失細(xì)胞質(zhì)RNA,其中線粒體比單個(gè)轉(zhuǎn)錄分子大,不太可能通過細(xì)胞膜上的孔逃脫。scater包簡化了這些指標(biāo)的計(jì)算。

標(biāo)準(zhǔn)化

在scRNA-seq數(shù)據(jù)中,常??梢杂^察到文庫之間覆蓋率的系統(tǒng)性差異,例如測序深度的差異。這通常是由于跨細(xì)胞的cDNA捕獲或PCR擴(kuò)增效率的差異,這是由于很難用最少的起始材料獲得一致的文庫。Normalization的目的是消除這些系統(tǒng)性差異,使它們不會(huì)干擾細(xì)胞間表達(dá)譜的比較,例如在聚類或差異表達(dá)分析期間。

在這里,我們考慮單個(gè)scRNA-seq實(shí)驗(yàn)中緩和系統(tǒng)差異在的方法,以類似的方式偏向所有基因。這包括,例如,測序深度的變化,以一定的factor衡量所有基因的預(yù)期覆蓋范圍。文庫大小normalization是執(zhí)行scaling標(biāo)準(zhǔn)化的最簡單策略,在scater中實(shí)現(xiàn)。雖然這種方法假設(shè)任何一對細(xì)胞之間的差異表達(dá)基因(DEGs)不存在不平衡,但由于對聚類分離的影響很小,標(biāo)準(zhǔn)化的準(zhǔn)確性通常不是探究性scRNA-seq分析的主要考慮因素。

然而,準(zhǔn)確的標(biāo)準(zhǔn)化對于每個(gè)基因統(tǒng)計(jì)的估計(jì)和解釋是很重要的,如在DEGs中。當(dāng)多個(gè)細(xì)胞類型出現(xiàn)在給定的scRNA-seq dataset中時(shí),最常觀察到系統(tǒng)地改變對數(shù)倍變化的組合偏差。通過解卷積(deconvolution)進(jìn)行的歸一化克服了這個(gè)問題,它匯集了來自許多細(xì)胞的counts,增加counts的大小,以進(jìn)行精確的size factor估計(jì),然后解卷積為每個(gè)細(xì)胞的因子進(jìn)行標(biāo)準(zhǔn)化,在scran中實(shí)現(xiàn)。

另外,BASiCS、zinbwave和MAST提供了基于模型的normalization方法,這些方法不僅可以處理此類文庫的大小或組成的偏差,而且還可以根據(jù)已知的協(xié)變量或其他可能隱藏有生物學(xué)意義變異的內(nèi)在技術(shù)因素進(jìn)行調(diào)整。這些方法支持更復(fù)雜的scaling策略,如數(shù)據(jù)的非線性轉(zhuǎn)換。

Imputation

針對單細(xì)胞檢測中數(shù)據(jù)稀疏性的問題,提出了一種Imputation方法。由于scRNA-seq實(shí)驗(yàn)經(jīng)常不能測量某些基因的表達(dá),導(dǎo)致數(shù)據(jù)中大量的零,zero-inflated的模型已經(jīng)被開發(fā)出來。然而,零"膨脹"的程度因試驗(yàn)類型或方案的不同而不同,這表明最佳的方法是依賴于試驗(yàn)的。此外,imputation用于scRNA-seq數(shù)據(jù)已被證明會(huì)產(chǎn)生假陽性結(jié)果,并降低細(xì)胞類型特異性標(biāo)記物的再現(xiàn)性。

特征選擇

scRNA-seq數(shù)據(jù)的探索性分析通常旨在描述細(xì)胞間的異質(zhì)性。諸如聚類和降維等過程,根據(jù)它們的基因表達(dá)譜來比較細(xì)胞。然而,在這些計(jì)算中使用的基因的選擇對下游方法的行為和性能有重大影響。特征選擇方法的目的是在去除含有隨機(jī)噪聲的基因的同時(shí),識別含有系統(tǒng)生物學(xué)有用信息的基因。通過限制對這些基因的分析,有趣的生物結(jié)構(gòu)得以保留,而不保留結(jié)構(gòu)模糊的variance。此外,關(guān)注這樣一個(gè)轉(zhuǎn)錄組子集可以顯著減少數(shù)據(jù)集的大小,提高下游分析的計(jì)算效率。見參考文獻(xiàn)50,51的特征選擇方法的綜述。

特征選擇最簡單的方法是根據(jù)它們在群體中的表達(dá)來選擇最variable的基因。這假定真正的生物差異將表現(xiàn)為受影響基因的變異增加,而其他基因僅受技術(shù)噪音或不感興趣的生物變異基線水平的影響。但是對數(shù)變換并不能達(dá)到完全的variance穩(wěn)定化。這意味著基因的variance更多地受其豐度的影響,而非潛在的生物異質(zhì)性。因此,計(jì)算每個(gè)基因的variance特征選擇需要建模mean-variance之間的關(guān)系。scran、BASiCS和scFeatureFilter等包采用了這種方法。

也有人提出了不同的variance指標(biāo),比如基于variance選擇基因,這種度量標(biāo)準(zhǔn)用來量化每個(gè)基因在細(xì)胞間持續(xù)表達(dá)的零模型中的匹配程度。與基于variance的特征選擇方法,該方法是基于原始的唯一分子標(biāo)識符(unique molecular identifier, UMI)counts來計(jì)算偏差的,因此該方法對標(biāo)準(zhǔn)化帶來的誤差不那么敏感。偏差可以使用glmpca包計(jì)算。

降維

降維的目的是減少數(shù)據(jù)中單獨(dú)維數(shù)。這是可能的,因?yàn)椴煌幕蚴窍嚓P(guān)的(如果他們受到相同的生物過程的影響)。因此,我們不需要為單個(gè)基因存儲(chǔ)單獨(dú)的信息,而是可以將多個(gè)特征壓縮到一個(gè)維度。因此,降維方法創(chuàng)建低維,旨在保留數(shù)據(jù)集中最有意義的結(jié)構(gòu)。這還有一個(gè)額外的好處,就是通過對多個(gè)基因進(jìn)行平均,可以獲得數(shù)據(jù)中更精確的表示(例如,與特定信號通路相關(guān)),從而減少噪音。下游分析的計(jì)算工作也減少了,因?yàn)橛?jì)算只需要執(zhí)行幾個(gè)維度,而不是數(shù)千個(gè)基因。更 aggressive的降維方案產(chǎn)生二維或三維,可以直接可視化,以協(xié)助解釋結(jié)果。

scRNA-seq數(shù)據(jù)降維的常見的第一步是主成分分析(PCA)。主成分分析法發(fā)現(xiàn)高維空間中捕捉最大數(shù)量variation的軸(主成分,PCs)。頂部PCs捕獲數(shù)據(jù)集中異質(zhì)性的主要factors,因此可以用于有效地進(jìn)行降維。這利用了經(jīng)過充分研究的PCA的理論特性——即,由頂部PCs形成的低排序近似是給定矩陣排序的原始數(shù)據(jù)的最佳近似(這句話不會(huì)翻譯,原話: that a low-rank approximation formed from the top PCs is the optimal approximation of the original data for a given matrix rank.)??紤]到這個(gè)特性,使用頂部PCs執(zhí)行的計(jì)算有助于數(shù)據(jù)壓縮和去噪,其中包括諸如聚類等下游分析。

無論采用何種方法,可視化的降維必然包括丟棄信息和扭曲細(xì)胞之間的距離。因此,直接分析用于繪圖的低維坐標(biāo)是不明智的。相反,這些圖只應(yīng)用于解釋或傳達(dá)基于更準(zhǔn)確、更高級的數(shù)據(jù)表示的定量分析結(jié)果。這確保了分析可以利用壓縮到二維空間時(shí)丟失的信息。例如,考慮到在二維圖上可視化的聚類與使用頂部PC進(jìn)行聚類識別的差異,人們將傾向于選擇后者。

SingleCellExperiment class有一個(gè)專門的組件reducedDims,用于存儲(chǔ)試驗(yàn)數(shù)據(jù)的低維表示(圖2)。scater包為降維算法提供了方便的包裝函數(shù),包括主成分分析(PCA)、t-SNE和UMAP。Diffusion map方法可以通過destiny包獲得。zinbwave和glmpca包分別使用零膨脹負(fù)二項(xiàng)式模型和多項(xiàng)式模型,用于基于模型的降維方法,可以考慮混雜因素。

整合數(shù)據(jù)

由于限制,大型scRNA-seq項(xiàng)目通常需要跨多個(gè)批次生成數(shù)據(jù)。然而,不同批次的處理往往存在不可控制的差異,如操作人員的變化或試劑質(zhì)量的差異。這導(dǎo)致不同批次細(xì)胞中觀察到的表達(dá)水平存在系統(tǒng)性差異。此外,隨著scRNA-seq數(shù)據(jù)的普及和參考數(shù)據(jù)集的可用,在分析環(huán)境中遇到這樣的混雜因素將是不可避免的。這樣的批量效應(yīng)是有問題的,因?yàn)樗鼈兛赡苁菙?shù)據(jù)異質(zhì)性的主要驅(qū)動(dòng)因素,掩蓋了相關(guān)的生物學(xué)差異,并使結(jié)果的解釋復(fù)雜化。

雖然可以使用通用線性建模框架來整合不同的數(shù)據(jù)集,但這些框架在scRNA-seq實(shí)驗(yàn)背景中可能不是最優(yōu)的。這通常是由于潛在的假設(shè),即細(xì)胞群的組成要么是已知的,要么是不同批次的細(xì)胞是相同的。為了克服這些限制,定制的方法已被開發(fā)用于修正單細(xì)胞數(shù)據(jù)的批次效應(yīng),不需要對群體組成的先驗(yàn)知識。這使得在通常無法獲得這些知識的情況下,可以對scRNA-seq數(shù)據(jù)進(jìn)行探索性分析。

在校正批次效應(yīng)之前,檢查批次效應(yīng)的存在是很重要的。這可以通過對所選基因的對數(shù)表達(dá)值執(zhí)行PCA分析來檢查,然后進(jìn)行基于圖的聚類以獲得population結(jié)構(gòu)。理想情況下,聚類應(yīng)該由來自重復(fù)scRNA-seq數(shù)據(jù)集的細(xì)胞組成。然而,如果聚類由單個(gè)批次的細(xì)胞組成,這表明由于技術(shù)差異,同一類型的細(xì)胞被人為分離。像t-SNE和UMAP這樣的方法通常也將顯示不同批次的細(xì)胞之間的強(qiáng)烈分離,這與這種聚類結(jié)果一致。值得注意的是,當(dāng)涉及的批次可能確實(shí)包含獨(dú)特的亞群時(shí),這種依賴混雜程度的判斷可能并不有效,但仍然是一個(gè)有用的初步估計(jì)。

通過預(yù)先標(biāo)記細(xì)胞(參見“Annotation”一節(jié))的監(jiān)督整合可以通過軟件包(如scMerge和scmap)使用,以指導(dǎo)對基因表達(dá)值進(jìn)行批次校正的應(yīng)用或調(diào)整低維表示。另一方面,非監(jiān)督方法,如相互最近鄰(MNN),可以識別來自不同批次的細(xì)胞對,這些細(xì)胞對屬于彼此的最近鄰集合。因此,MNN pairs細(xì)胞間的差異可以用來估計(jì)批次效應(yīng),減去它就可以得到批次校正值。至關(guān)重要的是,通過改變考慮的k近鄰的數(shù)量,可以調(diào)整批次校正,其中較高的k值導(dǎo)致更包容的subpopulations跨批次匹配。這種基于MNN的方法在batchelor包中實(shí)現(xiàn)。

批次校正的成功取決于生物異質(zhì)性的保存,因?yàn)榭梢栽O(shè)想一種簡單地將所有細(xì)胞聚集在一起的校正方法,這將實(shí)現(xiàn)完美的混合,但也拋棄了感興趣的生物學(xué)現(xiàn)象。為此,CellMixS包可用于評估批次間細(xì)胞混合的程度。另一個(gè)有用的啟發(fā)式方法是將合并數(shù)據(jù)中標(biāo)識的聚類與每個(gè)批次標(biāo)識的聚類進(jìn)行比較。理想情況下,我們應(yīng)該看到一個(gè)多對一的映射,其中跨批次聚類嵌套在批次內(nèi)聚類中,表明校正后保留了批次內(nèi)的結(jié)構(gòu)。然后可以計(jì)算Rand指數(shù)等,其中較大的Rand指數(shù)更為可取。

下游統(tǒng)計(jì)分析

方法和工作流程的選擇可以根據(jù)研究的具體目標(biāo)和所使用的實(shí)驗(yàn)方法而有很大的不同。在數(shù)據(jù)處理之后,Bioconductor可以使用工具從單細(xì)胞數(shù)據(jù)中產(chǎn)生新的生物學(xué)發(fā)現(xiàn),這些工具可與SingleCellExperiment class進(jìn)行互操作,并與細(xì)胞數(shù)量成比例。我們的在線圖書(https://osca.bioconductor.org)為用戶提供了下游分析和可視化的工作流程和案例研究(圖4)。

圖4

聚類

聚類用于scRNA-seq數(shù)據(jù)分析,以經(jīng)驗(yàn)定義具有相似表達(dá)譜的細(xì)胞群。這使得我們可以用更容易理解的離散標(biāo)簽來描述種群體異質(zhì)性,而不是試圖去理解細(xì)胞真正所在的高維空間。在對差異表達(dá)的marker基因進(jìn)行注釋后,這些簇就可以作為更抽象的生物學(xué)概念的代表,如細(xì)胞類型或狀態(tài)。

有必要強(qiáng)調(diào)clusters和細(xì)胞類型之間的區(qū)別。前者是經(jīng)驗(yàn)構(gòu)建,而后者是真正生物學(xué)上的定義。因此,認(rèn)識到clusters就像顯微鏡一樣,只是一種探索數(shù)據(jù)的工具是很有幫助的。它可以通過改變聚類參數(shù)的分辨率來放大和縮小,并對不同的聚類進(jìn)行實(shí)驗(yàn),從而獲取數(shù)據(jù)的不同視角。

基于圖的聚類對于聚類大型scRNA-seq數(shù)據(jù)集是一種靈活且可擴(kuò)展的技術(shù)。圖中每個(gè)節(jié)點(diǎn)都是一個(gè)細(xì)胞,每個(gè)細(xì)胞在高維空間中與其最近鄰居(NN)相連。edges的權(quán)重是基于所涉及的細(xì)胞之間的相似性,相關(guān)細(xì)胞的權(quán)重更高。像louvain和leiden這樣的算法可以用來識別細(xì)胞簇。

BiocNeighbors提供了用于精確和估計(jì)最近鄰檢測的方法,scran構(gòu)建實(shí)際的圖。值得注意的是,對于大型scRNA-seq數(shù)據(jù)集,近似NN方法在精確度上的損失是可以接受的,但大大改善了運(yùn)行時(shí)間,并具有平滑噪聲和稀疏性的附加優(yōu)勢。其他方法包括SIMLR包,它使用多個(gè)核心程序來學(xué)習(xí)最適合數(shù)據(jù)的細(xì)胞之間的距離度量,然后用于聚類和降維。對于大數(shù)據(jù),mbkmeans包實(shí)現(xiàn)了k-means算法的可擴(kuò)展版本。最后,SC3和clusterExperiment包計(jì)算從多個(gè)參數(shù)化中導(dǎo)出的共識聚類。

其中許多包允許對聚類結(jié)果進(jìn)行定量和可視化評估,以及專門為數(shù)據(jù)可視化和評估而設(shè)計(jì)的外部包(例如clustree)。聚類也可以進(jìn)行獨(dú)立評估(通過評估諸如聚類模塊化或輪廓系數(shù)等指標(biāo))。

差異表達(dá)

差異基因表達(dá)(DGE)分析可用于識別marker基因,驅(qū)動(dòng)聚類之間的分離。這些marker基因允許我們根據(jù)它們的功能注釋給每個(gè)聚類賦予生物學(xué)意義。在最明顯的情況下,每一簇的marker基因是與特定細(xì)胞類型相關(guān)的先驗(yàn)知識,允許聚類作為細(xì)胞類型身份的代表。同樣的原理也可用于檢測更細(xì)微的差異,如激活狀態(tài)或分化狀態(tài)。對細(xì)胞類型注釋進(jìn)行DGE分析的另一種選擇是基因集富集分析,它將基因分組到預(yù)先指定的基因模塊或生物通路中,以促進(jìn)生物學(xué)解釋。我們將在“Annotation”一節(jié)中討論這個(gè)主題。

DGE還可以用于比較給定群體中不同條件下的單個(gè)細(xì)胞,例如時(shí)間或處理,同時(shí)調(diào)整協(xié)變量(例如,患者識別或批次效應(yīng))。

在不同的差異表達(dá)分析方法中,有兩種常見的方法最為突出。第一種方法改進(jìn)了最初為批量RNA-sequencing(edgeR,DESeq2和limma-voom)設(shè)計(jì)的DE分析框架,這些框架已經(jīng)通過各種方式過渡到scRNA-seq方法,例如通過創(chuàng)建偽批量RNA-seq配置文件。另外,在評估差異表達(dá)(DE)之前,可以使用zinbwave等方法來降低在離散度估計(jì)和模型擬合步驟中觀察到的scRNA-seq數(shù)據(jù)中的多余的零,從而進(jìn)一步使基于批量RNA-seq的DE方法適應(yīng)于scRNA-seq數(shù)據(jù)。

第二類方法是為單個(gè)細(xì)胞數(shù)據(jù)量身定制的,因?yàn)樘岢龅慕y(tǒng)計(jì)方法直接模擬zero-inflation成分,經(jīng)常在scRNA-seq數(shù)據(jù)中觀察到。這些方法明確地將基因表達(dá)分為兩個(gè)成分:離散成分,它描述了離散成分的頻率(零與非零表達(dá));連續(xù)成分,其中基因表達(dá)水平被量化。雖然這里提到的所有方法都可以測試連續(xù)成分的差異,但只有第二類方法可以明確地建模離散分量,從而測試表達(dá)頻率的差異。為此,MAST包使用了一個(gè)障礙模型框架,而scDD、BASiCS和SCDE分別使用貝葉斯混合模型和層次模型??傊?,這些方法能夠提供一套更廣泛的測試功能,并可直接用于SingleCellExperiment class中包含的scRNA-seq數(shù)據(jù)。

軌跡分析

異質(zhì)性也可以被建模作為由生物過程(如細(xì)胞分化)引起的連續(xù)譜。一種針對單細(xì)胞降維分析的專門應(yīng)用——軌跡分析或偽時(shí)間推斷——使用系統(tǒng)發(fā)育方法將細(xì)胞沿著(通常是時(shí)間連續(xù)的)軌跡排序,如隨時(shí)間的發(fā)展。推斷出的軌跡可以識別細(xì)胞狀態(tài)之間的轉(zhuǎn)變、分化過程或動(dòng)態(tài)細(xì)胞過程中"分叉"的事件。

軌跡推斷的現(xiàn)代方法將大量參數(shù)化的需要降至最低,并可以測試不同拓?fù)?例如,Monocle、LineagePulse和switchde)的差異基因表達(dá)。此外,一些用于軌跡推斷的Bioconductor包(如slingshot、TSCAN、Monocle、cellTree和MFA)最近被證明具有出色的性能。由于不同的方法對于相同的數(shù)據(jù)集可能產(chǎn)生截然不同的結(jié)果,因此必須測試一套方法和參數(shù)來評估穩(wěn)定性。Bioconductor通過提供標(biāo)準(zhǔn)化的數(shù)據(jù)表示,如SingleCellExperiment class對象,方便了此類測試。

注釋

scRNA-seq數(shù)據(jù)分析中最具挑戰(zhàn)性的任務(wù)無疑是對結(jié)果的解釋。獲得細(xì)胞clusters是相當(dāng)簡單的,但是要確定每一個(gè)細(xì)胞cluster所代表的生物狀態(tài)就比較困難了。這樣做需要彌合當(dāng)前數(shù)據(jù)集和先前生物學(xué)知識之間的差距,而后者并不總是以一致的方式可用。因此,scRNA-seq數(shù)據(jù)的注釋通常是手動(dòng)的,這是分析工作流程中的一個(gè)常見瓶頸。為了加快這一步驟,可以應(yīng)用各種計(jì)算方法,利用先驗(yàn)信息為無特征的scRNA-seq數(shù)據(jù)集分配意義。最明顯的先驗(yàn)信息來源是與特定生物過程相關(guān)的基因庫(例如,來自GO或KEGG集合)。另一種方法是直接將表達(dá)譜與已發(fā)表的參考數(shù)據(jù)集進(jìn)行比較,其中每個(gè)樣本或細(xì)胞都已經(jīng)由領(lǐng)域?qū)<矣闷浼俣ǖ纳飳W(xué)狀態(tài)進(jìn)行了注釋。

基因集富集

經(jīng)典的基因集富集(GSE)方法具有不需要參考表達(dá)值的優(yōu)點(diǎn)。這在處理從文獻(xiàn)或其他生物學(xué)知識的定性形式中獲得的基因集時(shí)特別有用。在細(xì)胞注釋方面,GSE通常對一組細(xì)胞(或cluster)識別富集在這些細(xì)胞中的基因集(或通路)。然后,富集通路可以用來推斷細(xì)胞類型(或狀態(tài))。

Bioconductor提供專用的包,以編程的方式從數(shù)據(jù)庫(如MSigDB, KEGG, Reactome和gene Ontology (GO))訪問預(yù)定義的基因簽名。EnrichmentBrowser簡化了從這樣的存儲(chǔ)庫收集編譯基因集。這種先驗(yàn)知識用于測試scRNA-seq數(shù)據(jù)中特定基因模塊的富集,通常適用于最初為bulk數(shù)據(jù)開發(fā)的現(xiàn)有基因集分析方法。EnrichmentBrowser、EGSEA和fgsea包都提供了一些經(jīng)典GSE分析版本。在MAST、AUCell和slalom中實(shí)現(xiàn)了GSE測試的替代方法。

自動(dòng)分類細(xì)胞

一種概念上簡單的注釋方法是將單細(xì)胞表達(dá)譜與先前注釋的參考數(shù)據(jù)集進(jìn)行比較。然后,可以根據(jù)最相似的參考樣本或一些其他相似性指標(biāo),將標(biāo)簽分配給非特征數(shù)據(jù)集中的每個(gè)細(xì)胞。這是一個(gè)常見的分類挑戰(zhàn),可以通過標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)技術(shù)來解決,如隨機(jī)森林和支持向量機(jī)。任何已發(fā)表和標(biāo)記的RNA-seq數(shù)據(jù)集(bulk或單細(xì)胞)都可以作為參考,盡管其可靠性在很大程度上取決于最初分配標(biāo)記的原作者的專業(yè)知識。

SingleR 方法為細(xì)胞類型注釋提供了一個(gè)自動(dòng)化系統(tǒng)。SingleR根據(jù)Spearman等級相關(guān)性最高的參考樣本對細(xì)胞進(jìn)行標(biāo)記,因此可以認(rèn)為是k-nearestneighbor分類的一種基于rank的變體。為了減少干擾,SingleR識別成對標(biāo)記之間的marker基因,并僅使用這些markers計(jì)算相關(guān)性。包中包含了一些內(nèi)置的參考數(shù)據(jù)集,這些數(shù)據(jù)集來自各種來源和組織,包括免疫基因組計(jì)劃(ImmGen), ENCODE和免疫細(xì)胞表達(dá)數(shù)據(jù)庫(DICE)。

Accessible analysis

隨著人們對單細(xì)胞檢測數(shù)據(jù)的興趣日益濃厚,Bioconductor不僅開發(fā)了分析數(shù)據(jù)的方法和軟件,而且優(yōu)先考慮使用戶和開發(fā)者都更容易訪問數(shù)據(jù)本身和數(shù)據(jù)分析工具。具體來說,community提供了數(shù)據(jù)包,其中包含公開發(fā)布的數(shù)據(jù)和模擬數(shù)據(jù),以及交互式數(shù)據(jù)可視化工具。使單細(xì)胞數(shù)據(jù)和數(shù)據(jù)分析工具更容易獲得,允許研究人員在他們自己的工作中利用這些資源,并使數(shù)據(jù)分析"民主化"。

基準(zhǔn)測試

隨著新的單細(xì)胞分析、統(tǒng)計(jì)方法和相應(yīng)軟件的開發(fā),促進(jìn)數(shù)據(jù)集的公布、重現(xiàn)現(xiàn)有的分析以及能夠在新的和現(xiàn)有的工具之間進(jìn)行比較變得越來越重要。Bioconductor存儲(chǔ)了一組數(shù)據(jù)包,專注于提供可訪問的、帶有良好注釋的數(shù)據(jù)版本,以便進(jìn)行分析,以及可以用來重現(xiàn)圖片和展示數(shù)據(jù)特征。

為了方便在Bioconductor上查詢已發(fā)布的數(shù)據(jù)包,ExperimentHub包允許使用標(biāo)準(zhǔn)化接口對已發(fā)布的數(shù)據(jù)集進(jìn)行編程訪問。值得注意的是,scRNAseq包提供了對來自各種背景的高質(zhì)量scRNA-seq數(shù)據(jù)的直接訪問。此外,模擬數(shù)據(jù)對于基準(zhǔn)測試方法是有用的。

另外,splatter 包可以模擬包含多種細(xì)胞類型、批次效應(yīng)、不同水平dropout事件、差異基因表達(dá)和軌跡的scRNA-seq數(shù)據(jù)。splatter包使用了它自己的模擬框架,并使用不同的生成模型包裹了其他模擬框架,從而為單細(xì)胞數(shù)據(jù)模擬提供了全面的資源。

為了促進(jìn)再現(xiàn)性基準(zhǔn)比較單細(xì)胞的性能評估方法,軟件開發(fā)提供計(jì)算和存儲(chǔ)基礎(chǔ)框架,將不同的方法應(yīng)用于一個(gè)數(shù)據(jù)集的結(jié)果。SummarizedBenchmark和CellBench包提供接口,存儲(chǔ)metadata和評價(jià)指標(biāo)。

交互式數(shù)據(jù)可視化

web技術(shù)的成熟為交互式數(shù)據(jù)探索開辟了新的途徑,shiny是一個(gè)促進(jìn)rich圖形化開發(fā)的R包用戶界面。iSEE和singleCellTK包為通過internet瀏覽器交互顯示scRNAseq數(shù)據(jù)集提供了全功能的應(yīng)用程序,如果實(shí)例托管在web上,那么就不需要編程經(jīng)驗(yàn)。這兩個(gè)軟件包都直接與SingleCellExperiment數(shù)據(jù)容器接口,以實(shí)現(xiàn)scRNA-seq分析結(jié)果。

最后是展望部分,我就不翻譯了,都是一些很籠統(tǒng)的話了。有興趣的同學(xué)可以自己閱讀。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容