前面說了cellranger安裝和一些簡單的使用,我們繼續(xù)看一下cellranger的結(jié)果。
一文學會單細胞轉(zhuǎn)錄組的CellRanger(一) - 簡書 (jianshu.com)
一、HTML報告解讀
cellranger count 輸出一個名為web_summary.html 的交互式 HTML 文件,其中包含一些匯總的指標和二次分析結(jié)果。如果在運行期間檢測到問題,則此頁面上會顯示warning或error。Cell Ranger 故障排除文檔中提供了有關(guān)警報的詳細信息,可在文檔中進行查詢。
注:如設(shè)置了--nosecondary參數(shù)則沒有二次分析的結(jié)果
1、基本功能
圖是HTML的部分截圖
(1)可以通過單擊 HTML 文件中的“Sequencing”、“Mapping”和“Cells”旁邊的?圖標,來查看指標的含義,點擊后出現(xiàn)如下圖的信息:

(2)可以通過單擊 HTML 文件左上角選項卡中的Summary來查看一些匯總指標。匯總指標描述了測序質(zhì)量和檢測到的細胞的各種特征。點擊Analysis查看二次分析結(jié)果。

2、重要指標含義
(1)、下圖顯示的是檢測到的估計細胞數(shù)、每個細胞的平均reads數(shù)和每個細胞檢測到的基因中位數(shù)。
(2)、“Cells"部分的barcode-rank-plot的分布圖。y 軸是映射到每個barcode的 UMI 計數(shù)值,x 軸是低于該值的barcode數(shù)。急劇下降表示與cell關(guān)聯(lián)的barcode與背景區(qū)關(guān)聯(lián)的barcode之間具有良好的分離。由于barcode可以根據(jù)其UMI計數(shù)或RNA譜與細胞相關(guān)聯(lián),因此圖形的某些區(qū)域可以同時包含細胞相關(guān)和背景相關(guān)barcode。圖形的顏色表示與cell關(guān)聯(lián)的barcode的局部密度。

(3)、測序飽和度Sequencing Saturation: 每個樣本過濾后細胞的reads數(shù)占總reads數(shù)(含背景)的百分比,反應(yīng)測序數(shù)據(jù)利用率,當值達到80%以上,代表測序reads覆蓋了所有mRNA。
(4)、若Reads Mapped Confidently to Intronic Regions的值高于40%,是因為包含pre-mRNA。
(5)、Fraction Reads in Cells :理想情況高于70%,數(shù)據(jù)質(zhì)量則比較好。若值較低,可能是以下兩種情況導致。第一,細胞裂解或死亡,cell ranger將其判斷為背景RNA,導致樣品中背景RNA含量過高;第二,大量具有低 RNA 含量的細胞,算法并未將其判斷為cell導致的。 后一種情況可以通過檢查數(shù)據(jù)來確定適當?shù)募毎嫈?shù)并使用 --force-cells 來解決。
二、filtered_feature_bc_matrix和raw_feature_bc_matrix文件夾
兩個文件夾下的內(nèi)容是一樣的,是稀疏矩陣,包含三個文件。文件的區(qū)別是數(shù)量上的,顧名思義,一個是原始的數(shù)據(jù),一個是過濾后的結(jié)果。后面的分析一般使用filtered_feature_bc_matrix文件夾下的矩陣。
filtered_feature_bc_matrix
├── barcodes.tsv.gz
├── features.tsv.gz
└── matrix.mtx.gz
1、 barcodes.tsv.gz文件存放的細胞的barcodes標簽,可以理解為每個barcode標簽代表一個cell。
$ less barcodes.tsv.gz|head
AAACCCAAGACGCATG-1
AAACCCACACAAGCCC-1
AAACCCACACTTACAG-1
AAACCCAGTAACTTCG-1
AAACCCAGTCTGTTAG-1
AAACCCAGTGAGATAT-1
AAACCCAGTTCGTACA-1
AAACCCATCCGAGATT-1
AAACGAAAGACTTGTC-1
AAACGAAAGCTCACTA-1
2、 features.tsv.gz文件存放的gene id和對應(yīng)的gene name。
$ less features.tsv.gz|head
ENSG00000243485 MIR1302-2HG Gene Expression
ENSG00000237613 FAM138A Gene Expression
ENSG00000186092 OR4F5 Gene Expression
ENSG00000238009 AL627309.1 Gene Expression
ENSG00000239945 AL627309.3 Gene Expression
ENSG00000239906 AL627309.2 Gene Expression
ENSG00000241860 AL627309.5 Gene Expression
ENSG00000241599 AL627309.4 Gene Expression
ENSG00000286448 AP006222.2 Gene Expression
ENSG00000236601 AL732372.1 Gene Expression
3、matrix.mtx.gz文件存放的對應(yīng)barcode和features的對應(yīng)count值。前兩行是一些版本信息等。第三行依次是features數(shù)量總和,barcode數(shù)量總和,count值總和,第四行開始是對應(yīng)的結(jié)果。比如 31 1 4 對應(yīng)的是在features文件第31行的基因,1對應(yīng)的barcode文件中的第1行信息,4對應(yīng)檢測到的count值。
$ less matrix.mtx.gz|head
%%MatrixMarket matrix coordinate integer general
%metadata_json: {"software_version": "cellranger-4.0.0", "format_version": 2}
36601 9620 11561775
31 1 4
74 1 2
81 1 1
84 1 1
87 1 1
114 1 1
171 1 3
三、analysis文件夾
軟件默認會進行二次分析,結(jié)果中會出現(xiàn)analysis文件。如果后續(xù)用其他軟件代替這部分內(nèi)容(比如Seurat、Scanpy等),可以設(shè)置了--nosecondary參數(shù),省略二次分析。以下是analysis文件夾的結(jié)構(gòu):
clustering
├── graphclust
├── kmeans_10_clusters
├── kmeans_2_clusters
├── kmeans_3_clusters
├── kmeans_4_clusters
├── kmeans_5_clusters
├── kmeans_6_clusters
├── kmeans_7_clusters
├── kmeans_8_clusters
└── kmeans_9_clusters
diffexp
├── graphclust
├── kmeans_10_clusters
├── kmeans_2_clusters
├── kmeans_3_clusters
├── kmeans_4_clusters
├── kmeans_5_clusters
├── kmeans_6_clusters
├── kmeans_7_clusters
├── kmeans_8_clusters
└── kmeans_9_clusters
pca
└── 10_components
tsne
└── 2_components
umap
└── 2_components
1、pca 降維
在對細胞進行聚類之前,在歸一化過濾的矩陣上運行主成分分析 (PCA),以減少features(基因)維度的數(shù)量。僅將基因表達特征用作 PCA 特征。PCA 分析生成五個輸出文件。第一個是每個cell對前 N 個主分量的投影。默認情況下 N=10。
$ head -2 analysis/pca/gene_expression_10_components/projection.csv
Barcode,PC-1,PC-2,PC-3,PC-4,PC-5,PC-6,PC-7,PC-8,PC-9,PC-10
AAACAAGCACCATACT-1,18.55496347631502,-8.428877305709332,3.7717969735420835,-0.61215157678172,-1.0987614379684771,2.194733668965279,-2.6595895212967386,-2.8703699622639114,1.867229094193604,0.2658532968798859
第二個文件是一個分量矩陣,它指示每個特征對每個主分量的貢獻(荷載)。未包含在 PCA 分析中的要素的所有載荷值都設(shè)置為零。
$ head -2 analysis/pca/gene_expression_10_components/components.csv
PC,ENSG00000228327,ENSG00000237491,ENSG00000177757,ENSG00000225880,...,ENSG00000160310
1,-0.0044,0.0039,-0.0024,-0.0016,...,-0.0104
第三個文件包含選擇用于主成分計算的具有最高離散的要素的gene id。
$ head -5 analysis/pca/gene_expression_10_components/features_selected.csv
Feature
1,ENSG00000167723
2,ENSG00000179029
3,ENSG00000196544
4,ENSG00000141499
第四個文件記錄每個主成分解釋的總方差比例。 在選擇重要的主成分數(shù)量時,查看很有用,當數(shù)字變化平緩時, 后續(xù) PC 在數(shù)據(jù)中的意義不大。
$ head -5 analysis/pca/gene_expression_10_components/variance.csv
PC,Proportion.Variance.Explained
1,0.0056404970744118104
2,0.0038897311237809061
3,0.0028803714818085419
4,0.0020830581822081206
最后一個文件列出了每個要素,按平均表達式對要素進行分箱后的歸一化離散程度,用于度量每個特征的可變性。
$ head -5 analysis/pca/gene_expression_10_components/dispersion.csv
Feature,Normalized.Dispersion
ENSG00000228327,2.0138970131886671
ENSG00000237491,1.3773662040549017
ENSG00000177757,-0.28102027567224191
ENSG00000225880,1.9887312950109921
2、t-SNE
運行 PCA 后,運行 t-distributed Stochastic Neighbor Embedding(t-SNE) 將數(shù)據(jù)在一個2D的維度進行可視化。
$ head -5 analysis/tsne/gene_expression_2_components/projection.csv
Barcode,TSNE-1,TSNE-2
AAACATACAACGAA-1,-13.5494,1.4674
AAACATACTACGCA-1,-2.7325,-10.6347
AAACCGTGTCTCGC-1,12.9590,-1.6369
AAACGCACAACCAC-1,-9.3585,-6.7300
3、UMAP
運行 PCA 后,運行Uniform Manifold Approximation and Projection(UMAP)將數(shù)據(jù)在一個2D的維度進行可視化。
$ head -5 analysis/umap/gene_expression_2_components/projection.csv
Barcode,UMAP-1,UMAP-2
AAACCTGAGAATAGGG-1,0.5974335,1.320372
AAACCTGAGAGCTGGT-1,2.2277818,-0.52756095
AAACCTGAGCGTTGCC-1,2.675832,1.1010709
AAACCTGCACGGACAA-1,2.7049212,-3.1494563
4、clustering 聚類
運行聚類分析,根據(jù)具有相似表達譜的細胞在 PCA 空間中的投影,將它們分組在一起。cellranger使用了兩中方法:
- Graph-based
??圖聚類算法包括兩步:首先用PCA降維的數(shù)據(jù)構(gòu)建一個細胞間的k近鄰稀疏矩陣,即將一個細胞與其歐式距離上最近的k個細胞聚為一類,然后在此基礎(chǔ)上用Louvain算法進行模塊優(yōu)化,旨在找到圖中高度連接的模塊。最后通過層次聚類將位于同一區(qū)域內(nèi)沒有差異表達基因(B-H adjusted p-value 低于0.05)的cluster進一步融合,重復該過程直到?jīng)]有clusters可以合并。因為它不需要預先指定數(shù)量的聚類,只需要運行一次。 - K-Means
??k-means算法隨機在PCA降維的空間中適當選取k個聚類質(zhì)心點,對于每一個細胞計算其應(yīng)該屬于的cluster,然后對于每一個cluster重新計算該cluster的質(zhì)心,重復該過程直到收斂。注意這里K-means針對 K=2,...,N 的許多值運行,其中 K 對應(yīng)于聚類數(shù)。默認情況下 N=10(與圖聚類算法的k意義不同),質(zhì)心代表對屬于同一個cluster的細胞中心點的猜測。k-means可說是最簡單、最經(jīng)典的聚類算法。
$ ls analysis/clustering
gene_expression_graphclust
gene_expression_kmeans_10_clusters
gene_expression_kmeans_2_clusters
gene_expression_kmeans_3_clusters
gene_expression_kmeans_4_clusters
gene_expression_kmeans_5_clusters
gene_expression_kmeans_6_clusters
gene_expression_kmeans_7_clusters
gene_expression_kmeans_8_clusters
gene_expression_kmeans_9_clusters
5、diffexp差異表達
cellranger還會生成一個表,指示每個聚類中相對于所有其他聚類中哪些要素以差異方式表示。對于每個特征和每個聚類 i,我們計算三個值:
- The mean expression of this feature in cluster i (i.e., across cells assigned to cluster i)
- The log2 fold-change of this feature's mean expression in cluster i relative to all other cells
- A p-value denoting significance of this feature's expression in cluster i relative to cells in other clusters. P-values within each cluster are adjusted for false discovery rate to account for the number of hypotheses (i.e., number of features) being tested.
$ head -5 analysis/diffexp/gene_expression_kmeans_3_clusters/differential_expression.csv
Feature ID,Feature Name,Cluster 1 Mean UMI Counts,Cluster 1 Log2 fold change,Cluster 1 Adjusted p value,Cluster 2 Mean UMI Counts,Cluster 2 Log2 fold change,Cluster 2 Adjusted p value,Cluster 3 Mean UMI Counts,Cluster 3 Log2 fold change,Cluster 3 Adjusted p value
ENSG00000228327,RP11-206L10.2,0.0056858989363338264,2.6207666981569986,0.00052155805898912184,0.0,-0.75299726644507814,0.64066099091888962,0.00071455453829430329,-2.3725403666493312,0.0043023680184636837
ENSG00000237491,RP11-206L10.9,0.00012635330969630726,-0.31783275717885928,0.40959138980118809,0.0,3.8319652342760779,0.11986963938734894,0.0,0.56605908868652577,0.39910771338768203
ENSG00000177757,FAM87B,0.0,-2.9027952579000154,0.0,0.0,3.2470027335549219,0.19129034227967889,0.00071455453829430329,3.1510215894076818,0.0
ENSG00000225880,LINC00115,0.0003790599290889218,-5.71015017995762,8.4751637615375386e-28,0.20790015775229512,7.965820981010868,1.3374521290889345e-46,0.0017863863457357582,-2.2065304152104019,0.00059189960914085744