單細(xì)胞轉(zhuǎn)錄組人工注釋?zhuān)╩anual annotation)是單細(xì)胞RNA測(cè)序(scRNA-seq)數(shù)據(jù)分析中的關(guān)鍵步驟,旨在通過(guò)生物學(xué)知識(shí)對(duì)細(xì)胞群體進(jìn)行分類(lèi)和功能鑒定。后續(xù)的分析都是基于以上定義結(jié)果,因此這一步非常關(guān)鍵。單細(xì)胞注釋做的不好,對(duì)后面分析的結(jié)果會(huì)產(chǎn)生重要影響。
為什么需要人工注釋?zhuān)?/h1>
- 自動(dòng)注釋工具的局限性:
盡管自動(dòng)化工具(如SingleR、CellAssign)可利用參考數(shù)據(jù)庫(kù)(如Human Cell Atlas)進(jìn)行預(yù)測(cè),但其準(zhǔn)確性依賴(lài)參考數(shù)據(jù)的完整性,且難以識(shí)別新細(xì)胞類(lèi)型或過(guò)渡狀態(tài)。根據(jù)項(xiàng)目經(jīng)驗(yàn),自動(dòng)化注釋準(zhǔn)確率大約在80%之間,一些特殊物種、組織或者質(zhì)量不是很好的數(shù)據(jù)使用自動(dòng)注釋準(zhǔn)確率會(huì)更低。因此,人工手動(dòng)注釋被認(rèn)為是細(xì)胞類(lèi)型注釋的“金標(biāo)準(zhǔn)”。
- 生物學(xué)背景的重要性:
人工注釋結(jié)合已知的標(biāo)記基因(marker genes)和背景知識(shí)(如免疫細(xì)胞的CD標(biāo)記、神經(jīng)細(xì)胞的特定轉(zhuǎn)錄因子),并結(jié)合具體疾病類(lèi)型來(lái)判斷細(xì)胞類(lèi)型或狀態(tài),可更靈活地驗(yàn)證或修正聚類(lèi)結(jié)果,但是人工注釋可能耗時(shí)過(guò)長(zhǎng),并且存在主觀性。
人工注釋的核心方法
盡管自動(dòng)化工具(如SingleR、CellAssign)可利用參考數(shù)據(jù)庫(kù)(如Human Cell Atlas)進(jìn)行預(yù)測(cè),但其準(zhǔn)確性依賴(lài)參考數(shù)據(jù)的完整性,且難以識(shí)別新細(xì)胞類(lèi)型或過(guò)渡狀態(tài)。根據(jù)項(xiàng)目經(jīng)驗(yàn),自動(dòng)化注釋準(zhǔn)確率大約在80%之間,一些特殊物種、組織或者質(zhì)量不是很好的數(shù)據(jù)使用自動(dòng)注釋準(zhǔn)確率會(huì)更低。因此,人工手動(dòng)注釋被認(rèn)為是細(xì)胞類(lèi)型注釋的“金標(biāo)準(zhǔn)”。
人工注釋結(jié)合已知的標(biāo)記基因(marker genes)和背景知識(shí)(如免疫細(xì)胞的CD標(biāo)記、神經(jīng)細(xì)胞的特定轉(zhuǎn)錄因子),并結(jié)合具體疾病類(lèi)型來(lái)判斷細(xì)胞類(lèi)型或狀態(tài),可更靈活地驗(yàn)證或修正聚類(lèi)結(jié)果,但是人工注釋可能耗時(shí)過(guò)長(zhǎng),并且存在主觀性。
基于先驗(yàn)知識(shí),人工注釋前我們需要知道樣本中包含有哪些主要的細(xì)胞類(lèi)型,需要分出那些大類(lèi),其中那些大類(lèi)需要進(jìn)行細(xì)分,需要分為多少亞型。比如:心臟組織應(yīng)該有心肌細(xì)胞、平滑肌細(xì)胞、成纖維細(xì)胞等,PBMC中有應(yīng)該有T細(xì)胞、B細(xì)胞、單核細(xì)胞、中性粒細(xì)胞等。根據(jù)不同的樣本組織,選擇合適的marker基因進(jìn)行判斷。
1、 標(biāo)記基因:
- 查閱文獻(xiàn)相關(guān)疾病組織中報(bào)道的關(guān)鍵標(biāo)記基因
- 對(duì)聚類(lèi)結(jié)果進(jìn)行差異分析(如FindAllMarkers in Seurat)篩選聚類(lèi)特異性基因,與已知細(xì)胞類(lèi)型的標(biāo)記基因比對(duì)(如上皮細(xì)胞的 EPCAM、T細(xì)胞的 CD3D)。
- 數(shù)據(jù)庫(kù)查找(這里例舉2個(gè)比較常見(jiàn)的數(shù)據(jù)庫(kù))
CellMarker
支持物種:人類(lèi)(Homo sapiens)和小鼠(Mus musculus)。
組織/器官:覆蓋158個(gè)人類(lèi)組織(如心臟、肺、肝臟)和81個(gè)小鼠組織。
細(xì)胞類(lèi)型:包含數(shù)千種細(xì)胞類(lèi)型及亞型(如CD4+ T細(xì)胞、肺泡上皮細(xì)胞)。
標(biāo)記基因數(shù)量:截至最新版本(如CellMarker 2.0),包含約13,605個(gè)標(biāo)記基因(人類(lèi))和9,476個(gè)(小鼠)。
PanglaoDB
支持物種:人類(lèi)(Homo sapiens)和小鼠(Mus musculus)。
單細(xì)胞數(shù)據(jù)集:整合了來(lái)自1,000+單細(xì)胞研究的轉(zhuǎn)錄組數(shù)據(jù)(如10x Genomics、Smart-seq2等平臺(tái))。
細(xì)胞類(lèi)型:涵蓋超過(guò)200種主要細(xì)胞類(lèi)型及亞型(如神經(jīng)元亞型、免疫細(xì)胞亞群)。
標(biāo)記基因數(shù)量:包含約6,000個(gè)高置信度標(biāo)記基因(截至最新版本)。
注:參考基因組使用版本不同,基因名有很多別名,導(dǎo)致與數(shù)據(jù)不符合,可以使用GeneCards進(jìn)行查看。
2、多層級(jí)注釋策略:
粗注釋?zhuān)簠^(qū)分大類(lèi)(如免疫細(xì)胞 vs. 非免疫細(xì)胞);
細(xì)注釋?zhuān)杭?xì)分亞群(如CD4+ T細(xì)胞 vs. CD8+ T細(xì)胞);
驗(yàn)證:通過(guò)通路分析(如GO、KEGG)或?qū)嶒?yàn)驗(yàn)證(如流式細(xì)胞術(shù))。
實(shí)例
2021年6月17日,南方醫(yī)科大學(xué) Bin Yang 研究團(tuán)隊(duì)在《Nature Communications》發(fā)表文章"Single-cell RNA-seq reveals fibroblast heterogeneity and increased mesenchymal fibroblasts in human fibrotic skin diseases",使用單細(xì)胞測(cè)序探究成纖維細(xì)胞的異質(zhì)性和發(fā)病機(jī)制。
1、大類(lèi)定義
首先對(duì) 40655 個(gè)細(xì)胞進(jìn)行無(wú)偏聚類(lèi),顯示 21 個(gè)細(xì)胞簇。將這21個(gè)cluster分為了大類(lèi),分別為:內(nèi)皮細(xì)胞、成纖維細(xì)胞、平滑肌細(xì)胞、角質(zhì)形成細(xì)胞、免疫細(xì)胞、淋巴內(nèi)皮細(xì)胞、汗腺細(xì)胞、神經(jīng)細(xì)胞、黑色素細(xì)胞和“未知”群。



2、細(xì)分亞群
因?yàn)槌衫w維細(xì)胞(fibroblasts )是纖維發(fā)病機(jī)制中最重要的細(xì)胞類(lèi)群。文章對(duì)成纖維細(xì)胞進(jìn)行進(jìn)一步的亞群分析。對(duì)分出的不同cluster的細(xì)胞占比進(jìn)行統(tǒng)計(jì),也進(jìn)行了富集分析,探究其細(xì)胞的特征。如有必要還可以取出其中一個(gè)群再次進(jìn)行細(xì)分。

比如張澤民課題組在把T細(xì)胞分的更細(xì)致。首先就是使用流式篩選針對(duì)CD4或者CD8的T細(xì)胞進(jìn)行測(cè)序再進(jìn)行后續(xù)分析。

所有細(xì)胞分出了CD4與CD8兩大類(lèi)T細(xì)胞

分別對(duì)CD8 T cells和CD4 T cells進(jìn)行細(xì)分, 其中,CD8 T cell分出8個(gè)亞群, CD4 T cells分出了12個(gè)亞群。文章給出了各自的高表達(dá)量基因的熱圖、tSNE圖和小提琴圖。當(dāng)然除此之外,我們還可以采取氣泡圖等其他形式進(jìn)行展示。




文章也提供細(xì)胞亞群的生物學(xué)功能命名,以及各自的高表達(dá)量基因表格,后續(xù)相關(guān)的T細(xì)胞亞型定義可以參考這些marker基因。

參考文獻(xiàn)
Deng CC, Hu YF, Zhu DH, Cheng Q, Gu JJ, Feng QL, Zhang LX, Xu YP, Wang D, Rong Z, Yang B. Single-cell RNA-seq reveals fibroblast heterogeneity and increased mesenchymal fibroblasts in human fibrotic skin diseases. Nat Commun. 2021 Jun 17;12(1):3709. doi: 10.1038/s41467-021-24110-y. PMID: 34140509; PMCID: PMC8211847.
Chunhong Zheng, Liangtao Zheng, Jae-Kwang Yoo, Huahu Guo, Yuanyuan Zhang, Xinyi Guo, Boxi Kang, Ruozhen Hu, Julie Y. Huang,Qiming Zhang, Zhouzerui Liu, Minghui Dong, Xueda Hu, Wenjun Ouyang, Jirun Peng, Zemin Zhang. Cell 169(7), 1342–1356( 2017). DOI: 10.1016/j.cell.2017.05.035
Zhang L, Yu X, Zheng L, Zhang Y, Li Y, Fang Q, Gao R, Kang B, Zhang Q, Huang JY, Konno H, Guo X, Ye Y, Gao S, Wang S, Hu X, Ren X, Shen Z, Ouyang W, Zhang Z. Lineage tracking reveals dynamic relationships of T cells in colorectal cancer. Nature. 2018 Dec;564(7735):268-272. doi: 10.1038/s41586-018-0694-x. Epub 2018 Oct 29. PMID: 30479382.