空間轉(zhuǎn)錄組第九講:利用SingleR進(jìn)行細(xì)胞類型注釋

前面我們說(shuō)過(guò)空間轉(zhuǎn)錄組技術(shù)不是真正的單細(xì)胞水平,每個(gè)spot會(huì)捕獲5-10個(gè)細(xì)胞,這樣每個(gè)spot里實(shí)際上可能存在幾種不同類型的細(xì)胞。但是對(duì)于大部分組織細(xì)胞來(lái)說(shuō)同一區(qū)域周圍更可能分布著相同類型的細(xì)胞,這樣對(duì)應(yīng)的spot孔里面更容易捕獲到同一種細(xì)胞(或者splot里的大部分細(xì)胞屬于同一類型)。所以對(duì)空間轉(zhuǎn)錄組進(jìn)行細(xì)胞類型注釋有利判斷不同組織細(xì)胞類型的大致空間分布。并且我們也介紹了用Loupe Browser軟件和已知marker基因進(jìn)行手動(dòng)注釋細(xì)胞類型。今天我們來(lái)介紹一下怎么用于SingleR軟件來(lái)給空間轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行細(xì)胞類型注釋。

SingleR是非常老牌且經(jīng)典的單細(xì)胞測(cè)序細(xì)胞類型注釋軟件了。它通過(guò)給定的具有已知類型標(biāo)簽的細(xì)胞樣本作為參考數(shù)據(jù)集,對(duì)測(cè)試數(shù)據(jù)集中與參考集相似的細(xì)胞進(jìn)行標(biāo)記注釋?;镜脑硎牵哼x擇參考數(shù)據(jù)庫(kù)不同細(xì)胞類型間高度變化的基因,然后計(jì)算預(yù)測(cè)細(xì)胞跟參考數(shù)據(jù)庫(kù)的相關(guān)性,通過(guò)不斷剔除相關(guān)性最差的類型循環(huán)計(jì)算相關(guān)性,最終得到預(yù)測(cè)細(xì)胞的類型注釋。相對(duì)來(lái)說(shuō)SingleR對(duì)細(xì)胞類型的注釋結(jié)果還是比較準(zhǔn)確的,尤其是用已知marker進(jìn)行判斷結(jié)果不是很清晰的情況下,借助SingleR注釋的結(jié)果更有利于細(xì)胞類型標(biāo)簽的判斷。

軟件安裝:

if(!requireNamespace("BiocManager", quietly = TRUE))

install.packages("BiocManager")

BiocManager::install("SingleR")

SingleR****參考數(shù)據(jù)庫(kù):

一、SingleR自帶5個(gè)人的參考數(shù)據(jù)庫(kù)和2個(gè)小鼠的參考數(shù)據(jù)庫(kù),舊版的SingleR是直接把這幾個(gè)庫(kù)用RDS文件儲(chǔ)存在R包里的,最新版的SingleR已經(jīng)將這幾個(gè)數(shù)據(jù)庫(kù)單獨(dú)放在了*celldex *R包里,所以調(diào)用的時(shí)候會(huì)先下載對(duì)應(yīng)的數(shù)據(jù)庫(kù)文件,這一步網(wǎng)速比較慢的話可能中途會(huì)斷掉需要多下載幾次。

每個(gè)數(shù)據(jù)庫(kù)導(dǎo)入的方法如下:

ref <- HumanPrimaryCellAtlasData()

The HPCA reference consists of publicly available microarraydatasets derived from human primary cells (Mabbott et al. 2013). Most of thelabels refer to blood subpopulations but cell types from other tissues are alsoavailable.

ref <- BlueprintEncodeData()

The Blueprint/ENCODE reference consists of bulk RNA-seq datafor pure stroma and immune cells generated by Blueprint (Martens and Stunnenberg 2013) and ENCODE projects (The ENCODE Project Consortium2012).

ref <- ImmGenData()

The ImmGen reference consists of microarray profiles of puremouse immune cells from the project of the same name (Heng et al. 2008). This is currently the most highly resolved immune reference- possibly overwhelmingly so, given the granularity of the fine labels.

ref <- DatabaseImmuneCellExpressionData()

The DICE reference consists of bulk RNA-seq samples of sortedcell populations from the project of the same name (Schmiedel et al. 2018).

ref <- NovershternHematopoieticData()

The Novershtern reference (previously known asDifferentiation Map) consists of microarray datasets for sorted hematopoieticcell populations from GSE24759 (Novershtern et al. 2011).

ref <- MouseRNAseqData()

This reference consists of a collection of mouse bulk RNA-seqdata sets downloaded from the gene expression omnibus (Benayoun et al. 2019). A variety of cell types are available, again mostly fromblood but also covering several other tissues.

ref <- MonacoImmuneData()

The Monaco reference consists of bulk RNA-seq samples ofsorted immune cell populations from GSE107011 (Monaco et al. 2019).

二、SingleR也可以使用其他數(shù)據(jù)作為參考數(shù)據(jù)庫(kù),如scRNAseqR包中有很多帶有手動(dòng)注釋結(jié)果的單細(xì)胞數(shù)據(jù)集,可以從這里面挑選數(shù)據(jù)集作為參考數(shù)據(jù)庫(kù)進(jìn)行細(xì)胞類型注釋。

開(kāi)始細(xì)胞類型注釋

導(dǎo)入R包和空間轉(zhuǎn)錄組數(shù)據(jù)

library(SingleR)

library(Seurat) 

combin.data <-readRDS("combin.data.RDS") #空間轉(zhuǎn)錄組數(shù)據(jù)作為seurat分析后建議保存為RDS文件便于后期調(diào)用,這里直接調(diào)用前面保存的RDS文件

expdata =combin.data[["Spatial"]]@data  ##導(dǎo)入空間轉(zhuǎn)錄組的細(xì)胞表達(dá)矩陣,注意這里跟單細(xì)胞的區(qū)別(用Spatial替換RNA)。

ref.se=MouseRNAseqData()#導(dǎo)入?yún)⒖紨?shù)據(jù)集

直接按亞群注釋:

SingleR可以按亞群進(jìn)行注釋,它會(huì)將亞群里的所有細(xì)胞的基因表達(dá)值求和然后再跟參考數(shù)據(jù)集比較。

#導(dǎo)出seurat亞群信息

clusters <-combin.data[['seurat_clusters']]

#進(jìn)行注釋,注意SingleR自帶的幾個(gè)數(shù)據(jù)庫(kù)的表情是分main和fine的,fine表示更細(xì)分的標(biāo)簽,空間轉(zhuǎn)錄組的數(shù)據(jù)其實(shí)用main的結(jié)果就可以了。

anno.cluster.main<- SingleR(test = expdata, ref = ref.se, labels = ref.se$label.main, method= "cluster", clusters = clusters)

#設(shè)置標(biāo)簽

celltype <-data.frame(ClusterID=rownames(anno.main),             

celltype=anno.main$labels,stringsAsFactors = F)

combin.data[['celltype']]<- 
celltype$celltype[match(Idents(combin.data), celltype$ClusterID)]

##畫(huà)圖展示

DimPlot(combin.data,reduction = "tsne" ,group.by="celltype")
image

這里我們使用的是小鼠大腦的數(shù)據(jù),注釋到的細(xì)胞類型主要是神經(jīng)細(xì)胞(Neurons)和少突膠質(zhì)細(xì)胞(Oligodendrocytes)。

查看亞群的對(duì)應(yīng)注釋:

> celltype
image

按單個(gè)細(xì)胞注釋:

除了前面介紹的按亞群進(jìn)行注釋,SingleR也可以按單個(gè)細(xì)胞進(jìn)行注釋。

anno.cell.main=SingleR(test=expdata , ref = ref.se, labels = ref.se$label.main)  

combin.data[["SingleR.labels"]]<- as.character(anno.cell.main$labels)

DimPlot(combin.data,reduction = "tsne" ,group.by="SingleR.labels")

細(xì)胞分類結(jié)果展示:

image

再分統(tǒng)計(jì)亞群的注釋

cluster_type <-tapply(Idents(combin.data),combin.data[["SingleR.labels"]],table)

celltypes <-names(cluster_type)

cluster_type <-as.data.frame(bind_cols(cluster_type))

rownames(cluster_type)<- names(cluster_type[[1]])

colnames(cluster_type)<- celltypes

cluster_type
image

這時(shí)候我們會(huì)發(fā)現(xiàn),很多亞群其實(shí)是同時(shí)包括兩類細(xì)胞的,有的甚至包括3類細(xì)胞。出現(xiàn)這種情況其實(shí)很正常的,本身亞群聚類不可能就100%將同一類細(xì)胞聚到一群的,一般會(huì)選擇比例最多的類型最為這一群的細(xì)胞類型標(biāo)簽。

不過(guò)通過(guò)比較前面亞群注釋的結(jié)果我們會(huì)發(fā)現(xiàn)有些群的注釋結(jié)果不太一致的,比如說(shuō)13號(hào)群,按亞群的注釋方法得到的是少突膠質(zhì)細(xì)胞(Oligodendrocytes),而按單個(gè)細(xì)胞注釋卻主要是神經(jīng)細(xì)胞(Neurons)。那么該怎么選擇呢?****建議還是按單個(gè)細(xì)胞的注釋結(jié)果為準(zhǔn),因?yàn)榘磥喨鹤⑨尩臅r(shí)候?qū)嶋H上是亞群所有細(xì)胞基因求均值得到基因的表達(dá)來(lái)做注釋,這樣容易受到細(xì)胞異質(zhì)性的影響,導(dǎo)致整體的表達(dá)值容易受少數(shù)細(xì)胞****基因表達(dá)異常的影響從而影響最終的注釋結(jié)果。另外對(duì)于空間轉(zhuǎn)錄組的數(shù)據(jù),由于本身就不是單細(xì)胞水平,避免不了一個(gè)spot孔里有多種細(xì)胞類型,所以某些亞群注釋的時(shí)候出現(xiàn)幾種類型的細(xì)胞比例都不小的時(shí)候建議以多種細(xì)胞類型共同命名。比如說(shuō)這里的0號(hào)亞群可以命名為****Oligodendrocytes& Neurons.

更多干貨移步公眾號(hào):簡(jiǎn)生信
簡(jiǎn)生信,致力于分析單細(xì)胞、空轉(zhuǎn)、其他組學(xué)生信數(shù)據(jù)挖掘分享。

空間轉(zhuǎn)錄組專題

空間轉(zhuǎn)錄組第一講:10x空間轉(zhuǎn)錄組技術(shù)介紹

空間轉(zhuǎn)錄組第二講:Space Ranger的使用

空間轉(zhuǎn)錄組第三講:圖像手動(dòng)對(duì)齊

空間轉(zhuǎn)錄組第四講:最詳細(xì)的10x空間轉(zhuǎn)錄組summary網(wǎng)頁(yè)報(bào)告解讀

空間轉(zhuǎn)錄組第五講:10x spaceranger aggr合并多個(gè)樣本

空間轉(zhuǎn)錄組第六講:數(shù)據(jù)預(yù)處理、降維、聚類(seurat)

空間轉(zhuǎn)錄組第七講:多樣本合并、marker基因分析

空間轉(zhuǎn)錄組第八講:萬(wàn)字長(zhǎng)文教你不寫(xiě)代碼如何挖掘自己的數(shù)據(jù)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容