解釋任何單細(xì)胞測序數(shù)據(jù)的起點(diǎn)都是對給定數(shù)據(jù)集中的細(xì)胞簇進(jìn)行注釋。由于缺乏專門設(shè)計的工具以及在單細(xì)胞ATAC-seq數(shù)據(jù)中使用不直觀的順式和跨式調(diào)控元素(unintuitive cis- and trans-regulatory ),因此單細(xì)胞ATAC-seq數(shù)據(jù)中的細(xì)胞類型標(biāo)注具有挑戰(zhàn)性。本技術(shù)說明探索并演示了三種不同的策略,這些策略對于在單個細(xì)胞ATAC-seq數(shù)據(jù)中標(biāo)注細(xì)胞類型所需的生物信息學(xué)專業(yè)知識的數(shù)量有所不同。
人骨髓單核細(xì)胞(BMMCs)和熒光激活細(xì)胞分選(FACS)富集CD34+造血祖細(xì)胞(AllCells),按照10x方案——單細(xì)胞ATAC測序的細(xì)胞核分離(文獻(xiàn)CG000169)進(jìn)行處理。單細(xì)胞ATAC文庫按照《10X單細(xì)胞試劑試劑盒使用指南》(文檔CG000168)編寫,按每個細(xì)胞2 -5萬個原始reads進(jìn)行測序。測序數(shù)據(jù)通過cellranger-atac count (v1.1.0)管道進(jìn)行處理,使用cellranger-atac aggr管道整合BMMCs和CD34+細(xì)胞數(shù)據(jù)。
下面概述的細(xì)胞類型注釋策略是單細(xì)胞ATAC-seq數(shù)據(jù)中可能的細(xì)胞類型注釋方法,不是cell Ranger ATAC軟件的一部分。
Strategy 1. Annotation Using Cis-Regulatory Elements
使用Loupe cell Browser 3.1.1分析10321個bmmc和9084個CD34+細(xì)胞的ATAC-seq單胞數(shù)據(jù)。對CD34+祖細(xì)胞、CD4+ T細(xì)胞、CD8+/NK細(xì)胞、B細(xì)胞、單核細(xì)胞/樹突狀細(xì)胞進(jìn)行細(xì)胞類型標(biāo)記基因啟動子可及性模式的可視化標(biāo)記(圖1)。通過將 fragments.tsv.gz 加載到peak viewer并根據(jù)每個窗口的cell類型導(dǎo)出剪切站點(diǎn)分布,從而從Loupe中導(dǎo)出特定于cell類型的剪切站點(diǎn)。



使用啟動子注釋細(xì)胞類型。A.已知細(xì)胞類型的標(biāo)記基因的啟動子可及性及后續(xù)的細(xì)胞類型注釋。顏色表示所選啟動子的log轉(zhuǎn)換計數(shù),紅色=高值。A.從Loupe Cell Browser中導(dǎo)出切割位點(diǎn)的序列文件。NK:自然殺傷細(xì)胞;Mono:單核細(xì)胞;DC:樹突細(xì)胞
Strategy 2: Annotation Using Cell Type-Specific Feature Set
第二種細(xì)胞類型注釋方法使用一組用戶定義的分子特征,包括細(xì)胞類型特異性峰值、細(xì)胞類型標(biāo)記的基因激活分?jǐn)?shù)或具有已知調(diào)控作用的轉(zhuǎn)錄因子的motif可達(dá)性。例如,為了使用細(xì)胞類型特定的峰值來注釋細(xì)胞類型,我們對來自10,321個bmmc和9,084個CD34+細(xì)胞的單個細(xì)胞ATAC-seq數(shù)據(jù)應(yīng)用了一個評分方案,該方案計算了細(xì)胞類型特定的峰值在背景可達(dá)性水平上的富集情況。
一套統(tǒng)一策劃了130萬年的峰值Epinomics來自29個FACS-sorted免疫細(xì)胞類型定義這些細(xì)胞類型的ATAC資料,基于以前公布的數(shù)據(jù)(1)細(xì)胞特定類型的山峰被定義為前200名豐富峰所選的所有其他細(xì)胞類型的細(xì)胞類型。背景被定義為500組200個隨機(jī)選擇的峰值。生成最大富集分?jǐn)?shù)的細(xì)胞類型被標(biāo)注到細(xì)胞中(圖2)。


圖2。使用cell型特定的功能集來注釋。所選細(xì)胞類型的細(xì)胞類型富集評分分布。B.在單細(xì)胞ATAC-seq數(shù)據(jù)中,BMMCs + CD34+細(xì)胞中鑒定出19種主要的細(xì)胞類型。tSNE投影直接來自Cell Ranger ATAC管道。cell標(biāo)簽的大小按每個類型的豐度進(jìn)行顯示.
CLP: Common lymphoid progenitors
CMP: Common myeloid progenitor
DC: Dendritic cells
Ery: Erythroid
GMP: Granulocyte-macrophage progenitor
HSC: Hematopoietic stem cells
LMPP: Lympho-myeloid primed progenitor
MEP: Megakaryocyte-erythroid progenitor
Mono: Monocytes
MPPs: Multipotent progenitor cells
Neut: Neutrophills
NK: Natural killer cells
Strategy 3: Annotation Using RNA Sequencing Data as Reference
為了使用RNA-seq數(shù)據(jù)標(biāo)注細(xì)胞類型,使用Chromium單細(xì)胞ATAC溶液從胚胎和成年小鼠腦組織(見下文)中生成單細(xì)胞ATAC-seq數(shù)據(jù)。胚胎和成年小鼠腦組織的參考RNA-seq數(shù)據(jù)集來自于先前的研究(2,3)。Seurat v3.0和Signac包(4)用于將單個單元的ATAC-seq數(shù)據(jù)和單個單元的RNA-seq數(shù)據(jù)合并到一個共享的簡化維中,并基于RNA-seq數(shù)據(jù)中預(yù)注釋單元的距離預(yù)測ATAC-seq數(shù)據(jù)的cell類型(圖3)。
Query (single cell ATAC)
?P50 adult mouse cortex (3,927 cells)
?E18.5 mouse cortex, hippocampus & ventricular zone (4,115 cells)
Reference (single cell RNA)
?P30-40 mouse primary visual cortex & anterior lateral motor cortex (21,814 cells)
?P0 mouse cortex (7,614 cells)


圖3。使用RNA-seq數(shù)據(jù)作為參考的注釋。使用預(yù)先注釋的RNA-seq數(shù)據(jù)注釋來自成年和胚胎小鼠皮層的ATAC-seq數(shù)據(jù)的UMAP圖分別顯示在A和C中。來自成年和新生小鼠皮層的預(yù)先注釋的RNA-seq數(shù)據(jù)的UMAP圖分別顯示在B和D中。該集成顯示了參考RNA-seq和ATAC-seq數(shù)據(jù)之間的大量重疊。在成年小鼠皮層中發(fā)現(xiàn)了20多種不同的細(xì)胞類型,在E18.5小鼠皮層組織中發(fā)現(xiàn)了18種主要的細(xì)胞類型。主要細(xì)胞類型在成體和胚狀體中的比例。
Validation of Cell Type Annotation Using RNA Sequencing Data as Reference
- Validation Using Gene Activity Scores
為了驗(yàn)證細(xì)胞類型注釋,我們使用了R package Cicero(5)來計算來自胚胎和成年小鼠組織的單個細(xì)胞ATAC-seq數(shù)據(jù)的基因活性(GA)評分。為了計算GA分?jǐn)?shù),峰至基因注釋和tSNE坐標(biāo)(作為reduced_coordinates)直接從Cell Ranger ATAC輸出中獲得。使用strategy 3識別出的興奮性神經(jīng)元、抑制性神經(jīng)元和各種膠質(zhì)細(xì)胞類型的已知標(biāo)記(圖3C),并對其進(jìn)行檢查以確定正確的注釋(圖4A-B)。
UMAP單細(xì)胞投射的GA分?jǐn)?shù)分布證實(shí)了策略3的結(jié)果。例如,胚胎期E18.5的神經(jīng)元前體細(xì)胞標(biāo)記Eomes的可達(dá)性高于成年期P50, SVZ區(qū)域富集較強(qiáng)(圖4A),驗(yàn)證了策略3的結(jié)果。
- Validation Using Transcription Factor (TF) Deviation Scores
chromVAR(6)計算的轉(zhuǎn)錄因子(Transcription factor, TF)偏差分?jǐn)?shù)可以測量TF活性,可以作為另一個驗(yàn)證細(xì)胞類型標(biāo)注的來源。為了測量全局TF活性,我們從Cell Ranger ATAC管道的TF-barcode矩陣中獲取輸入計數(shù)矩陣,并選擇JASPAR motif數(shù)據(jù)庫作為輸入motif數(shù)據(jù)庫。然后使用建議的chromVAR工作流計算策略3(圖3A)中來自成人組織的單個細(xì)胞ATAC-seq數(shù)據(jù)中識別的細(xì)胞類型的TF偏差分?jǐn)?shù)(圖4C)。
細(xì)胞類型特異性轉(zhuǎn)錄因子,如星形膠質(zhì)細(xì)胞中的Noto和小膠質(zhì)細(xì)胞中的Spi1,在相應(yīng)的細(xì)胞類型中表現(xiàn)出排他的活性(圖4C)。抑制神經(jīng)元亞型中Mef2c TF偏差分?jǐn)?shù)的比較證實(shí)了之前關(guān)于Pvalb亞型中Mef2c活性升高的報道(7)

圖4。cell 注釋的驗(yàn)證。A. E18.5 UMAP單細(xì)胞投射中的基因活性分布。B. UMAP單細(xì)胞投射中P50基因活性分布。紅色陰影=高基因活性水平,灰色=啟動子和鄰近增強(qiáng)子檢測不到的可及性。C.按細(xì)胞類型劃分的成體TF活性。Y軸是轉(zhuǎn)錄因子活性評分,基于從chromVAR TF偏差z分?jǐn)?shù)轉(zhuǎn)換而來的p值的-log10。
討論
利用細(xì)胞類型特異性順式調(diào)控元件進(jìn)行的細(xì)胞類型注釋顯示,在不同的細(xì)胞亞群中,啟動子的可及性明顯豐富,從而可以識別骨髓單核細(xì)胞中的主要細(xì)胞類型。在pseudo-bulk profile 中,簇中的所有細(xì)胞都聚集成一個單一的軌跡,在基因標(biāo)記啟動子附近的染色質(zhì)可達(dá)性顯示了一個更復(fù)雜的模式。如,CD4啟動子表現(xiàn)出多個富集峰,其中只有一個具有CD4+ t細(xì)胞特異性,而其他的高峰在單核細(xì)胞和干細(xì)胞群體中也表現(xiàn)出很強(qiáng)的可達(dá)性。
使用細(xì)胞類型特定的特征集對細(xì)胞類型進(jìn)行注釋是對傳統(tǒng)的基于基因標(biāo)記的策略的擴(kuò)展,在這種策略中,標(biāo)記基因的列表被可解釋的特征集所取代,從而提供了合并批量數(shù)據(jù)、轉(zhuǎn)錄因子基序位點(diǎn)或預(yù)先注釋的基因集的靈活性。精細(xì)的細(xì)胞類型注釋更詳細(xì)地說明了CD34+祖細(xì)胞群的子結(jié)構(gòu),包括多能干細(xì)胞群(HSC, MPP)和承諾譜系祖細(xì)胞(CMP)。MEP、GMP和CLP(圖2A-B)。先祖群體的子結(jié)構(gòu)也可以與來自不同譜系的終末分化細(xì)胞相匹配,形成完整的發(fā)育軌跡,這一點(diǎn)在《應(yīng)用注釋——用單細(xì)胞ATAC-Seq破譯表觀遺傳調(diào)控》(LIT000055)中得到了更詳細(xì)的探討。
這種無監(jiān)督的、基于整合的策略將單個細(xì)胞的ATAC-seq數(shù)據(jù)嵌入到參考的單個細(xì)胞RNA-seq數(shù)據(jù)中,并且不需要任何標(biāo)記基因的先驗(yàn)知識??梢酝ㄟ^計算基因和轉(zhuǎn)錄因子活性評分來驗(yàn)證注釋(圖4A-C)。基于集成的策略還可以擴(kuò)展為任何類型的單細(xì)胞數(shù)據(jù)的注釋。例如,可以使用預(yù)先注釋的單細(xì)胞RNA數(shù)據(jù)集輕松地對單細(xì)胞RNA-seq數(shù)據(jù)進(jìn)行注釋。此外,整合的數(shù)據(jù)為描述增強(qiáng)子和目標(biāo)基因之間的調(diào)控關(guān)系以及最終的基因調(diào)控網(wǎng)絡(luò)提供了一個起點(diǎn)。
綜上所述,我們證明了針對單個細(xì)胞ATAC-seq數(shù)據(jù)的三種互補(bǔ)細(xì)胞類型注釋策略。所選擇的cell 類型注釋方法將取決于對感興趣的示例類型或類似的示例類型可用的知識或數(shù)據(jù)。第一種策略是使用已知的cell類型標(biāo)記,這是最簡單的,并且可以在Loupe中很容易地顯示出來。第二和第三種策略需要額外的生物信息處理和互補(bǔ)的參考數(shù)據(jù)集(例如,批量ATAC-seq或單細(xì)胞RNA-seq)。