整體思路:細(xì)胞相互作用的復(fù)雜網(wǎng)絡(luò)支配免疫系統(tǒng)與腫瘤細(xì)胞之間的互動,了解實體瘤的特定免疫細(xì)胞組成,對于預(yù)測患者對免疫療法有何反應(yīng)顯得至關(guān)重要。在這篇文章中,作者使用腫瘤單細(xì)胞RNA測序數(shù)據(jù)的適應(yīng)癥特異性和細(xì)胞類型特異性參考基因表達(dá)譜(RGEP),深入分析如何通過數(shù)學(xué)反卷積從bulk數(shù)據(jù)中得出實體瘤的細(xì)胞組成數(shù)據(jù)。證明了腫瘤衍生的RGEP對成功的去卷積至關(guān)重要,而來自外周血的RGEP則不足。我們區(qū)分了9種主要細(xì)胞類型以及3種T細(xì)胞亞型。使用源自腫瘤的RGEP,我們可以估計許多與腫瘤相關(guān)免疫細(xì)胞和基質(zhì)細(xì)胞的含量,治療相關(guān)的比例,以及完善的惡性細(xì)胞基因表達(dá)譜。
使用免疫檢查點抑制劑增強患者對癌癥的免疫反應(yīng)可以說是過去十年來治療癌癥最激動人心的進(jìn)展。不幸的是,只有一部分患者(通常約20%)在檢查點抑制后顯示出持久的免疫反應(yīng)。基于預(yù)測反應(yīng)生物標(biāo)記物(=精密藥物)的前瞻性患者選擇和免疫治療相結(jié)合,有可能進(jìn)一步改變患者的治療方式。迄今為止,已經(jīng)表明免疫細(xì)胞的位置和數(shù)量可以預(yù)測標(biāo)準(zhǔn)療法的患者預(yù)后。另外,對于像檢查點抑制劑這樣的抗PD1,抗PDL1和抗CTLA4藥物,相關(guān)T細(xì)胞群的存在與治療功效相關(guān)。因此,預(yù)測對免疫療法反應(yīng)的關(guān)鍵可能在于腫瘤病變部位的患者特異性免疫細(xì)胞組成。
從理論上講,如果可以為每個腫瘤相關(guān)細(xì)胞建立參考基因表達(dá)譜(RGEP),則可以從其整體基因表達(dá)譜推斷出實體瘤的免疫,腫瘤和基質(zhì)細(xì)胞含量。從數(shù)學(xué)上講,這類反推問題稱為反卷積。迄今為止,已經(jīng)描述并證實了大量基因表達(dá)的反卷積用于血液系統(tǒng)惡性腫瘤,其中可以從外周血單核細(xì)胞(PBMC)建立RGEP。這種方法在理論上已應(yīng)用于實體瘤,但直到最近,仍無法通過實驗驗證這種推斷。對于外周血中不存在的細(xì)胞類型(例如內(nèi)皮細(xì)胞(EC)和與癌癥相關(guān)的成纖維細(xì)胞(CAF)),很難獲得它們的RGEP,而且尚不清楚免疫細(xì)胞的基因表達(dá)譜在多大程度上改變腫瘤浸潤。但是,隨著單細(xì)胞RNA測序(scRNA-seq)技術(shù)的出現(xiàn),現(xiàn)在可以確定浸潤腫瘤的免疫細(xì)胞,腫瘤相關(guān)的非惡性細(xì)胞以及來自同一實體瘤的單個腫瘤細(xì)胞的基因表達(dá)譜。
我們收集并研究了來自三個不同的主要人類組織來源的11,000多個單細(xì)胞的RNA-seq基因表達(dá)譜:為了表征與腫瘤微環(huán)境相關(guān)的細(xì)胞,我們獲取了19名黑素瘤患者的數(shù)據(jù);我們獲取來自四個健康受試者的PBMC的數(shù)據(jù)以表征基線免疫細(xì)胞基因表達(dá)圖譜;最后,我們從四個卵巢癌腹水樣本中生成了免疫和腫瘤細(xì)胞基因表達(dá)譜。在下文中,我們顯示了來自腫瘤相關(guān)免疫細(xì)胞和來自PBMC的基因表達(dá)譜有很大不同。因此,從PBMC獲得的參考譜不足以使黑素瘤腫瘤樣品的總體譜解卷積。我們發(fā)現(xiàn),來自不同患者的適應(yīng)癥特異性免疫細(xì)胞RNA-seq譜圖彼此足夠相似,可以為每種細(xì)胞類型定義一個共有譜圖,并且這些共有譜圖可以對腫瘤bulk譜圖進(jìn)行準(zhǔn)確的反卷積。我們的結(jié)果表明,特定的RGEP的產(chǎn)生對于從大量基因表達(dá)數(shù)據(jù)中可靠地估算腫瘤成分而言既必要又充分。我們的方法揭示了與腫瘤相關(guān)的細(xì)胞類型,而這些類型的細(xì)胞不能由來自PBMC的RGEPs估計。我們可以識別出九種不同的細(xì)胞類型,包括免疫細(xì)胞,CAF,EC,卵巢癌細(xì)胞和黑色素瘤細(xì)胞。此外,用于免疫細(xì)胞的RGEP可以用于根據(jù)特定的大量基因表達(dá)數(shù)據(jù)來估計腫瘤細(xì)胞的未知基因表達(dá)譜。我們的工作強調(diào)了生成針對每種感興趣適應(yīng)癥的RGEP的重要性。
結(jié)果
腫瘤微環(huán)境中細(xì)胞的基因表達(dá)。
首先,為了研究隨著免疫細(xì)胞從外周血轉(zhuǎn)移到腫瘤微環(huán)境而基因表達(dá)譜變化的程度,我們比較了三種人類數(shù)據(jù)集的免疫細(xì)胞scRNA-seq譜圖:(1)來自四個健康受試者的外周血4000個單細(xì)胞的數(shù)據(jù)集; (2)來自19個黑色素瘤患者樣品的4645個腫瘤來源的單細(xì)胞的數(shù)據(jù)集,以及來自四個卵巢癌腹水樣品的3114個單細(xì)胞的未公開數(shù)據(jù)集。單細(xì)胞RNA-seq數(shù)據(jù)需要仔細(xì)的數(shù)據(jù)處理和規(guī)范化,尤其是在比較來自不同來源和測序技術(shù)的數(shù)據(jù)時。為了表征單個細(xì)胞并說明其基因表達(dá)譜中的全基因組相似性和差異性,我們應(yīng)用了降維技術(shù)t分布隨機(jī)鄰居嵌入(t-SNE)。這是一種無監(jiān)督的機(jī)器學(xué)習(xí)算法,可將每個單細(xì)胞置于二維平面中。基因表達(dá)譜相似的細(xì)胞彼此靠近放置,如果它們之間的差異更大,則相距更遠(yuǎn)。圖1a顯示與特定細(xì)胞類型相關(guān)聯(lián)且來自不同數(shù)據(jù)源的簇會自發(fā)出現(xiàn)。補充圖1中顯示了具有特定細(xì)胞的顏色編碼的t-SNE映射,而不是特定于數(shù)據(jù)源的聚類。使用匯總的單細(xì)胞數(shù)據(jù)集,我們開發(fā)了一種分類方法,該方法可以識別細(xì)胞類型,而與數(shù)據(jù)源無關(guān)。我們可以識別和分類9種主要細(xì)胞類型:T細(xì)胞,B細(xì)胞,巨噬細(xì)胞/單核細(xì)胞,自然殺傷(NK)細(xì)胞,樹突狀細(xì)胞(DC),CAF,EC,卵巢癌細(xì)胞和黑色素瘤細(xì)胞。所有未通過任何特定像元類型的分類閾值的其余像元均被指定為“未知”。有趣的是,“未知”細(xì)胞大多位于T細(xì)胞簇中,這表明某些T細(xì)胞比其他細(xì)胞類型的細(xì)胞更難分類。但是,每個樣本中“未知”細(xì)胞的百分比通常非常低(<0.03%)。此外,我們可以將T細(xì)胞分為三種亞型:CD4 +,CD8 +和調(diào)節(jié)性T細(xì)胞(Treg)。建議將CD4 +或CD8 + T細(xì)胞與免疫抑制性Treg的比例作為免疫活性與非活性腫瘤對抗的標(biāo)志物。盡管我們的方法可以輕松擴(kuò)展為包括其他細(xì)胞和進(jìn)一步的細(xì)分,但我們將自己限制在九種主要細(xì)胞類型中,以對我們的分類算法進(jìn)行基準(zhǔn)測試。如先前報道 并在補充圖2中所示,惡性腫瘤細(xì)胞和相關(guān)的成纖維細(xì)胞按患者聚集,非惡性細(xì)胞按細(xì)胞類型聚集。腫瘤活檢應(yīng)包含來自腫瘤血管和最近滲出的免疫細(xì)胞的免疫細(xì)胞。因此,預(yù)期PBMC和腫瘤相關(guān)免疫細(xì)胞之間部分重疊。我們分析了每個確定的群集的平均基因表達(dá)譜之間的成對相似性。通過單細(xì)胞比較,該分析更加定量且更可靠。圖1b中顯示的結(jié)果表明,大多數(shù)簇雖然不同,但與來自相同細(xì)胞類型的簇最密切相關(guān)。這是重要的質(zhì)量控制步驟,可以確認(rèn)通過數(shù)據(jù)處理和標(biāo)準(zhǔn)化策略已成功減輕了潛在的批次影響(請參見“方法”部分)。 Treg在三個不同的數(shù)據(jù)集上似乎是最不同的,可能表示環(huán)境決定性亞群。但是,微環(huán)境對基因表達(dá)有明顯且可量化的影響。在下文中,我們將解決以下問題:基于PBMC的基因表達(dá)譜是否與在腫瘤微環(huán)境中觀察到的結(jié)果是否相似;以及PBMC衍生的基因表達(dá)譜如何影響bulk表達(dá)數(shù)據(jù)去卷積的質(zhì)量。
首先,我們觀察到每種細(xì)胞類型的頻率對于每種樣品似乎是不同的,如圖1c所示。 與跨腹水或黑色素瘤樣品的細(xì)胞組成相比,來自不同供體的PBMC樣品的細(xì)胞組成彼此更為相似。 我們基于基于scRNA-seq的分類法對先前預(yù)測的所有黑色素瘤樣品的結(jié)果進(jìn)行了驗證,從而驗證了預(yù)測的細(xì)胞組成。 此外,我們通過熒光激活細(xì)胞分選(FACS)實驗比較了所有腹水樣品的預(yù)測細(xì)胞組成。 如圖2所示,我們的分類與先前發(fā)布的結(jié)果和我們的FACS測量結(jié)果一致。
使用單細(xì)胞數(shù)據(jù)作為反卷積的基準(zhǔn)。
免疫細(xì)胞的微環(huán)境特異性基因表達(dá)譜以及給定樣品的真實表達(dá)圖譜可通過scRNA-seq獲得,并可作為基準(zhǔn)反卷積方法的基礎(chǔ)。我們研究了bulk基因表達(dá)數(shù)據(jù)(例如黑色素瘤樣品)的去卷積結(jié)果如何受微環(huán)境特定變化和患者之間差異的影響。作為反卷積的基準(zhǔn),我們通過對27個樣本中的每個樣本的所有單細(xì)胞基因表達(dá)數(shù)據(jù)以及不同組的REGP進(jìn)行聚合,通過對組織來源和患者進(jìn)行平均的不同策略,構(gòu)建了人工“bulk”基因表達(dá)數(shù)據(jù)。我們使用五個不同的RGEP比較給定樣品的推斷的先驗已知細(xì)胞組成(參見圖3進(jìn)行說明):首先,RGEP1僅從PBMC數(shù)據(jù)集導(dǎo)出。因此,在這種情況下將無法獲得與腫瘤相關(guān)的細(xì)胞類型的估計值。第二個是RGEP2,是從三個數(shù)據(jù)集(PBMC,黑色素瘤和腹水)中每種細(xì)胞類型得出的。第三,RGEP3是數(shù)據(jù)集/指示類型和細(xì)胞類型特定的。作為其他基準(zhǔn),我們設(shè)置了兩個控制方案 (CNTR1和CNTR2),它們是RGEP3的擴(kuò)展,并包括特定患者的信息。這些場景當(dāng)然不適用于現(xiàn)實世界,但可用于評估患者特定信息的相對重要性。 CNTR1僅將患者特定的配置文件用于惡性細(xì)胞,并將共識配置文件用于每種非惡性細(xì)胞類型。 CNTR2對所有細(xì)胞類型使用特定于患者的配置文件。原則上,CNTR2作為使用反卷積方法在技術(shù)上可行的上限。
為了比較五種可能的RGEP及其對反褶積精度的影響,我們使用CIBERSORT反褶積方法從27個構(gòu)建的整體表達(dá)數(shù)據(jù)集中估算了細(xì)胞組成。該方法旨在對噪聲,未知混合物和緊密相關(guān)的細(xì)胞類型具有更高的魯棒性。已顯示CIBERSORT優(yōu)于其他基于體外細(xì)胞混合物基準(zhǔn)測試的方法。 CIBERSORT算法最初是為微陣列數(shù)據(jù)的反卷積開發(fā)的。在這里,我們證明了該算法也可以應(yīng)用于RNA測序數(shù)據(jù),如果使用源自相同技術(shù)的RGEP來表征細(xì)胞類型,也可以應(yīng)用該算法。所有反卷積都是使用一組基因進(jìn)行的,其中包括1076個基因特征,這些基因特征可最大程度地區(qū)分各種細(xì)胞類型。對于每種細(xì)胞類型,將估計比例與27個構(gòu)建樣品中的真實比例進(jìn)行比較(圖4a)。估計細(xì)胞組成與真實細(xì)胞組成之間的皮爾遜相關(guān)系數(shù)用作預(yù)測準(zhǔn)確性的量度(圖4b)。通過使用均方根偏差(RMSD)獲得定性相似的結(jié)果(參見補充圖3)。對于T細(xì)胞,每個亞群分別進(jìn)行估算。在圖4中,將所有T細(xì)胞亞群的估計值相加以獲得每個樣本的總T細(xì)胞比例。單個T細(xì)胞子集的結(jié)果在圖5中單獨考慮??偟膩碚f,基于RGEP1的估計(Pearson相關(guān)性ρ= 0.82)不如RGEP2和RGEP3或CNTR1和CNTR2的準(zhǔn)確度(Pearson相關(guān)性ρ≥0.98)。對于RGEP1,由于沒有與腫瘤相關(guān)的細(xì)胞類型的參考資料,未知細(xì)胞的真實比例要比其他RGEP大,估計質(zhì)量中等(皮爾森相關(guān)系數(shù)ρ= 0.65)。
對于RGEP2和RGEP3,以及對于CNTR1和CNTR2,未知細(xì)胞的真實比例很小,可以忽略不計。如果細(xì)胞的真實比例很小,則相關(guān)性不是判斷準(zhǔn)確性的好方法。對于RGEP1,對于T細(xì)胞(皮爾森相關(guān)度ρ= 0.88,此處未區(qū)分為亞型),B細(xì)胞(皮爾森相關(guān)度ρ= 0.99)和巨噬細(xì)胞/單核細(xì)胞(皮爾森相關(guān)度ρ= 0.99),估計效果良好。但是,在所有其他設(shè)置下(皮爾遜相關(guān)系數(shù)ρ≥0.99),精度會進(jìn)一步提高。對于RGEP1,對DC的估計(皮爾森相關(guān)度ρ= -0.04)較差,而對NK細(xì)胞的估計中等(皮爾森相關(guān)度ρ= 0.78)。對于RGEP2(皮爾森相關(guān)系數(shù)ρ= 0.82)和RGEP3(皮爾森相關(guān)系數(shù)ρ= 0.95),DC的估計有了很大的提高。 DC的估計值對于CNTR1仍略有改善(Pearson相關(guān)性ρ= 0.97),但僅在CNTR2時才達(dá)到最大值(Pearson相關(guān)性ρ= 1.00),這表明DCs的基因表達(dá)在很大程度上取決于分離的來源,這是一致的有證據(jù)表明DC的不同亞群在免疫力的產(chǎn)生中高度特異化。相對于CNTR1(皮爾森相關(guān)度ρ= 0.96)和CNTR2(皮爾森相關(guān)度ρ= 1.00),RGEP2(皮爾遜相關(guān)度ρ= 0.82)對NK細(xì)胞的估計略有改善,并且在RGEP3(皮爾遜相關(guān)度ρ= 0.95)中接近最佳狀態(tài)。對于RGEP2至CNTR2,可獲得與腫瘤相關(guān)的細(xì)胞類型(CAF,EC和惡性細(xì)胞)的估計值,并且可以對其進(jìn)行準(zhǔn)確估計(Pearson相關(guān)性ρ≥0.95)。有趣的是,在納入患者特定信息后,對惡性細(xì)胞的估計并沒有太大改善,這表明使用共識譜進(jìn)行反卷積是可行的。這可能因為腫瘤細(xì)胞通常與非惡性細(xì)胞有很大的不同,非惡性細(xì)胞使它們的去卷積更容易(見圖1b)。對于CNTR2,與其他設(shè)置(Pearson相關(guān)性ρ?0.95)相比,ECs和CAF的準(zhǔn)確性更高(Pearson相關(guān)性ρ= 1.00),這表明這些細(xì)胞類型的基因表達(dá)受患者特定的微環(huán)境影響。有趣的是,當(dāng)考慮到二等分的距離(如圖4所示)作為估計精度的度量時,我們發(fā)現(xiàn)它與真實的細(xì)胞類型比例無關(guān)。但是,每種細(xì)胞類型的總體精度都不同。
考慮到T細(xì)胞比率對治療結(jié)果的重要性,我們進(jìn)一步分析了T細(xì)胞亞群以及治療相關(guān)T細(xì)胞比率的估計準(zhǔn)確性(圖5)。出乎意料的是,對于CD8 + T細(xì)胞,所有RGEP的估算結(jié)果都是準(zhǔn)確的(皮爾森相關(guān)ρ?0.95)。對于CD4 +細(xì)胞和調(diào)節(jié)性T細(xì)胞,使用RGEP1的估計結(jié)果僅中等(皮爾遜相關(guān)系數(shù)ρ= 0.63和ρ= 0.43),而對于RGEP2則明顯改善(皮爾遜相關(guān)系數(shù)ρ= 0.87和ρ= 0.94)。這也反映在達(dá)到RGEP2準(zhǔn)確估計值的Treg / CD4 +,CD8 + / Treg和CD4 + / CD8 + T細(xì)胞的比率(皮爾森相關(guān)系數(shù)ρ= 0.94,ρ= 0.96和ρ= 0.93)。對于CNTR1,所有T細(xì)胞亞群和比率的估計值均不會顯著改善,而對于CNTR2,它卻會有所改善(皮爾森相關(guān)系數(shù)ρ= 1.00),這表明T細(xì)胞的基因表達(dá)受患者特定的微環(huán)境影響??偠灾?,使用基于適應(yīng)癥特異性基因表達(dá)譜(RGEP3)的共有基因表達(dá)譜進(jìn)行反卷積足以獲得樣品細(xì)胞組成的可靠估計值,而無需有關(guān)各個細(xì)胞類型的患者特異性數(shù)據(jù)。使用基于外周血數(shù)據(jù)(RGEP1)或基于所有三個數(shù)據(jù)集/指標(biāo)的平均值(RGEP2)的基因表達(dá)譜進(jìn)行反卷積的準(zhǔn)確性大大降低。當(dāng)考慮到兩等分的距離(如圖5所示)作為估計準(zhǔn)確度的一種度量時,我們發(fā)現(xiàn)對調(diào)節(jié)性T細(xì)胞的估計過高。調(diào)節(jié)性T細(xì)胞的估計與表達(dá)形式相似的非調(diào)節(jié)性CD4 + T細(xì)胞的估計混淆。由于非調(diào)節(jié)性CD4 + T細(xì)胞的總百分比高于調(diào)節(jié)性T細(xì)胞的百分比,因此對非調(diào)節(jié)性CD4 + T細(xì)胞存在相應(yīng)的低估,這種估計并沒有那么明顯。盡管這些T細(xì)胞亞型存在這種偏見,但臨床上相關(guān)T細(xì)胞比例的估算并沒有受到影響。
為了探索相似細(xì)胞類型表達(dá)譜或缺失細(xì)胞類型譜對估計準(zhǔn)確性的影響,我們系統(tǒng)地評估了一次從RGEP3中刪除一個細(xì)胞類型表達(dá)譜的情況(補充圖4)。對于大多數(shù)情況和細(xì)胞類型,估計精度不受其他細(xì)胞類型表達(dá)譜刪除的影響。 CD4 + T細(xì)胞,巨噬細(xì)胞/單核細(xì)胞和惡性細(xì)胞類型的估計準(zhǔn)確性對所有變化都具有魯棒性。我們觀察到一些更緊密相關(guān)的細(xì)胞類型的估計準(zhǔn)確性降低。去除CD4 + T細(xì)胞會影響CD8 + T細(xì)胞估計的準(zhǔn)確性,同時去除CD8 +或CD4 + T細(xì)胞會影響調(diào)節(jié)性T細(xì)胞的估計準(zhǔn)確性。去除巨噬細(xì)胞/單核細(xì)胞會影響B(tài)細(xì)胞的準(zhǔn)確性。去除B細(xì)胞或巨噬細(xì)胞/單核細(xì)胞會影響樹突狀細(xì)胞的準(zhǔn)確性。 NK細(xì)胞的準(zhǔn)確性受去除CD8 +或CD4 + T細(xì)胞的影響。去除黑素瘤細(xì)胞譜會影響內(nèi)皮細(xì)胞和CAF的準(zhǔn)確性。為了確定使用替代基因集進(jìn)行反卷積的影響,我們使用性能最佳的RGEP3和四個其他基因集以及三種替代反卷積算法重復(fù)了分析。有趣的是,與RGEPs的來源和質(zhì)量的影響相比,不同基因集和反卷積算法的影響相對較?。▍⒁娧a充圖5)。 CIBERSORT與合并的基因組結(jié)合提供了最佳的總體結(jié)果。
使用獨立數(shù)據(jù)驗證反卷積結(jié)果。
使用源自單細(xì)胞RNA測序數(shù)據(jù)的RGEP,我們確定RGEP的來源和質(zhì)量會影響反卷積方法的準(zhǔn)確性。因此,我們建議將源自感興趣組織的單細(xì)胞RNA測序數(shù)據(jù)衍生的RGEP用于bulk反卷積。但是,將通過常規(guī)卷積RNA測序獲得應(yīng)用去卷積方法的臨床數(shù)據(jù)。因此,重要的是證明源自單細(xì)胞RNA測序的RGEP適用于通過bulk RNA測序測量的數(shù)據(jù)。為了驗證實際(而非人工)批量數(shù)據(jù)上的去卷積結(jié)果,我們另外對四個卵巢癌腹水樣品中的三個進(jìn)行了批量RNA測序,并使用RGEP3應(yīng)用了去卷積方法來獲得樣品細(xì)胞組成的估計值。此外,使用相同的三個樣品,我們通過FACS和單細(xì)胞RNA測序,然后進(jìn)行算法細(xì)胞類型分類,對實驗中的細(xì)胞組成進(jìn)行了定量。圖6a顯示了這三個樣品的數(shù)據(jù)生成示意圖,圖6b顯示了對通過三種不同方法獲得的結(jié)果的定量比較(有關(guān)詳細(xì)信息,另請參見補充表1和2)。總體而言,結(jié)果吻合良好。由于所有這三種方法均具有固有偏差,因此它們僅提供了樣品細(xì)胞組成的估計值。偏差是可以預(yù)料的,并且可能源于樣品處理的差異,這些差異會給較脆弱的免疫細(xì)胞帶來壓力。在我們的驗證數(shù)據(jù)中,當(dāng)通過FACS定量時,我們始終觀察到對巨噬細(xì)胞/單核細(xì)胞群體的估計減少。基于單細(xì)胞的分類一致地估計了該樣品集中巨噬細(xì)胞/單核細(xì)胞的最高比例。類似地,解卷積方法始終估計較低比例的CD4 + T細(xì)胞,并且類似地針對低豐度樹突狀細(xì)胞和NK細(xì)胞群體。
估計腫瘤細(xì)胞基因表達(dá)譜。
盡管使用RGEP3是適應(yīng)癥特異性的,但不是患者特異性的,可以從大量基因表達(dá)數(shù)據(jù)中準(zhǔn)確估計任何給定患者活檢的細(xì)胞組成,但不同患者之間惡性細(xì)胞的基因表達(dá)譜差異最大。腫瘤細(xì)胞中基因表達(dá)的差異有望在預(yù)測對傳統(tǒng)療法(包括靶向療法和化學(xué)療法)的反應(yīng)中發(fā)揮關(guān)鍵作用。這樣,在解卷積之后估計患者特異性腫瘤細(xì)胞譜也是感興趣的。如果對于每種非惡性細(xì)胞類型和適應(yīng)癥均存在共有的表達(dá)譜,則可以通過簡單地從總體概況中減去每種非惡性細(xì)胞類型的概況并按其推斷的比例加權(quán)來獲得患者特異性腫瘤細(xì)胞概況。然而,實際上,總體概況將始終被不存在共有概況的細(xì)胞(“未知”細(xì)胞)“污染”。例如,嗜中性粒細(xì)胞未在scRNA-seq數(shù)據(jù)中顯示,因為它們難以分離,離體后高度不穩(wěn)定,因此難以用當(dāng)前的單細(xì)胞分離方法保存。使用scRNA-seq數(shù)據(jù),我們計算了每個患者樣品的估計腫瘤細(xì)胞表達(dá)譜,并將它們與真實腫瘤細(xì)胞譜進(jìn)行了比較(圖7a)。由于某些基因(例如管家基因)在所有細(xì)胞之間相關(guān),而與細(xì)胞類型無關(guān),因此,預(yù)期會有一定的基線相關(guān)性。我們通過將非惡性細(xì)胞的基因表達(dá)譜與真實的腫瘤細(xì)胞基因表達(dá)譜相關(guān)聯(lián)來估計該基線相關(guān)性。我們觀察到所有樣本的基線皮爾遜相關(guān)系數(shù)ρ為0.7–0.8,而與樣本中腫瘤細(xì)胞的估計比例無關(guān)。如所預(yù)期的,隨著腫瘤細(xì)胞含量的增加,腫瘤細(xì)胞表達(dá)的估計準(zhǔn)確性得以提高(圖7b)。值得注意的是,當(dāng)樣品中腫瘤細(xì)胞的估計比例超過20%時,估計的腫瘤細(xì)胞基因表達(dá)譜與真實譜顯示ρ> 0.9的皮爾遜相關(guān)性。與未經(jīng)校正的整體基因表達(dá)譜相比,腫瘤細(xì)胞多于20%但少于70%的樣品中預(yù)測的腫瘤細(xì)胞基因表達(dá)譜與真實的腫瘤細(xì)胞基因表達(dá)譜具有更好的相關(guān)性。如果樣品包含超過70%的腫瘤細(xì)胞,則整個樣品的基因表達(dá)譜已經(jīng)被腫瘤細(xì)胞所主導(dǎo),并且不需要任何減法。對于腫瘤細(xì)胞少于20%的樣品,減法不能改善估計,因為腫瘤細(xì)胞基因表達(dá)的信號很低。另外,整個樣品的基因表達(dá)圖譜也沒有提供關(guān)于陰性對照的腫瘤細(xì)胞譜圖的信息,在這種情況下是非腫瘤譜圖。總之,對于腫瘤細(xì)胞含量在20%至70%之間的解卷積的樣品,其基因表達(dá)譜得到了顯著改善。