TCGA數(shù)據(jù)分析系列(二):數(shù)據(jù)庫之GEPIA2

公眾號“生信小課堂”

TCGA數(shù)據(jù)分析課程:生物信息學(xué)教學(xué)


所謂工欲善其事,必先利其器,從今天開始,我們來介紹TCGA數(shù)據(jù)庫的使用。今天我們來介紹一款非常容易上手的數(shù)庫:GEPIA2:http://gepia2.cancer-pku.cn/#index

話不多說,直接進(jìn)入正題

GEPIA2數(shù)據(jù)來源

如圖所示,GEPIA2數(shù)據(jù)來源于TCGA和GTEx數(shù)據(jù)庫。TCGA我們已經(jīng)介紹過,不過GEPIA2對TCGA數(shù)據(jù)經(jīng)過了篩選,具體篩選標(biāo)準(zhǔn)并沒有詳細(xì)介紹。比如肝癌TCGA有372例腫瘤組織,這里只有369例。

下面簡單介紹一下GTEx

GTEx

GTEx全稱Genotype-Tissue

Expression,該項(xiàng)目研究來自449名生前健康的人類捐獻(xiàn)者的7000多份尸檢樣本,涵蓋44個組織(42種不同的組織類型),包括31個實(shí)體器官組織、10個腦分區(qū)、2個來自捐獻(xiàn)者血液和皮膚的細(xì)胞系。GTEx可以有效彌補(bǔ)TCGA正常組織不多的缺點(diǎn)。


GEPIA2工作流程

基因一般性分析

我們以LDHA為例可以檢索到LDHA的基因信息


LDHA的泛癌表達(dá)情況


LDHA的泛癌表達(dá)情況柱狀圖

差異分析

我們通過點(diǎn)擊鼠標(biāo)可以輕易獲得一個腫瘤的差異分析結(jié)果。GEPIA2的差異分析結(jié)果默認(rèn)是利用TCGA的腫瘤組織與GTEx的正常組織做對比。

可以得到一個差異基因與染色體位置的圖,以及差異分析結(jié)果的文件,都是可以下載的。

得到的差異分析文件例只有差異基因,沒有其他基因的情況。做一個火山圖看一下差異基因大致的范圍。


表達(dá)DIY

我們可以根據(jù)這種條件選擇,得到目的基因的表達(dá)情況


肝癌TCGA中TP53的表達(dá)



TCGA聯(lián)合GTEx中TP53的表達(dá)情況


肝癌各分期中TP53的表達(dá)
多基因表達(dá)熱圖

生存分析


輸入基因名,選擇OS還是RFS,設(shè)定cutoff比例,以及自定義顏色等,點(diǎn)擊add添加感興趣的癌癥類型,點(diǎn)擊plot就可以得到最終的生存分析結(jié)果


LDHA在肝癌中的OS

還可以看某個腫瘤中生存分析p值最小的前500個基因,如下入:


如果想看多個基因在多個癌癥中與生存的關(guān)聯(lián),可以利用survival map工具,輸入基因列表和癌癥列表,得到每個癌癥中每個基因與生存的顯著性p值


Isoform分析

isoform分析與gene分析類似,這里就不再贅述

基因或者基因集間相關(guān)性分



在計(jì)算基因或signature之間相關(guān)性時,我們可以利用該工具進(jìn)行在線繪圖。這里的signature按照網(wǎng)址文章的說法,應(yīng)該是取基因的表達(dá)平均值


基因相似性檢測

這里可以理解為單基因批量相關(guān)性分析,這個分析用處很大??梢酝ㄟ^一個基因和與其相關(guān)性高的基因組成一個基因集,來做富集分析,反應(yīng)這個基因可以影響的功能及通路情況


PCA降維


由于基因數(shù)目較多,維度較大,對腫瘤進(jìn)行可視化比較困難。利用主成分分析(PCA)進(jìn)行可視化。這里以肝癌的正常和腫瘤為例,選擇基因進(jìn)行降維.


主成分的方差貢獻(xiàn)


三維可視化


二維可視化


好了,今天的數(shù)據(jù)庫介紹就到這里了,下回見。

公眾號“生信小課堂”

TCGA數(shù)據(jù)分析課程:生物信息學(xué)教學(xué)


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容