公眾號“生信小課堂”
TCGA數(shù)據(jù)分析課程:生物信息學(xué)教學(xué)

所謂工欲善其事,必先利其器,從今天開始,我們來介紹TCGA數(shù)據(jù)庫的使用。今天我們來介紹一款非常容易上手的數(shù)庫:GEPIA2:http://gepia2.cancer-pku.cn/#index
話不多說,直接進(jìn)入正題
GEPIA2數(shù)據(jù)來源

如圖所示,GEPIA2數(shù)據(jù)來源于TCGA和GTEx數(shù)據(jù)庫。TCGA我們已經(jīng)介紹過,不過GEPIA2對TCGA數(shù)據(jù)經(jīng)過了篩選,具體篩選標(biāo)準(zhǔn)并沒有詳細(xì)介紹。比如肝癌TCGA有372例腫瘤組織,這里只有369例。
下面簡單介紹一下GTEx
GTEx
GTEx全稱Genotype-Tissue
Expression,該項(xiàng)目研究來自449名生前健康的人類捐獻(xiàn)者的7000多份尸檢樣本,涵蓋44個組織(42種不同的組織類型),包括31個實(shí)體器官組織、10個腦分區(qū)、2個來自捐獻(xiàn)者血液和皮膚的細(xì)胞系。GTEx可以有效彌補(bǔ)TCGA正常組織不多的缺點(diǎn)。
GEPIA2工作流程

基因一般性分析



差異分析

我們通過點(diǎn)擊鼠標(biāo)可以輕易獲得一個腫瘤的差異分析結(jié)果。GEPIA2的差異分析結(jié)果默認(rèn)是利用TCGA的腫瘤組織與GTEx的正常組織做對比。
可以得到一個差異基因與染色體位置的圖,以及差異分析結(jié)果的文件,都是可以下載的。
得到的差異分析文件例只有差異基因,沒有其他基因的情況。做一個火山圖看一下差異基因大致的范圍。

表達(dá)DIY

我們可以根據(jù)這種條件選擇,得到目的基因的表達(dá)情況




生存分析

輸入基因名,選擇OS還是RFS,設(shè)定cutoff比例,以及自定義顏色等,點(diǎn)擊add添加感興趣的癌癥類型,點(diǎn)擊plot就可以得到最終的生存分析結(jié)果

還可以看某個腫瘤中生存分析p值最小的前500個基因,如下入:

如果想看多個基因在多個癌癥中與生存的關(guān)聯(lián),可以利用survival map工具,輸入基因列表和癌癥列表,得到每個癌癥中每個基因與生存的顯著性p值

Isoform分析
isoform分析與gene分析類似,這里就不再贅述
基因或者基因集間相關(guān)性分析

在計(jì)算基因或signature之間相關(guān)性時,我們可以利用該工具進(jìn)行在線繪圖。這里的signature按照網(wǎng)址文章的說法,應(yīng)該是取基因的表達(dá)平均值

基因相似性檢測
這里可以理解為單基因批量相關(guān)性分析,這個分析用處很大??梢酝ㄟ^一個基因和與其相關(guān)性高的基因組成一個基因集,來做富集分析,反應(yīng)這個基因可以影響的功能及通路情況

PCA降維

由于基因數(shù)目較多,維度較大,對腫瘤進(jìn)行可視化比較困難。利用主成分分析(PCA)進(jìn)行可視化。這里以肝癌的正常和腫瘤為例,選擇基因進(jìn)行降維.



好了,今天的數(shù)據(jù)庫介紹就到這里了,下回見。
公眾號“生信小課堂”
TCGA數(shù)據(jù)分析課程:生物信息學(xué)教學(xué)
