R代碼合并TCGA體細(xì)胞突變數(shù)據(jù)

上次通過圖文給大家講解了如何從TCGA數(shù)據(jù)庫下載體細(xì)胞突變的數(shù)據(jù)

? 如何從TCGA數(shù)據(jù)庫下載體細(xì)胞突變數(shù)據(jù)(somatic mutation)

前面我們也講過,如何從TCGA數(shù)據(jù)庫下載RNAseq和miRNA-seq的數(shù)據(jù)。大家應(yīng)該對TCGA數(shù)據(jù)庫里面數(shù)據(jù)的格式有了一定的了解。

? 新版TCGA數(shù)據(jù)庫RNAseq數(shù)據(jù)下載

? 新版TCGA數(shù)據(jù)庫miRNA數(shù)據(jù)下載

無論是RNAseq,miRNAseq還是體細(xì)胞突變的數(shù)據(jù),都是單個的文件。也就是每一個樣本會用一個單獨的文件來存放相應(yīng)的數(shù)據(jù)。如果我們想得到如下圖所示的矩陣,就需要通過循環(huán)去讀取每一個文件里面的內(nèi)容,然后進(jìn)行合并。

前面已經(jīng)跟大家分享過如何通過R代碼或者是使用零代碼的工具來合并RNAseq和miRNA-seq的表達(dá)矩陣。

? 【視頻講解】R代碼合并新版TCGA中RNAseq表達(dá)譜矩陣

? 【視頻講解】R代碼合并新版TCGA中miRNA表達(dá)譜矩陣

? 零代碼合并新版TCGA中RNAseq和miRNA表達(dá)譜

合并體細(xì)胞突變數(shù)據(jù)的思路,其實跟前面講到的合并表達(dá)矩陣的思路大體類似,當(dāng)然也有一個很重要的不同之處。

1)讀取sample sheet里面的內(nèi)容,獲取每個MAF(mutation annotation format)文件的路徑,如下圖所示。


2)循環(huán)讀取每一個MAF文件里面的內(nèi)容


3)將每個文件里面的內(nèi)容按行貼起來,這個跟前面合成表達(dá)矩陣是不一樣的。合并表達(dá)矩陣是按列來合并。最終我們可以得到下面這樣一張表格。


基于這張表格的數(shù)據(jù),我們就可以繪制前面提到過的瀑布圖。關(guān)于這張表格里面每一列的含義,我會在下面的文章里面給大家做詳細(xì)的介紹。

完整合并R代碼+詳細(xì)注釋???

R代碼合并TCGA體細(xì)胞突變數(shù)據(jù)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容