上次通過圖文給大家講解了如何從TCGA數(shù)據(jù)庫下載體細(xì)胞突變的數(shù)據(jù)
? 如何從TCGA數(shù)據(jù)庫下載體細(xì)胞突變數(shù)據(jù)(somatic mutation)
前面我們也講過,如何從TCGA數(shù)據(jù)庫下載RNAseq和miRNA-seq的數(shù)據(jù)。大家應(yīng)該對TCGA數(shù)據(jù)庫里面數(shù)據(jù)的格式有了一定的了解。
? 新版TCGA數(shù)據(jù)庫RNAseq數(shù)據(jù)下載
? 新版TCGA數(shù)據(jù)庫miRNA數(shù)據(jù)下載
無論是RNAseq,miRNAseq還是體細(xì)胞突變的數(shù)據(jù),都是單個的文件。也就是每一個樣本會用一個單獨的文件來存放相應(yīng)的數(shù)據(jù)。如果我們想得到如下圖所示的矩陣,就需要通過循環(huán)去讀取每一個文件里面的內(nèi)容,然后進(jìn)行合并。

前面已經(jīng)跟大家分享過如何通過R代碼或者是使用零代碼的工具來合并RNAseq和miRNA-seq的表達(dá)矩陣。
? 【視頻講解】R代碼合并新版TCGA中RNAseq表達(dá)譜矩陣
? 【視頻講解】R代碼合并新版TCGA中miRNA表達(dá)譜矩陣
? 零代碼合并新版TCGA中RNAseq和miRNA表達(dá)譜
合并體細(xì)胞突變數(shù)據(jù)的思路,其實跟前面講到的合并表達(dá)矩陣的思路大體類似,當(dāng)然也有一個很重要的不同之處。
1)讀取sample sheet里面的內(nèi)容,獲取每個MAF(mutation annotation format)文件的路徑,如下圖所示。

2)循環(huán)讀取每一個MAF文件里面的內(nèi)容

3)將每個文件里面的內(nèi)容按行貼起來,這個跟前面合成表達(dá)矩陣是不一樣的。合并表達(dá)矩陣是按列來合并。最終我們可以得到下面這樣一張表格。

基于這張表格的數(shù)據(jù),我們就可以繪制前面提到過的瀑布圖。關(guān)于這張表格里面每一列的含義,我會在下面的文章里面給大家做詳細(xì)的介紹。

完整合并R代碼+詳細(xì)注釋???