使用RTCGA等包獲取TCGA數(shù)據(jù)

### Create: Jianming Zeng
### Date: 2019-04-02 21:59:01
### Email: jmzeng1314@163.com
rm(list=ls())
options(stringsAsFactors = F)
# 注意,并不是說使用 RTCGA.miRNASeq包的數(shù)據(jù)是最佳選擇,只是因為這個演示起來最方便。
# 因為GDC官網(wǎng)下載數(shù)據(jù)具有一定門檻,也不是每個人都必須學(xué)會的。
getwd()
Rdata_dir='../Rdata/'
Figure_dir='../figures/'

# 如果開啟下面代碼,就會從RTCGA.miRNASeq包里面提取miRNA表達(dá)矩陣和對應(yīng)的樣本臨床信息。 
if(F){
  library(RTCGA.miRNASeq)  #加載包 TCGA的miRNASeq數(shù)據(jù)就在該包里      安裝見http://m.itdecent.cn/p/a3c64ee1f63b
  s=rownames(KIRC.miRNASeq)[seq(1,nrow(KIRC.miRNASeq),by=3)] #觀察KIRC.miRNASeq行名發(fā)現(xiàn)以3為規(guī)律,seq提取行名
  expr <- expressionsTCGA(KIRC.miRNASeq) #獲取表達(dá)矩陣
  dim(expr)
  expr[1:40,1:4]
  expr=as.data.frame(expr[seq(1,nrow(expr),by=3),3:ncol(expr)]) #根據(jù)之前提取的行名s過濾表達(dá)矩陣
  mi=colnames(expr)
  expr=apply(expr,1,as.numeric)  #將行名設(shè)為數(shù)值型
  colnames(expr)=s #將表達(dá)矩陣列名轉(zhuǎn)換為s
  rownames(expr)=mi #將表達(dá)矩陣列名轉(zhuǎn)換為s
  expr[1:4,1:4]
  expr=na.omit(expr) 
  dim(expr)  #此時有1046行,593列,說明沒有缺失值
  expr=expr[apply(expr, 1,function(x){sum(x>1)>10}),] 
  dim(expr)    # 552 593  這樣就獲得了593個樣本對應(yīng)的552個miRNA信息

  library(RTCGA.clinical) 
  meta <- KIRC.clinical
  tmp=as.data.frame(colnames(meta))
  meta[(grepl('patient.bcr_patient_barcode',colnames(meta)))]
  meta[(grepl('patient.days_to_last_followup',colnames(meta)))]
  meta[(grepl('patient.days_to_death',colnames(meta)))]
  meta[(grepl('patient.vital_status',colnames(meta)))]
  meta=as.data.frame(meta[c('patient.bcr_patient_barcode','patient.vital_status',
                            'patient.days_to_death','patient.days_to_last_followup',
                            'patient.race',
                            'patient.age_at_initial_pathologic_diagnosis',
                            'patient.gender' ,
                           'patient.stage_event.pathologic_stage')])
# 提取patient.bcr_patient_barcode,patient.vital_status等樣本信息
  #meta[(grepl('patient.stage_event.pathologic_stage',colnames(meta)))]
  ## 每次運(yùn)行代碼,就會重新生成文件。
  save(expr,meta,
       file = file.path(Rdata_dir,'TCGA-KIRC-miRNA-example.Rdata')
         )
}

## 我們已經(jīng)運(yùn)行了上面被關(guān)閉的代碼,而且保存了miRNA表達(dá)矩陣和對應(yīng)的樣本臨床信息
# 現(xiàn)在直接加載即可。
load( file = 
        file.path(Rdata_dir,'TCGA-KIRC-miRNA-example.Rdata')
)
dim(expr)
dim(meta)
# 可以看到是 537個病人,但是有593個樣本,每個樣本有 552個miRNA信息。
# 當(dāng)然,這個數(shù)據(jù)集可以下載原始測序數(shù)據(jù)進(jìn)行重新比對,可以拿到更多的miRNA信息

表達(dá)矩陣

臨床信息

參考來源:生信技能樹

友情鏈接:

課程分享
生信技能樹全球公益巡講
https://mp.weixin.qq.com/s/E9ykuIbc-2Ja9HOY0bn_6g
B站公益74小時生信工程師教學(xué)視頻合輯
https://mp.weixin.qq.com/s/IyFK7l_WBAiUgqQi8O7Hxw
招學(xué)徒:
https://mp.weixin.qq.com/s/KgbilzXnFjbKKunuw7NVfw

歡迎關(guān)注公眾號:青島生信菜鳥團(tuán)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 每天進(jìn)步一點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)點(diǎn)~~從開始只能寫幾句話、模仿別人的觀點(diǎn),到現(xiàn)...
    一個帥氣的名字呀閱讀 19,461評論 4 31
  • 第51-100講: 51 【五十一】遇到大事難事怎么辦(反思) ?時間管理的本質(zhì)是對事件的分類。?? 1.日歷 2....
    金大夕閱讀 2,734評論 0 11
  • 1. fasta和fastq 1.1. fasta:序列 以 > 開頭 gi|gi號|來源標(biāo)識|序列標(biāo)識(接收號/...
    大吉嶺猹閱讀 5,715評論 0 3
  • 前段時間 Express 中的一個中間件 getcookies 被爆出存在 backdoor,關(guān)注了一波,但僅看官...
    zhoukeke閱讀 363評論 0 0
  • 【手寫愛情繪本4.0】如果你曾經(jīng)遇到過那么一個人,那么其他人都會變成將就,而我,不愿意將就。愛情不將就,才愿意癡守...
    主播亞東閱讀 574評論 3 4

友情鏈接更多精彩內(nèi)容