復(fù)現(xiàn)一篇WGCNA文章(含代碼)(一)

文章

AURKA, TOP2A and MELK are the key genes identified by WGCNA for the pathogenesis of lung adenocarcinoma

發(fā)表日期:2023-04-19

分析流程

1.png

這篇文章的數(shù)據(jù)分析相對來說比較常規(guī),主要是WGCNA分析,對于沒有高分需求的朋友們,加一些簡單的驗(yàn)證實(shí)驗(yàn)就能發(fā)SCI也是不錯(cuò)的選擇。

一 下載GEO數(shù)據(jù)

GEO:GSE140797以及 GPL13497;

2.png
3.png

在excel中對這個(gè)文件進(jìn)行處理,提取出表達(dá)量和臨床信息;
需要整理好的數(shù)據(jù)可以后臺留言給我;

二 處理GEO數(shù)據(jù)

1 讀取數(shù)據(jù)

data=read.csv('./data/GSE140797_expr.csv',header = T)
rownames(data)=data$ID_REF
data=data[,-1]
boxplot(data)
4.png

2 ID轉(zhuǎn)換

ids=read.csv('./data/GPL13497-9755.csv',header = T)
#查看一下有沒有NA值
table(is.na(ids))
ids=na.omit(ids)
#去掉空的GENE_SYMBOL
ids=ids[ids$GENE_SYMBOL != '',]
table(ids$ID %in% rownames(data))
data=data[rownames(data) %in% ids$ID,]
data=data[match(rownames(data),ids$ID),]
identical(rownames(data),ids$ID)
#去重復(fù)基因,保留最大表達(dá)量的結(jié)果
table(!duplicated(ids$GENE_SYMBOL))
ids$median=apply(data,1,median) #取每一行的中位數(shù)
ids=ids[order(ids$GENE_SYMBOL,ids$median,decreasing = T),]#對中位數(shù)從大到小排列的順序排序
ids=ids[!duplicated(ids$GENE_SYMBOL),]#去除重復(fù)的gene ,保留每個(gè)基因最大表達(dá)量結(jié)果
#最終表達(dá)矩陣
data=data[ids$ID,]
identical(rownames(data),ids$ID)
rownames(data)=ids$GENE_SYMBOL

3 臨床分組

下一步做差異分析需要分組

data_clin=read.csv('./data/GSE140797_clinical.csv',header = T)
rownames(data_clin)=data_clin$Sample_geo_accession
data_clin=data_clin[,-1]
data_clin=as.data.frame(t(data_clin))
group_list=ifelse(grepl('normal',data_clin$Sample_characteristics_ch1),'normal','tumor')
table(group_list)
#保存
save(data,group_list,file = './Rdata/exp_group.Rdata')
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容