想要復(fù)現(xiàn)一篇WGCNA文章中的原圖,數(shù)據(jù)集時GSE85589,前面在下載數(shù)據(jù)時折騰了好久,原因是呢,我下載的矩陣的miRNA探針就只有2000來個,以為不對勁,于是想要去下載CEL文件,但是又碰到了一系列問題。下面是折騰的過程。其中讓我淚崩的就是兩個主要解決不了的報錯,一個是
mirna40CDF,一個是read.celfiles這兩個報錯,其實到最后也沒解決掉,好在后來老大jimmy告訴我miRNA探針就有2000來個是正常的,我才能得以繼續(xù),不然要折騰到猴年馬月呀!哈哈
下載后的截圖如下。

值得注意的是,下載后的dat非常小,dim后只有2000多個探針


于是我想要去去下載CEL文件,下載的代碼如下
setwd('./')
library(affy)
dir_cels='GSE85589_RAW'
data <- ReadAffy(celfile.path=dir_cels)
eset <- rma(data)
calls <- mas5calls(data) # get PMA calls
calls <- exprs(calls)
absent <- rowSums(calls == 'A') # how may samples are each gene 'absent' in all samples
absent <- which (absent == ncol(calls)) # which genes are 'absent' in all samples
rmaFiltered <- eset[-absent,] #
不過出現(xiàn)了報錯,就是這個mirna40CDF的問題,當(dāng)時覺得問題不大

既然有報錯提示信息,谷歌說用read.celfiles

上面選n沒有成功,那么我下次選a。

問我do you 。。。,選yes

然而還是有報錯

安了Biocmanager,第一遍選擇了‘a(chǎn)’,但是加載不出,安裝第二遍,選擇了‘n’,依然是不行

換個思路,還是走老大的那個

搜索這個AffyBatch,貌似和下面這個CDF的報錯是有關(guān)聯(lián)的,這個batch是批次的意思,那么很有可能和表達量有關(guān),那么再思考一下

這個數(shù)據(jù)集的sample有下圖

后面的PC1才是我們想要的PDAC數(shù)據(jù),文章中說總共有88個PDAC數(shù)據(jù),我把PDAC數(shù)據(jù)集中間的省略,直接截圖后面的,下面這圖就是說還有ICC1啊和SC1的數(shù)據(jù)
<img src="https://tva1.sinaimg.cn/large/006y8mN6gy1g95vmqztj0j30i80widms.jpg" alt="image-20191112081705273" style="zoom:33%;" />
還有normal信息,和文章中的數(shù)量是能個對上的
<img src="https://tva1.sinaimg.cn/large/006y8mN6gy1g95vms47npj30g80ocwie.jpg" alt="image-20191112082741576" style="zoom:50%;" />
但是依然報錯如下,好吧,肯定不是cel文件數(shù)量或批次的問題
<img src="https://tva1.sinaimg.cn/large/006y8mN6gy1g95vmvcpdnj313c0a0jw0.jpg" alt="image-20191112082834811" style="zoom:50%;" />
其實前面谷歌過這個miRNA-4_0的問題,如下,但是并沒有人有后面的回答了
<img src="https://tva1.sinaimg.cn/large/006y8mN6gy1g95vmx7kdpj31d40oan4p.jpg" alt="image-20191112083022667" style="zoom:50%;" />
所以解決rma的關(guān)于AffyBatch的問題,谷歌同樣有人問

解答如下,意思是說

getwd()
[1] "/Users/mengmeng/Desktop/再做-WGCNA/GSE85589_RAW"
mydata_GSE85589<-ReadAffy()
rma.data <- affy::rma(mydata_GSE85589)
報錯信息如下,又回到了前面CDF和miRNA-4_0的問題,說這個包沒安,雖然上面我截了一張圖那個外國人說下載這個miRNA-4_0都不行,但是??給我的報錯信息就是沒有安裝mirna40cdf這個包

提示讓選擇的時候我選擇‘a(chǎn)’,問yes還是no的時候也選擇‘yes’,但是就是不給面子

關(guān)于搜索過程
- 第一種 是說被賽默飛收購了 所有不提供支持服務(wù)https://www.biostars.org/p/367835/ 解釋說如下
The CDFs for these old Affymetrix arrays can be very difficult to find. A problem was that Affymetrix were purchased by ThermoFisher, and support for products was lost.
I have done a search and found these sources:
http://www.affymetrix.com/support/technical/byproduct.affx?product=cytoscan_kit (look at ChAS files, at the bottom)
但是通過上面的鏈接我沒獲得什么信息,有人回復(fù)亦如此:Thanks Kevin. I've downloaded the CDF file from the second link and I've move to the folder with the CELs but errors don't disappear... thanks anyway!
- 第二種
#還有人這種方法
library(oligo)
dat <- read.celfiles(list.celfiles())
eset <- rma(dat)
但是我的報錯如下

針對上么解決谷歌搜索說
rma.data <- affy::rma(gse28403preset)
#但是根本沒有這個gse28403preset,我進到這個cel的目錄下用affy::rma下載后,就又返回提示mirna40CDF的報錯了

- 第三種從官網(wǎng)獲得
CDF文件


下載后解壓放到和cel文件一起的文件夾里,工作目錄也是此文件夾,結(jié)果報同樣mirna40CDF的錯。不行
<img src="https://tva1.sinaimg.cn/large/006y8mN6gy1g95vnlzqlej30m406wdgy.jpg" alt="image-20191112104438390" style="zoom:50%;" />
<img src="https://tva1.sinaimg.cn/large/006y8mN6gy1g95vnjs9v2j30vs0be43f.jpg" alt="image-20191112104749712" style="zoom:50%;" />
- 第四種,下載makecdfenv包
- 同樣的在https://support.bioconductor.org/p/57041/也搜索到類似的回答

這個還沒試,這個回答里內(nèi)容很多。不過其實一開始下載的矩陣就是對的,那就不糾結(jié)了,前面的當(dāng)成是一個探索的過程吧,可以直接看下集,其實還有個中集,也是個記錄過程,沒耐心煩兒的直接看下集,哈哈哈。