聊UCSC xena的數(shù)據(jù)下載問題

作者:白介素2


UCSC xena數(shù)據(jù)存儲(chǔ)中心總覽

UCSC xena的數(shù)據(jù) 存儲(chǔ)倉(cāng)庫(kù)主要包括的數(shù)據(jù)有以下這些:

GDC Hub與TCGA hub

我們經(jīng)常會(huì)使用 UCSC xena下載 TCGA數(shù)據(jù), 值得注意的是,其中包括了兩個(gè)數(shù)據(jù)來源。 這里我們來探索,這兩個(gè)來源的數(shù)據(jù)下載有何區(qū)別:

GDC Hub

數(shù)據(jù)下載內(nèi)容

首先來看GDC Hub的數(shù)據(jù)詳情,我們以 BRCA的count數(shù)據(jù)為例:

image.png

數(shù)據(jù)下載時(shí)間

從官網(wǎng)的介紹來看,如果是 GDC數(shù)據(jù)集來源下載,其方式等同于在 2017年9月15日使用 api方法從官網(wǎng)下載了數(shù)據(jù) 注意:數(shù)據(jù)已經(jīng)為log2(count+1)轉(zhuǎn)化值,數(shù)據(jù)已經(jīng)進(jìn)行了merge,可直接進(jìn)行注釋,進(jìn)行后續(xù)分析。 搞清楚了時(shí)間之后,我們繼續(xù)往下看 對(duì)應(yīng)的TCGA數(shù)據(jù)的更新時(shí)間:

image.png

數(shù)據(jù)更新

我們發(fā)現(xiàn)它對(duì)應(yīng)TCGA官方數(shù)據(jù)的更新時(shí)間為 2017年4月22日Data Release 8.0,那么從該時(shí)間到 2019年8月之間的時(shí)間 TCGA數(shù)據(jù)又經(jīng)過了哪些更新呢?

image.png

我們發(fā)現(xiàn)到現(xiàn)在為止,更新從 Data release 8.0到了 Data release 18.0,當(dāng)然,其中很多更新可能是新數(shù)據(jù)的發(fā)布,跟我們自己研究的腫瘤無關(guān)。 下一個(gè)問題是:是否有更新數(shù)據(jù)與我們相關(guān)?,答案當(dāng)然是:有! 比如說隨訪數(shù)據(jù),生存資料,我們做預(yù)后分析,肯定用生存資料吧。

image.png

生存資料更新

我們發(fā)現(xiàn)在 2019年6月5日的一次更新中(其它更新不詳細(xì),我們舉例說明這個(gè)問題),就有生存資料的更新,比如 生存狀態(tài),隨訪信息等,注意了:這些信息更新了,當(dāng)然可能并不一定會(huì)很大程度的影響分析結(jié)果,但畢竟在偏離真實(shí)值,所以,我們還要再渾水摸魚嗎?


TCGA Hub

下載選項(xiàng)

同樣,我們以 BRCA 數(shù)據(jù)為例,它提供的 RNA-seq數(shù)據(jù)下載包括了三種類別:

官方的答疑文檔 (估計(jì)是問的人太多了)

image.png
  • IlluminaHiSeq :log2(x+1) RSEM normalized count: 這個(gè)值究竟是如何得出來的比較復(fù)雜,有些文章直接使用這個(gè)值來做差異分析,作為基因表達(dá)的定量。 實(shí)際上做差異分析,還是推薦使用原始 count值去做。關(guān)于這個(gè)值能否用于差異分析,網(wǎng)上眾說紛紜,連 UCSC xena本身也沒有給出一個(gè)明確的說法(有人給 UCSC xena寫信了)。如有高手明確這個(gè)問題,歡迎賜教。

  • IlluminaHiSeq pancan normalized : 這個(gè)值類似于Pancan TCGA, 以整個(gè) TCGA數(shù)據(jù)集為背景,支持不同腫瘤間的比較。

  • IlluminaHiSeq percentile: we rank genes RSEM values between 0% to 100%. This dataset is gene expression estimation in percentile rank, which higher value representing higher expression. The dataset can be used to compare this RNAseq data with other cohorts when the other data is processed in the same way (i.e. percentile ranking).

這里再提供生信控的潘如飛老師對(duì)這個(gè)問題給出的一些見解 ,希望可以增加讀者對(duì)這個(gè)問題的了解。

數(shù)據(jù)下載內(nèi)容

image.png

同樣可以看到,下載的數(shù)據(jù)仍然不最新的數(shù)據(jù),與我們?cè)?GDC數(shù)據(jù)集源下載的數(shù)據(jù)有同樣的問題,數(shù)據(jù)未更新。并且,TCGA Hub數(shù)據(jù)是經(jīng)過處理后的數(shù)據(jù),能否直接用 limma等分析還需要打一個(gè)問號(hào)。

總結(jié)

經(jīng)過以上探索,筆者建議下載 TCGA數(shù)據(jù)還是使用更新下,下載到最新的數(shù)據(jù)。推薦的方式有以下幾種:

  • 官方下載GDC-client下載,存在的一個(gè)問題是比較繁瑣,且要自己 merge單個(gè)的文件,這個(gè)非常麻煩,不利于新手操作。

  • TCGAbiolinks包下載:可以實(shí)時(shí)下載到最新的數(shù)據(jù),提供merge功能。

  • GDCRNATools包: 代碼簡(jiǎn)介,具備merge功能,推薦大家使用。

  • 生信人SangerBox: 點(diǎn)擊式操作,可以merge。個(gè)人認(rèn)為存在的一個(gè)問題是該工具不透明,又未發(fā)表,可能在同行認(rèn)可方面會(huì)有些麻煩(當(dāng)然你寫文章時(shí)不說下載過程又是另外一回事了)。

以上推薦不分先后,沒有利益關(guān)系

廣而告之

說一個(gè)事,鑒于簡(jiǎn)書平臺(tái)在信息傳播方面有不足之處,應(yīng)粉絲要求,白介素2的個(gè)人微信平臺(tái)已經(jīng)開啟,繼續(xù)聊臨床與科研的故事,R語言,數(shù)據(jù)挖掘,文獻(xiàn)閱讀等內(nèi)容。當(dāng)然也不要期望過高,微信平臺(tái)目前的定位是作為自己的讀書筆記,如果對(duì)大家有幫助最好。如果感興趣, 可以掃碼關(guān)注下。


qrcode_for_gh_9eaa04438675_258.jpg
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容