@(Dayueban)[靶向|非靶向|代謝組學(xué)數(shù)據(jù)分析]
導(dǎo)讀
如今組學(xué)數(shù)據(jù)的產(chǎn)出量日益龐大。代謝組學(xué)數(shù)據(jù)也是如此,隨著科技的創(chuàng)新和技術(shù)的變革,允許科研工作者們通過大樣本數(shù)據(jù)去挖掘和解決人們關(guān)心的疾病和健康問題。然而大樣本,大數(shù)據(jù)勢必會對我們的分析手段提出挑戰(zhàn),因此,通過建立一套標(biāo)準(zhǔn)化,適合自己數(shù)據(jù)類型的分析方法顯得尤為重要。那么在這里,我會花一段時間去重新回顧并總結(jié)我在代謝組學(xué)(血清樣本)數(shù)據(jù)分析過程所用到的方法以及碰到的問題。
主要內(nèi)容
那么在學(xué)習(xí)數(shù)據(jù)分析之前,我還是想和大家一起回顧一下什么叫代謝組學(xué)(Metabolomics)和代謝組(Metabolome)。
- 代謝組學(xué),首先給出 維基百科 給出的解釋:metabolomics is the "systematic study of the unique chemical fingerprints that specific cellular processes leave behind", the study of their small-molecule metabolite profiles.也就是說,代謝組學(xué)是一種研究手段。
- 代謝組:The metabolome represents the complete set of metabolites in a biological cell, tissue, organ or organism, which are the end products of cellular processes.而代謝組指的是通過一系列方法能檢測到的所有的代謝物合集。
非靶向代謝組學(xué)
為什么非靶向代謝組學(xué)在生物學(xué)領(lǐng)域的位置越來越重要
在中心法則的指導(dǎo)下,基因組、轉(zhuǎn)錄組、蛋白組通常以信息流的方式呈現(xiàn),而代謝組被認(rèn)為是新陳代謝的結(jié)果。但是,很多研究表明代謝物可以參與到生命有機(jī)體的生理學(xué)功能和穩(wěn)態(tài),比如:
- 氧化脂類(oxylipins),是一種被氧化的脂肪族代謝物,其生物活性包括與炎癥反應(yīng)和防衛(wèi)系統(tǒng)相關(guān);
- oncometabolites,因?yàn)樾玛惔x改變而參與到腫瘤生成的一種代謝物;
- 有害代謝物,一類由酶錯誤或自發(fā)反應(yīng)產(chǎn)生的化學(xué)反應(yīng)性化合物,通常由損害控制系統(tǒng)調(diào)節(jié);
- 微生物代謝物,由腸道菌群分泌并且可以影響宿主生理的一代代謝物;
- 最后,植物素,由植物產(chǎn)生并且對宿主代謝發(fā)揮多種生物學(xué)活性。

非靶向代謝組學(xué)技術(shù)基礎(chǔ)
既然代謝組學(xué)是解密人體生理學(xué)基礎(chǔ)的重要一環(huán),那么它所用到的技術(shù)有哪些呢?
- 基于質(zhì)譜(MS)的非靶向代謝組學(xué)使得代謝物的發(fā)現(xiàn)和分析化學(xué)的更新變得可能,信息學(xué)是闡明新的生理功能和生物學(xué)機(jī)制必不可少的工具。這里我們從非靶向代謝組學(xué)下機(jī)數(shù)據(jù)開始講起,如下圖所示:

質(zhì)譜技術(shù)運(yùn)用到的主要是液相色譜質(zhì)譜聯(lián)用和氣相色譜質(zhì)譜聯(lián)用技術(shù),根據(jù)分析的性質(zhì)不同而定。那么非靶向代謝組學(xué)的測定平臺主要是
ultra performance liquid chromatogram quadrupole-time of flight mass spectrometry(UPLC/q-TOFMS,超高效液相色譜四級桿飛行時間質(zhì)譜)或者two-dimensional gas chromatogram combined with time-of-flight mass spectrometry (GC * GC-TOFMS,全二維氣相色譜飛行時間質(zhì)譜)以及linear ion trap quadrupole-Orbitrap-mass spectrometry(LTQ Orbitrap MS,線性離子肼四級桿軌道肼質(zhì)譜)-
通過上述儀器采集的原始質(zhì)譜信號需要經(jīng)過一系列的數(shù)據(jù)轉(zhuǎn)換得到分析物的相對含量值表:具體為行名為樣品名,列名為化合物保留時間/質(zhì)荷比對,每個樣品對應(yīng)每個化合物的單元格則為該化合物在該樣品的相對含量值。得到這個表的一系列步驟包括:
Fig 3 非靶向代謝組下機(jī)數(shù)據(jù)處理步驟,以Waters Progenesis QI軟件為例
當(dāng)然還有很多其它的軟件也可以做這樣的事情,比如MS-DIAL,MZmine,XCMS,OpenMS等軟件,最終得到的表格如下圖

數(shù)據(jù)前處理
這個小節(jié)的內(nèi)容主要介紹得到化合物表后,正式統(tǒng)計(jì)分析前的數(shù)據(jù)前處理工作。包括校正測定批次(特別是成百上千的樣品,測定周期少則幾個星期,多則幾個月的樣品類型);數(shù)據(jù)轉(zhuǎn)換——中心化或者標(biāo)準(zhǔn)化等處理(根據(jù)數(shù)據(jù)分析的目的決定)
1. 校正批次
- 針對大樣本,多批次進(jìn)行的實(shí)驗(yàn),在質(zhì)譜采集的過程中,勢必會產(chǎn)生離子信號的偏移。不管是批次內(nèi)還是批次之間,如下圖:
[圖片上傳失敗...(image-1d2c73-1544511793679)]
如果這些效應(yīng)不去除的話,會嚴(yán)重影響數(shù)據(jù)的質(zhì)量。那么代謝組學(xué)數(shù)據(jù)的校正方法主要有哪些呢?
1.1 內(nèi)標(biāo)校正:在樣品中加入內(nèi)標(biāo),然后對所有的峰都使用該內(nèi)標(biāo)進(jìn)行校正。但是這種方法使用一個或者幾個內(nèi)標(biāo)對所有的峰進(jìn)行標(biāo)準(zhǔn)哈,并不可靠,因此用的不多。
1.2 基于樣品本身:比如使用樣品中所有峰的平均值、中位值或者總和對所有峰進(jìn)行校正。另外還有比如PQN等等方法。
1.3 第三種在代謝組學(xué)數(shù)據(jù)中最為常見的標(biāo)準(zhǔn)化方法是基于QC(質(zhì)量控制)樣本的數(shù)據(jù)標(biāo)準(zhǔn)化。簡單來說,就是將所要采集的所有樣本取等量混合起來,組成QC樣本,然后在采集數(shù)據(jù)的時候,每隔一定數(shù)量的樣品,插入一針QC樣本。因?yàn)镼C樣本都是一樣的,因此可以用QC樣本來模擬數(shù)據(jù)采集過程中信號的變化。得到數(shù)據(jù)之后,對每一個峰(peak),都將QC作為訓(xùn)練集,然后建立預(yù)測模型,預(yù)測信號變化,從而對樣品中的信號進(jìn)行校正。 -
那么現(xiàn)在一般都是基于QC樣品作為數(shù)據(jù)標(biāo)準(zhǔn)化的首選方法,這里主要運(yùn)用到的是上海朱正江課題組的博士生沈小濤博士開發(fā)的一個R包來做的,MetNormalizer,具體的用法請參考博文:http://shenxt.me/2018/05/16/metabolomics-data-normalization/
主要的流程為下圖所示:
MetNormalizer包校正方法
統(tǒng)計(jì)學(xué)分析
1. 數(shù)據(jù)標(biāo)準(zhǔn)化
數(shù)據(jù)經(jīng)過測定批次的校正之后,便可以用于后續(xù)的統(tǒng)計(jì)學(xué)分析,那么在進(jìn)行統(tǒng)計(jì)學(xué)分析之前還需要進(jìn)行數(shù)據(jù)的轉(zhuǎn)化,主要有如下幾種
- Centering scaling:中心化,即減去每個變量的均值;
- Auto scaling:自動標(biāo)度化,也叫UV scaling(univariate scaling,單變量標(biāo)準(zhǔn)化),也就是上一步中心化后除以該變量的標(biāo)準(zhǔn)差,也叫
Z-score標(biāo)準(zhǔn)化; - Pareto scaling:
柏拉圖標(biāo)準(zhǔn)化,一般寫成Par標(biāo)準(zhǔn)化,與UV scaling的不同之處就是對標(biāo)準(zhǔn)差開根號。
一般用的較多的是Z-score標(biāo)準(zhǔn)化
2. 數(shù)據(jù)分析
2.1 多元統(tǒng)計(jì)分析
- PCA分析
PCA分析主要是為了看數(shù)據(jù)的一個質(zhì)量,也就是穩(wěn)定性如何,QC樣品如果比較集中,那么則反映數(shù)據(jù)的質(zhì)量較好。另外可以直觀的觀察被分析樣本有無天然的分組(適用于疾病-正?;蛘遚ase-control研究中)
那么PCA分析可以由很多方法實(shí)現(xiàn),包括桌面版的軟件SIMCA-P,在線分析軟件Metaboanalyst,以及R語言軟件包(stats包里的prcomp()和princomp()函數(shù),F(xiàn)actoMineR包的PCA()函數(shù),ade4包的dudi.pca()函數(shù),以及ExPosition包的epPCA()函數(shù))

- (O)PLS-DA分析
主要是用來篩選對樣本分類貢獻(xiàn)較大的生物標(biāo)記物,通常選擇
VIP>1的代謝物(需要注意的是,有監(jiān)督模型建立之后需要進(jìn)行模型的驗(yàn)證,如置換檢驗(yàn)(permutation test,PLS-DA),交叉驗(yàn)證(cross-validation,OPLS-DA)等)(這里也可以參考一個用于分析代謝組學(xué)數(shù)據(jù)的R包 ropls 1.15.0)
另外補(bǔ)充一下,瑞典查爾默斯理工大學(xué)的施琳老師最近發(fā)表在bioinformatics上的一篇文章,介紹了一個用于多元統(tǒng)計(jì)分析(分類或者回歸)的方法,并開發(fā)了一個R包MUVR
- 相關(guān)性分析
通過非靶向或者后期靶向鑒定到的代謝物,和表型做相關(guān)性分析,可以運(yùn)用Spearman 相關(guān)性分析,如果需要校正其它的confounders或者modifiers,可以用Partial Spearman 相關(guān)性分析(R語言的ppcor包)
2.2 單變量統(tǒng)計(jì)分析
對上一步篩選出的潛在的生物標(biāo)記物進(jìn)行差異統(tǒng)計(jì)學(xué)分析,找出組間差異的代謝物(兩組之間用Wilcoxon t-test,三組以上用kruskal-waillis檢驗(yàn)或者方差檢驗(yàn));另外還可以結(jié)合fold-change(差異倍數(shù))分析。
2.3 構(gòu)建回歸方程進(jìn)行預(yù)測
- 表型是分類變量(如疾病-健康組)
case-control,則使用前面步驟分析得到的差異化合物作為分析變量來預(yù)測表型,這一步一般用到的是
邏輯回歸!
- 表型是連續(xù)變量(如BMI)
針對表型是連續(xù)變量,如BMI,可以用前面分析到的與表型相關(guān)的n個代謝物構(gòu)建一個嶺回歸(ridge model,之所以運(yùn)用嶺回歸是因?yàn)榇x物之間可能會存在較強(qiáng)的共線性,而一般普通的線性回歸對于變量之間存在共線性會有不穩(wěn)定的解。另外套索回歸-lasso model也可以)
2.4 網(wǎng)絡(luò)分析
挖掘到差異或者和表型強(qiáng)相關(guān)的代謝物后,還需挖掘和這些代謝物相關(guān)的代謝通路。這里一般用的多的是Metaboanalyst里的兩個模塊
- 富集分析(Enrichment analysis)
- 通路分析(Pathway analysis):通路分析中添加了通路的拓?fù)浞治觯?code>topology analysis,會計(jì)算代謝物在網(wǎng)絡(luò)中的一個中心位置),會輸出通路在整體網(wǎng)絡(luò)中的重要性(impact),重要性越大,可能意味著在整個通路中的地位越核心,那么從impact值也可以反映出來。
參考
[1] Advances in computational metabolomics and databases deepen the understanding of metabolisms

