@(Dayueban)[靶向|非靶向|代謝組學(xué)數(shù)據(jù)分析]

導(dǎo)讀

如今組學(xué)數(shù)據(jù)的產(chǎn)出量日益龐大。代謝組學(xué)數(shù)據(jù)也是如此，隨著科技的創(chuàng)新和技術(shù)的變革，允許科研工作者們通過大樣本數(shù)據(jù)去挖掘和解決人們關(guān)心的疾病和健康問題。然而大樣本，大數(shù)據(jù)勢必會對我們的分析手段提出挑戰(zhàn)，因此，通過建立一套標(biāo)準(zhǔn)化，適合自己數(shù)據(jù)類型的分析方法顯得尤為重要。那么在這里，我會花一段時間去重新回顧并總結(jié)我在代謝組學(xué)（血清樣本）數(shù)據(jù)分析過程所用到的方法以及碰到的問題。

主要內(nèi)容

那么在學(xué)習(xí)數(shù)據(jù)分析之前，我還是想和大家一起回顧一下什么叫代謝組學(xué)(Metabolomics)和代謝組(Metabolome)。

代謝組學(xué)，首先給出維基百科給出的解釋：metabolomics is the "systematic study of the unique chemical fingerprints that specific cellular processes leave behind", the study of their small-molecule metabolite profiles.也就是說，代謝組學(xué)是一種研究手段。
代謝組：The metabolome represents the complete set of metabolites in a biological cell, tissue, organ or organism, which are the end products of cellular processes.而代謝組指的是通過一系列方法能檢測到的所有的代謝物合集。

非靶向代謝組學(xué)

為什么非靶向代謝組學(xué)在生物學(xué)領(lǐng)域的位置越來越重要

在中心法則的指導(dǎo)下，基因組、轉(zhuǎn)錄組、蛋白組通常以信息流的方式呈現(xiàn)，而代謝組被認(rèn)為是新陳代謝的結(jié)果。但是，很多研究表明代謝物可以參與到生命有機(jī)體的生理學(xué)功能和穩(wěn)態(tài)，比如：

氧化脂類（oxylipins），是一種被氧化的脂肪族代謝物，其生物活性包括與炎癥反應(yīng)和防衛(wèi)系統(tǒng)相關(guān)；
oncometabolites，因?yàn)樾玛惔x改變而參與到腫瘤生成的一種代謝物；
有害代謝物，一類由酶錯誤或自發(fā)反應(yīng)產(chǎn)生的化學(xué)反應(yīng)性化合物，通常由損害控制系統(tǒng)調(diào)節(jié)；
微生物代謝物，由腸道菌群分泌并且可以影響宿主生理的一代代謝物；
最后，植物素，由植物產(chǎn)生并且對宿主代謝發(fā)揮多種生物學(xué)活性。

Fig 1 代謝組研究概況，可見，目前我們所發(fā)現(xiàn)的代謝物只是冰山一角

非靶向代謝組學(xué)技術(shù)基礎(chǔ)

既然代謝組學(xué)是解密人體生理學(xué)基礎(chǔ)的重要一環(huán)，那么它所用到的技術(shù)有哪些呢？

基于質(zhì)譜（MS）的非靶向代謝組學(xué)使得代謝物的發(fā)現(xiàn)和分析化學(xué)的更新變得可能，信息學(xué)是闡明新的生理功能和生物學(xué)機(jī)制必不可少的工具。這里我們從非靶向代謝組學(xué)下機(jī)數(shù)據(jù)開始講起，如下圖所示：

Fig 2 非靶向代謝組學(xué)實(shí)驗(yàn)及數(shù)據(jù)分析的一般流程

質(zhì)譜技術(shù)運(yùn)用到的主要是液相色譜質(zhì)譜聯(lián)用和氣相色譜質(zhì)譜聯(lián)用技術(shù)，根據(jù)分析的性質(zhì)不同而定。那么非靶向代謝組學(xué)的測定平臺主要是 ultra performance liquid chromatogram quadrupole-time of flight mass spectrometry（UPLC/q-TOFMS，超高效液相色譜四級桿飛行時間質(zhì)譜）或者 two-dimensional gas chromatogram combined with time-of-flight mass spectrometry （GC * GC-TOFMS，全二維氣相色譜飛行時間質(zhì)譜）以及linear ion trap quadrupole-Orbitrap-mass spectrometry（LTQ Orbitrap MS，線性離子肼四級桿軌道肼質(zhì)譜）
通過上述儀器采集的原始質(zhì)譜信號需要經(jīng)過一系列的數(shù)據(jù)轉(zhuǎn)換得到分析物的相對含量值表：具體為行名為樣品名，列名為化合物保留時間/質(zhì)荷比對，每個樣品對應(yīng)每個化合物的單元格則為該化合物在該樣品的相對含量值。得到這個表的一系列步驟包括：

Fig 3 非靶向代謝組下機(jī)數(shù)據(jù)處理步驟，以Waters Progenesis QI軟件為例

當(dāng)然還有很多其它的軟件也可以做這樣的事情，比如MS-DIAL，MZmine，XCMS，OpenMS等軟件，最終得到的表格如下圖

Fig 4 保留時間、m/z值對和樣品名及相對含量值組成的分析物表，是經(jīng)過前面質(zhì)譜采集，軟件將質(zhì)譜采集的化學(xué)信號轉(zhuǎn)為數(shù)字的結(jié)果

數(shù)據(jù)前處理

這個小節(jié)的內(nèi)容主要介紹得到化合物表后，正式統(tǒng)計(jì)分析前的數(shù)據(jù)前處理工作。包括校正測定批次（特別是成百上千的樣品，測定周期少則幾個星期，多則幾個月的樣品類型）；數(shù)據(jù)轉(zhuǎn)換——中心化或者標(biāo)準(zhǔn)化等處理（根據(jù)數(shù)據(jù)分析的目的決定）

1. 校正批次

針對大樣本，多批次進(jìn)行的實(shí)驗(yàn)，在質(zhì)譜采集的過程中，勢必會產(chǎn)生離子信號的偏移。不管是批次內(nèi)還是批次之間，如下圖：
[圖片上傳失敗...(image-1d2c73-1544511793679)]
如果這些效應(yīng)不去除的話，會嚴(yán)重影響數(shù)據(jù)的質(zhì)量。那么代謝組學(xué)數(shù)據(jù)的校正方法主要有哪些呢？
1.1 內(nèi)標(biāo)校正：在樣品中加入內(nèi)標(biāo)，然后對所有的峰都使用該內(nèi)標(biāo)進(jìn)行校正。但是這種方法使用一個或者幾個內(nèi)標(biāo)對所有的峰進(jìn)行標(biāo)準(zhǔn)哈，并不可靠，因此用的不多。
1.2 基于樣品本身：比如使用樣品中所有峰的平均值、中位值或者總和對所有峰進(jìn)行校正。另外還有比如PQN等等方法。
1.3 第三種在代謝組學(xué)數(shù)據(jù)中最為常見的標(biāo)準(zhǔn)化方法是基于QC（質(zhì)量控制）樣本的數(shù)據(jù)標(biāo)準(zhǔn)化。簡單來說，就是將所要采集的所有樣本取等量混合起來，組成QC樣本，然后在采集數(shù)據(jù)的時候，每隔一定數(shù)量的樣品，插入一針QC樣本。因?yàn)镼C樣本都是一樣的，因此可以用QC樣本來模擬數(shù)據(jù)采集過程中信號的變化。得到數(shù)據(jù)之后，對每一個峰（peak），都將QC作為訓(xùn)練集，然后建立預(yù)測模型，預(yù)測信號變化，從而對樣品中的信號進(jìn)行校正。
那么現(xiàn)在一般都是基于QC樣品作為數(shù)據(jù)標(biāo)準(zhǔn)化的首選方法，這里主要運(yùn)用到的是上海朱正江課題組的博士生沈小濤博士開發(fā)的一個R包來做的，MetNormalizer，具體的用法請參考博文：http://shenxt.me/2018/05/16/metabolomics-data-normalization/
主要的流程為下圖所示：

MetNormalizer包校正方法

統(tǒng)計(jì)學(xué)分析

1. 數(shù)據(jù)標(biāo)準(zhǔn)化

數(shù)據(jù)經(jīng)過測定批次的校正之后，便可以用于后續(xù)的統(tǒng)計(jì)學(xué)分析，那么在進(jìn)行統(tǒng)計(jì)學(xué)分析之前還需要進(jìn)行數(shù)據(jù)的轉(zhuǎn)化，主要有如下幾種

Centering scaling：中心化，即減去每個變量的均值；
Auto scaling：自動標(biāo)度化，也叫UV scaling（univariate scaling，單變量標(biāo)準(zhǔn)化），也就是上一步中心化后除以該變量的標(biāo)準(zhǔn)差，也叫Z-score標(biāo)準(zhǔn)化；
Pareto scaling：柏拉圖標(biāo)準(zhǔn)化，一般寫成Par標(biāo)準(zhǔn)化，與UV scaling的不同之處就是對標(biāo)準(zhǔn)差開根號。
一般用的較多的是Z-score標(biāo)準(zhǔn)化

2. 數(shù)據(jù)分析

2.1 多元統(tǒng)計(jì)分析

PCA分析

PCA分析主要是為了看數(shù)據(jù)的一個質(zhì)量，也就是穩(wěn)定性如何，QC樣品如果比較集中，那么則反映數(shù)據(jù)的質(zhì)量較好。另外可以直觀的觀察被分析樣本有無天然的分組（適用于疾病-正?；蛘遚ase-control研究中）

那么PCA分析可以由很多方法實(shí)現(xiàn)，包括桌面版的軟件SIMCA-P，在線分析軟件Metaboanalyst，以及R語言軟件包（stats包里的prcomp()和princomp()函數(shù)，F(xiàn)actoMineR包的PCA()函數(shù)，ade4包的dudi.pca()函數(shù)，以及ExPosition包的epPCA()函數(shù)）

PCA圖，QC樣品聚集在一起，說明實(shí)驗(yàn)穩(wěn)定性較好

(O)PLS-DA分析

主要是用來篩選對樣本分類貢獻(xiàn)較大的生物標(biāo)記物，通常選擇VIP>1的代謝物（需要注意的是，有監(jiān)督模型建立之后需要進(jìn)行模型的驗(yàn)證，如置換檢驗(yàn)（permutation test，PLS-DA），交叉驗(yàn)證（cross-validation，OPLS-DA）等）（這里也可以參考一個用于分析代謝組學(xué)數(shù)據(jù)的R包 ropls 1.15.0）

另外補(bǔ)充一下，瑞典查爾默斯理工大學(xué)的施琳老師最近發(fā)表在bioinformatics上的一篇文章，介紹了一個用于多元統(tǒng)計(jì)分析（分類或者回歸）的方法，并開發(fā)了一個R包MUVR

相關(guān)性分析

通過非靶向或者后期靶向鑒定到的代謝物，和表型做相關(guān)性分析，可以運(yùn)用Spearman 相關(guān)性分析，如果需要校正其它的confounders或者modifiers，可以用Partial Spearman 相關(guān)性分析（R語言的ppcor包）

2.2 單變量統(tǒng)計(jì)分析

對上一步篩選出的潛在的生物標(biāo)記物進(jìn)行差異統(tǒng)計(jì)學(xué)分析，找出組間差異的代謝物（兩組之間用Wilcoxon t-test，三組以上用kruskal-waillis檢驗(yàn)或者方差檢驗(yàn)）；另外還可以結(jié)合fold-change(差異倍數(shù))分析。

2.3 構(gòu)建回歸方程進(jìn)行預(yù)測

表型是分類變量（如疾病-健康組）

case-control，則使用前面步驟分析得到的差異化合物作為分析變量來預(yù)測表型，這一步一般用到的是邏輯回歸!

表型是連續(xù)變量（如BMI）

針對表型是連續(xù)變量，如BMI，可以用前面分析到的與表型相關(guān)的n個代謝物構(gòu)建一個嶺回歸（ridge model，之所以運(yùn)用嶺回歸是因?yàn)榇x物之間可能會存在較強(qiáng)的共線性，而一般普通的線性回歸對于變量之間存在共線性會有不穩(wěn)定的解。另外套索回歸-lasso model也可以）

2.4 網(wǎng)絡(luò)分析

挖掘到差異或者和表型強(qiáng)相關(guān)的代謝物后，還需挖掘和這些代謝物相關(guān)的代謝通路。這里一般用的多的是Metaboanalyst里的兩個模塊

富集分析（Enrichment analysis）
通路分析（Pathway analysis）:通路分析中添加了通路的拓?fù)浞治觯?code>topology analysis，會計(jì)算代謝物在網(wǎng)絡(luò)中的一個中心位置），會輸出通路在整體網(wǎng)絡(luò)中的重要性（impact），重要性越大，可能意味著在整個通路中的地位越核心，那么從impact值也可以反映出來。

參考

[1] Advances in computational metabolomics and databases deepen the understanding of metabolisms

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

非靶向 | 靶向代謝組學(xué)數(shù)據(jù)分析總結(jié)-綱要

非靶向 | 靶向代謝組學(xué)數(shù)據(jù)分析總結(jié)-綱要

導(dǎo)讀

主要內(nèi)容

非靶向代謝組學(xué)

為什么非靶向代謝組學(xué)在生物學(xué)領(lǐng)域的位置越來越重要

非靶向代謝組學(xué)技術(shù)基礎(chǔ)

數(shù)據(jù)前處理

統(tǒng)計(jì)學(xué)分析

參考

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

非靶向 | 靶向代謝組學(xué)數(shù)據(jù)分析總結(jié)-綱要

導(dǎo)讀

主要內(nèi)容

非靶向代謝組學(xué)

為什么非靶向代謝組學(xué)在生物學(xué)領(lǐng)域的位置越來越重要

非靶向代謝組學(xué)技術(shù)基礎(chǔ)

數(shù)據(jù)前處理

統(tǒng)計(jì)學(xué)分析

參考

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av