RNA-Seq differential expression analysis: An extended review and a software tool RNA-Seq差異表達(dá)分析:...

RNA-Seq differential expression analysis: An extended review and a software tool RNA-Seq差異表達(dá)分析: 擴(kuò)展評(píng)論和軟件工具

正確鑒定特定條件之間的差異表達(dá)基因(DEG)是理解表型變異的關(guān)鍵。高通量轉(zhuǎn)錄組測(cè)序(RNA-Seq)已成為這些研究的主要選擇。

因此,用于RNA-Seq數(shù)據(jù)的差異表達(dá)分析的方法和軟件的數(shù)量也迅速增加。 但是,對(duì)于最合適的管道還是沒有達(dá)成共識(shí)用于從RNA-Seq數(shù)據(jù)鑒定差異表達(dá)基因的方案。這項(xiàng)工作對(duì)該主題進(jìn)行了擴(kuò)展審查,其中包括對(duì)六種繪圖方法的評(píng)估讀取,包括偽對(duì)齊和準(zhǔn)映射以及來(lái)自RNA-Seq數(shù)據(jù)的九種差異表達(dá)分析方法。

使用qRT-PCR數(shù)據(jù)作為參考(金標(biāo)準(zhǔn)),基于真實(shí)RNA-Seq數(shù)據(jù)評(píng)估所采用的方法。作為結(jié)果的一部分,我們開發(fā)了一個(gè)軟件,可以執(zhí)行本工作中提供的所有分析,可在https://github.com/costasilvati/consexpression免費(fèi)獲取。結(jié)果表明,考慮到映射方法對(duì)最終DEG分析的影響很小采用的數(shù)據(jù)有一個(gè)帶注釋的參考基因組。關(guān)于采用的實(shí)驗(yàn)?zāi)P椭?,具有更一致結(jié)果的DEGs識(shí)別方法是limma + voom,NOIseq和DESeq2。此外,五種DEG識(shí)別方法的共識(shí)保證了DEG的列表具有很高的準(zhǔn)確性,表明了這種不同的方法組合可以產(chǎn)生更合適的結(jié)果。共識(shí)選項(xiàng)也包括在內(nèi)用于可用的軟件。

介紹
高通量測(cè)序已成為測(cè)量表達(dá)水平的主要選擇,即RNA-Seq [1]。RNA-Seq可以在不事先了解參考文獻(xiàn)的情況下進(jìn)行感興趣的序列,允許廣泛的應(yīng)用,如:“從頭”重建轉(zhuǎn)錄組(沒有參考基因組),核苷酸變異的評(píng)估,評(píng)估甲基化模式[2],僅舉幾例。RNA-seq技術(shù)比cDNA微陣列具有一些優(yōu)勢(shì),例如高通過(guò)泳道和流通池的數(shù)據(jù)再現(xiàn)性水平,這減少了實(shí)驗(yàn)的技術(shù)重復(fù)數(shù)量。

此外,RNA-seq可以識(shí)別和量化同種型和未知轉(zhuǎn)錄本的表達(dá)[3]。關(guān)于越來(lái)越受歡迎高通量測(cè)序方法,下一代測(cè)序?qū)嶒?yàn)的成本

已大幅下降。然而,對(duì)于RNA-Seq的定性和定量分析的清晰理解尚未實(shí)現(xiàn),特別是與較老的方法如cDNA微陣列相比時(shí)[4]。

一般而言,RNA-Seq技術(shù)對(duì)于涉及某些特定條件的差異表達(dá)分析非常有用[5],其中通常采用五個(gè)步驟[6,7]。 首先,將RNA樣品片段化成小的互補(bǔ)DNA序列(cDNA)和然后從高吞吐量平臺(tái)排序。

其次,將小的生成序列映射到基因組或轉(zhuǎn)錄組。第三,估計(jì)每種基因或同種型的表達(dá)水平。第四,映射的數(shù)據(jù)被標(biāo)準(zhǔn)化,例如使用統(tǒng)計(jì)和機(jī)器

在學(xué)習(xí)方法中,鑒定了差異表達(dá)的基因(DEG)。 最后,最終從生物學(xué)背景中評(píng)估所產(chǎn)生數(shù)據(jù)的相關(guān)性[8]。隨著RNA-Seq技術(shù)的日益普及,開發(fā)了許多軟件和管道

這些數(shù)據(jù)的差異基因表達(dá)分析。來(lái)自RNA-Seq的差異基因表達(dá)分析方法可以分為兩個(gè)主要子集:參數(shù)和非參數(shù)。參數(shù)方法捕獲有關(guān)參數(shù)內(nèi)數(shù)據(jù)的所有信息。

在這些情況下,可以通過(guò)觀察采用的模型及其參數(shù)來(lái)預(yù)測(cè)未知數(shù)據(jù)的值。當(dāng)參數(shù)化方法應(yīng)用于差異基因表達(dá)假設(shè),通常在歸一化后,給定基因的每個(gè)表達(dá)值被映射到特定分布,例如泊松[9±11]或負(fù)二項(xiàng)[12±14]。

另一方面,非參數(shù)方法可以捕獲關(guān)于數(shù)據(jù)分布的更多細(xì)節(jié),即,不強(qiáng)加擬合的剛性模型。這是可能的,因?yàn)榉菂?shù)模型考慮到不能從有限的參數(shù)集定義數(shù)據(jù)分布,因此關(guān)于數(shù)據(jù)的信息量可以隨著其體積而增加。

關(guān)于RNA-Seq差異表達(dá)分析,一些工具如edgeR [13]和baySeq [11]采用負(fù)二項(xiàng)模型作為主要方法。

其他軟件工具,如NOIseq [15]和SAMseq [16],采用非參數(shù)方法。

一些方法基于轉(zhuǎn)錄物檢測(cè),其已被開發(fā)用于鑒定未知的轉(zhuǎn)錄物或同種型,并且還可用于鑒定DEG,例如EBSeq [17]和Cuffdiff2 [18]。如今,關(guān)于哪種方法最為重要,尚未達(dá)成共識(shí)適當(dāng)?shù)幕蚰姆N方法確保結(jié)果在穩(wěn)健性,準(zhǔn)確性方面的有效性和再現(xiàn)性。生物信息學(xué)研究中的這一主題仍在發(fā)展[5,19,20]。為了評(píng)估DEG的標(biāo)準(zhǔn)化和檢測(cè)的統(tǒng)計(jì)方法以及文庫(kù)制備對(duì)結(jié)果的影響,開發(fā)了一些研究工作[10],通過(guò)考慮微生物來(lái)評(píng)估差異表達(dá)分析的方法,包括用于分析的映射方法[21],并用模擬數(shù)據(jù)評(píng)估軟件和管道[20,22]。特別是Rapaport等人。 [23]評(píng)估了實(shí)際數(shù)據(jù)集中差異表達(dá)分析軟件的概要,考慮了分析的特征,如準(zhǔn)確性,標(biāo)準(zhǔn)化,DEG的檢測(cè)和沒有檢測(cè)到表達(dá)的條件。張等人。 [5]評(píng)估了重復(fù)次數(shù),測(cè)序覆蓋率和比較組的影響。郭等人。表明三種DEGs鑒定方法之間的排序可以產(chǎn)生更準(zhǔn)確的鑒定[24]。李等人。 [8]評(píng)估標(biāo)準(zhǔn)化用于DEG檢測(cè)的方法,表明兩種標(biāo)準(zhǔn)化方法的結(jié)合導(dǎo)致更好的結(jié)果。Seyednasrollah等。 [25]介紹了八種軟件工具的比較

實(shí)際數(shù)據(jù)中的DEG分析。Germain等人。 [26]介紹了有關(guān)RNA-Seq數(shù)據(jù)分析步驟的工作,比較了不同的轉(zhuǎn)錄物定位和定量方法,同時(shí)也為采用的方法比較提供了一個(gè)在線工具。

最近,Yu等人。 [27]提出了一個(gè)基于模擬的程序,采用負(fù)二項(xiàng)分布和廣義線性模型(在基因水平)。該方法的主要目標(biāo)是降低先前研究中報(bào)道的I型錯(cuò)誤的高發(fā)率[17],即

假陰性。Abedalrhman和Rueda [28]介紹了Zseq工具,指出了高通量測(cè)序數(shù)據(jù)分析中預(yù)處理步驟的重要性。 更具特異性,Zseq專注于改善成績(jī)單的組裝,用不同的預(yù)處理方法評(píng)估DEGs的結(jié)果。

另一方面,其他方法一直關(guān)注評(píng)估其他觀點(diǎn),例如RNA-Seq實(shí)驗(yàn)所需的生物復(fù)制數(shù)量,以及基于實(shí)驗(yàn)重復(fù)次數(shù)分析差異表達(dá)的最合適工具[29]。 。從Sahraeian等人的不同角度對(duì)RNA-seq數(shù)據(jù)進(jìn)行全面而系統(tǒng)的分析。除了先前產(chǎn)生的RNA-Seq數(shù)據(jù)的表達(dá)分析外,al(2017)可以作出顯著貢獻(xiàn)[30]。與這些研究不同,我們?cè)u(píng)估了映射方法對(duì)差異基因表達(dá)分析結(jié)果的影響。

我們還通過(guò)不同的視角評(píng)估DEGs分析的方法,不僅指出了更好的方法。先前的研究及其結(jié)果表明,DEGs分析受許多因素的影響,如文庫(kù)的制備和實(shí)驗(yàn)的結(jié)構(gòu)。在這種情況下,我們用RNA-Seq數(shù)據(jù)分析了DEG鑒定中必需步驟的影響,并開發(fā)了一種軟件,可以獲得主要DEGs鑒定方法的結(jié)果。六個(gè)映射器之間的比較研究,包括一個(gè)偽對(duì)齊和一個(gè)通常用于差異表達(dá)研究的準(zhǔn)映射工具,導(dǎo)致識(shí)別

這一步驟在DEG的分析和鑒定中的重要性。還采用了金標(biāo)準(zhǔn)qRT-PCR數(shù)據(jù),以評(píng)估DEG鑒定工具的準(zhǔn)確性,并指出其結(jié)果具有高可靠性的工具。這項(xiàng)工作的另一項(xiàng)貢獻(xiàn)是評(píng)估DEGs識(shí)別方法的綜合結(jié)果,

我們的工具允許執(zhí)行五種不同的差異表達(dá)分析方法的共識(shí),結(jié)果表明差異表達(dá)的基因具有更高的可靠性和準(zhǔn)確性。在本研究中,我們用RNA-Seq數(shù)據(jù)對(duì)差異基因表達(dá)分析的主要方法進(jìn)行了擴(kuò)展回顧,評(píng)估了作圖和量化方法的影響。在本研究中,我們采用了繪圖軟件Bowtie2 [31],TopHat [32],BWA [33]和STAR [34]。對(duì)于其他方法,例如偽對(duì)齊和準(zhǔn)映射,我們采用了kallisto [35]和Salmon [36]。我們分析了差異表達(dá)分析軟件,它代表了該領(lǐng)域的最新技術(shù)水平,例如baySeq [11],DESeq [12],DESeq2 [37],EBSeq [17],edgeR [13],limma + voom [38],NOIseq [15,39]和SAMseq [16]。將映射結(jié)果用作一些差異表達(dá)分析軟件工具的輸入,并將其結(jié)果與qRT-PCR進(jìn)行比較[40],從而驗(yàn)證與不同映射器相關(guān)的每個(gè)軟件的準(zhǔn)確性。

結(jié)果表明,NOIseq [15,39],limma + voom [38]和DESeq2 [37]是考慮精度,準(zhǔn)確度和靈敏度最平衡的軟件。我們?cè)u(píng)估了不同方法中個(gè)體和綜合方式的結(jié)果。

結(jié)果表明,一組軟件可以比單個(gè)解決方案一起產(chǎn)生高精度和準(zhǔn)確性。 最后,這項(xiàng)工作仍然很容易作為軟件工具的貢獻(xiàn)適用于差異基因表達(dá)分析的不同實(shí)驗(yàn)。該軟件工具提供了一個(gè)集成執(zhí)行,具有映射,映射計(jì)數(shù)(如果需要)和表達(dá)水平的量化,表明所采用的方法在識(shí)別DEG時(shí)的性質(zhì)和準(zhǔn)確性的特征。

材料和方法數(shù)據(jù)集

這項(xiàng)工作采用了為微陣列質(zhì)量控制(MAQC)項(xiàng)目[10,40]生成的實(shí)際數(shù)據(jù)集。使用Illumina的Genome Analyzer II獲得數(shù)據(jù)集。該實(shí)驗(yàn)分析了兩個(gè)生物樣本:來(lái)自Ambion人類大腦的RNA和Stratagene的人類通用參考RNA,我們將在這項(xiàng)工作中分別稱為Brain和UHR集[10]。我們只使用了使用PhiX Control的Brain和UHR樣本。數(shù)據(jù)集可在NCBI Short-Read Archive(SRA)上獲得,登記號(hào)為SRA010153。讀數(shù)針對(duì)人類基因組/轉(zhuǎn)錄組,版本19(GRCh37.p13)進(jìn)行了定位。作為MAQC項(xiàng)目的一部分,通過(guò)qRT-PCR分析了大約一千個(gè)基因[41]。qRT-PCR數(shù)據(jù)可在Gene Expression Omnibus獲得,訪問(wèn):GSE5350,平臺(tái)GPL4097 [40]。

Ambion人腦和Stratagene通用人體樣本也被用作該實(shí)驗(yàn)的生物學(xué)參考。我們將qRT-PCR數(shù)據(jù)視為評(píng)估DEGs鑒定方法的金標(biāo)準(zhǔn)。從RNA-Seq數(shù)據(jù)(ENSEMBL)的注釋到qRT-PCR數(shù)據(jù)的轉(zhuǎn)換由在線工具bioDBnet [42]進(jìn)行,不包括重復(fù)的ID或同義詞。該轉(zhuǎn)換產(chǎn)生了997個(gè)獨(dú)特qRT-PCR基因的列表。有關(guān)qRT-PCR基因列表的詳細(xì)信息,請(qǐng)參閱S1表。序列比對(duì)和基因計(jì)數(shù)

采用的RNA-Seq數(shù)據(jù)集映射在人類基因組/轉(zhuǎn)錄組(hg19)中,同一版本的注釋文件均來(lái)自GENCODE項(xiàng)目[43]。

轉(zhuǎn)錄組到基因組注釋的轉(zhuǎn)換由R包txImport [44]完成。對(duì)于映射和量化,使用了各種方法:拼接讀取對(duì)準(zhǔn)器,未拼寫讀取對(duì)齊器,偽對(duì)齊和準(zhǔn)映射。對(duì)于拼接讀取對(duì)準(zhǔn)器方法,使用了TopHat軟件(v.2.1.0)[18],該軟件應(yīng)用了外顯子優(yōu)先方法。對(duì)于無(wú)符號(hào)讀取對(duì)準(zhǔn)器方法,使用了兩個(gè)映射軟件,BWA(v.0.7.12-r1039)[33]和Bowtie(v.2.2.6)[31],它們應(yīng)用了Burrows-Wheeler變換。

對(duì)于偽對(duì)齊方法,使用kallisto軟件(v.0.43.1)[35]。對(duì)于準(zhǔn)映射方法,使用Salmon(v0.8.2)軟件[36]。對(duì)于映射執(zhí)行,默認(rèn)

采用各軟件的參數(shù)。表1列出了采用的映射器。采用HTSeq軟件(v.0.6.0)[12]生成計(jì)數(shù)矩陣,默認(rèn)參數(shù)。

用于生成計(jì)數(shù)矩陣的采用的注釋文件與映射中使用的相同。圖1展示了目前的工作。通過(guò)每種采用的方法將RNA-Seq數(shù)據(jù)集(表示為圖1中的ΒNCBI-SRA)映射到人類基因組(hg19),從而獲得計(jì)數(shù)矩陣。矩陣用作所采用的差分表達(dá)方法的輸入。為了評(píng)估映射軟件對(duì)DEGs識(shí)別的影響,我們使用六個(gè)生成的計(jì)數(shù)矩陣分析了四個(gè)差分表達(dá)軟件。 對(duì)于Salmon,STAR和kallisto,我們分析了兩種差異表達(dá)軟件。通過(guò)考慮以下DEG識(shí)別方法獲得映射器性能:edgeR,DESeq,baySeq和NOIseq,到Tophat,Bowtie2和BWA,分析Salmon,STAR和kallisto分別進(jìn)行了edgeR和NOISeq。 DESeq和baySeq只能使用計(jì)數(shù)數(shù)據(jù)運(yùn)行(圖1)。

差異表達(dá)

在這項(xiàng)工作中,我們比較了八種DEGs或轉(zhuǎn)錄本鑒定方法。在應(yīng)用每個(gè)軟件時(shí),我們關(guān)注最常用的方法。因此,我們遵循手冊(cè)中提供的指南,應(yīng)用默認(rèn)參數(shù),包括每個(gè)軟件的標(biāo)準(zhǔn)化方法。

使用由HTSeq產(chǎn)生的相同計(jì)數(shù)矩陣進(jìn)行所有差異表達(dá)分析。對(duì)于每個(gè)評(píng)估的映射器,生成計(jì)數(shù)矩陣或豐度矩陣,以這種方式對(duì)映射器工具評(píng)估DEG方法。表2總結(jié)了采用的DEG識(shí)別方法及其性質(zhì)。

使用BWA,TopHat,Bowtie和STAR映射器繪制RNA-Seq數(shù)據(jù)。量化是從Salmon和kallisto工具獲得的。每個(gè)映射器的計(jì)數(shù)表用作DEG識(shí)別方法(edgeR,DESeq,baySeq和NOISeq)的輸入,從而為不同的映射器生成每種DEG識(shí)別方法的DEG列表。Salmon,STAR和kallisto的結(jié)果用作edgeR和NOISeq的輸入。將結(jié)果與qRT-PCR(金標(biāo)準(zhǔn))進(jìn)行比較,以評(píng)估映射是否影響DEGs檢測(cè)的性能。EBSeq,SAMSeq和limma + voom,DESeq2和偵探方法被添加到研究中,用于單獨(dú)評(píng)估DEG識(shí)別工具,僅使用TopHat映射器的映射結(jié)果。如其用戶指南所示,特殊偵探收到kallisto工具的量化輸出。圖1給出了概述

這項(xiàng)工作中提出的管道。采用的方法(使用TopHat映射器)確定的DEG用于評(píng)估結(jié)果部分中的性能統(tǒng)計(jì)數(shù)據(jù)。

·baySeq [11]:使用貝葉斯經(jīng)驗(yàn)方法估計(jì)每組模型的后驗(yàn)概率,定義每個(gè)元組的差分表達(dá)模式。

·DESeq [12]:基于負(fù)二項(xiàng)分布,方差和均值受局部回歸約束。

·EBSeq [17]:開發(fā)的主要目的是鑒定差異表達(dá)的同種型,它在鑒定DEG方面也很穩(wěn)健。它類似于baySeq [11],它采用貝葉斯經(jīng)驗(yàn)方法。

edgeR [13]:Poisson超分散模型用于解釋技術(shù)和生物學(xué)問(wèn)題
變異。應(yīng)用貝葉斯經(jīng)驗(yàn)方法來(lái)調(diào)節(jié)過(guò)度分散對(duì)轉(zhuǎn)錄物的程度。

·limma + voom [38]:基于線性模型,最初開發(fā)用于分析微陣列數(shù)據(jù),目前擴(kuò)展用于RNA-Seq分析。 limma用戶指南建議使用與使用voom轉(zhuǎn)換相關(guān)的edgeR包的TMM標(biāo)準(zhǔn)化,它基本上將標(biāo)準(zhǔn)化計(jì)數(shù)轉(zhuǎn)換為對(duì)數(shù)基數(shù)2并估計(jì)均值 - 方差關(guān)系以確定每個(gè)觀察的權(quán)重
最初由線性模型[45]制作。

·NOIseq [15,39]:自適應(yīng)數(shù)據(jù)和非參數(shù),根據(jù)經(jīng)驗(yàn)?zāi)M計(jì)數(shù)數(shù)據(jù)中的噪聲,并允許數(shù)據(jù)分析而無(wú)需復(fù)制。

·SAMseq:[16]:非參數(shù)方法,對(duì)不同的測(cè)序計(jì)數(shù)進(jìn)行重新采樣
深處。它可以應(yīng)用于具有定量結(jié)果,兩類或多類的數(shù)據(jù)。

·DESeq2 [37]:DESeq2首先建立一個(gè)具有觀察計(jì)數(shù)的模型。其次,它使用與原始DESeq相同的方法擬合,或者分為兩步:找到使似然最大的參數(shù)值,稱為最大似然估計(jì)。
然后,它獲取所有基因值并將這些值移向平均值。

DESeq2使用貝葉斯定理來(lái)指導(dǎo)每個(gè)基因的運(yùn)動(dòng)量:如果基因的信息很低,其值接近平均值,如果基因的信息很高,則其值移動(dòng)很少。因此,移動(dòng)的值可用于評(píng)估不同的基因組以及應(yīng)用閾值;

·偵探 sleuth[35]:
sleuth工作流程首先過(guò)濾低豐度轉(zhuǎn)錄本,然后應(yīng)用兩個(gè)標(biāo)準(zhǔn)化,然后對(duì)每個(gè)轉(zhuǎn)錄本的模型進(jìn)行參數(shù)估計(jì)。這使得生物方差的正則化有助于跨樣品的轉(zhuǎn)錄物豐度變化,并最終導(dǎo)致每個(gè)轉(zhuǎn)錄物的總體方差估計(jì)。

·

結(jié)果與討論

閱讀參考基因組中的映射
為了評(píng)估映射方法,人類基因組在數(shù)據(jù)集小節(jié)中描述。

為了評(píng)估基因組作圖工具對(duì)DEG分析的影響,
所有采用默認(rèn)參數(shù)的繪圖軟件均采用。

每個(gè)映射的計(jì)數(shù)矩陣由HTSeq包[12],通過(guò)htseq-count函數(shù),使用基因組注釋文件和默認(rèn)參數(shù)生成。

每個(gè)映射工具的計(jì)數(shù)矩陣用作DEG檢測(cè)方法的輸入。

關(guān)于qRT-PCR數(shù)據(jù),采用默認(rèn)方法(Benjamini&Hochberg)的GEO2R工具無(wú)法識(shí)別DEG。

它僅被認(rèn)為是DEGs的轉(zhuǎn)錄物,log2FC> =±2且P±值<= 0.05。

完整的DEG列表可在S1表中找到。

我們比較了RNA-Seq(baySeq,edgeR,DESeq和NOIseq)中鑒定的DEG與qRT-PCR的DEGs。

在圖2和表3中可以觀察到DEG集中在映射器之間的交叉點(diǎn)上,表明即使隨著映射方法的改變,這些方法也保持了識(shí)別行為。

通過(guò)這種方式,我們觀察到映射器對(duì)最終結(jié)果的影響很小。

在圖2A和2C中,可以觀察到正確識(shí)別的DEG的數(shù)量(一致)
與qRT-PCR相比,與識(shí)別方法相比,與采用的映射器相關(guān)。

baySeq和NOIseq方法獲得了少量未識(shí)別的DEG,并且該量沒有隨著不同的映射器而改變。為了評(píng)估不使用映射的方法,以及其他量化讀數(shù)的策略,我們使用Salmon和STAR比較edgeR和NOISeq結(jié)果來(lái)量化

映射基因。表3顯示了來(lái)自不同RNA-Seq作圖方法的DEGs鑒定數(shù)。它只被認(rèn)為是NOISeq和edgeR,因?yàn)閎aySeq和DESeq無(wú)法接收不同整數(shù)值的輸入。結(jié)果再一次表明,差異表達(dá)分析更多地受到DEGs鑒定方法的影響,而不是所采用的讀數(shù)定位或定量方法。S2表提供了有關(guān)使用不同映射器的每種DEGs識(shí)別方法的性能的更多細(xì)節(jié)。 DEG識(shí)別方法如上一節(jié)所述,映射器對(duì)表達(dá)式分析的影響很小。

通過(guò)這種方式,僅考慮TopHat映射結(jié)果開發(fā)了所有后續(xù)分析。在本工作的這一步,我們分析了以下軟件工具的結(jié)果:limma + voom [38],EBSeq [17],SAMseq [15],DESeq2 [37]和sleuth [35]。有關(guān)評(píng)估工具的更多詳細(xì)信息,請(qǐng)參閱差分表達(dá)式小節(jié)。

我們比較了9種工具差異表達(dá)的基因和qRT-PCR指示的DEGs。軟件按照每本手冊(cè)中的定義執(zhí)行,并且通過(guò)每個(gè)工具的手冊(cè)指示的限制,工具列出的基因被認(rèn)為是差異表達(dá)的?;诿糠N方法結(jié)果與qRT-PCR之間的匹配來(lái)評(píng)估所采用的DEG鑒定方法的性能。表4列出了每種采用方法的性能??梢宰⒁獾紼BSeq,SAMseq和DESeq方法雖然使用不同的DEG識(shí)別方法具有相似的行為,但呈現(xiàn)低TPR(真陽(yáng)性率)和低ACC(準(zhǔn)確度)。DESeq的性能可以通過(guò)以下事實(shí)來(lái)證明:小樣本(每個(gè)條件兩個(gè)樣本)可以獲得更好的結(jié)果,如[22]中所示。SAMseq的結(jié)果很大程度上受樣本大小和重復(fù)次數(shù)的影響。SAMseq能夠?qū)ψ钕嚓P(guān)的DEG進(jìn)行排序,不過(guò)它是結(jié)果產(chǎn)生許多誤報(bào)[22,25]。NOIseq,DESeq2和limma + voom方法表現(xiàn)良好,具有較高的TPR和ACC率。limma + voom工具已經(jīng)在之前的工作中被指出是DEG排名和兩個(gè)以上樣本分析的更好結(jié)果之一[22]。 NOIseq和DESeq2工具顯示了一致的結(jié)果,表明這些方法適用于具有大量樣品和注釋基因組的實(shí)驗(yàn)。

整合DEG識(shí)別方法

對(duì)DEG識(shí)別方法的個(gè)別評(píng)估清楚地表明,每種方法都產(chǎn)生了截然不同的結(jié)果。

此外,一些方法有更好的結(jié)果和更多的方法
樣本,而其他人表現(xiàn)出其結(jié)果的變化受其他特征的影響,如測(cè)序深度和異常高計(jì)數(shù)的異常值。

為了驗(yàn)證每種DEG識(shí)別方法的各個(gè)結(jié)果之間的兼容性并確定可能的性能改進(jìn),我們通過(guò)將所采用的方法集成到這項(xiàng)工作中來(lái)評(píng)估結(jié)果。

我們通過(guò)整合九種方法評(píng)估了結(jié)果中的性能,因此對(duì)于通過(guò)x方法鑒定為差異表達(dá)的每種基因,其中x是已經(jīng)鑒定每種DEG的方法的數(shù)量。

將DEG鑒定方法的每種組合的結(jié)果與來(lái)自qRT-PCR的金標(biāo)準(zhǔn)進(jìn)行比較。

為了評(píng)估DEG集成方法的性能,我們驗(yàn)證了性能更好的方法組合。圖3顯示了從1到9°的積分
識(shí)別方法。 可以注意到差異沒有一致性

表達(dá)了九種方法整合的成績(jī)單。從九種評(píng)估方法來(lái)看,

對(duì)于165個(gè)轉(zhuǎn)錄物,發(fā)生8個(gè)同時(shí)適應(yīng)癥的頻率,qRT-PCR也表示差異表達(dá)。但是,當(dāng)觀察qRT-PCR指示的DEG數(shù)時(shí),有可能觀察到8種方法的整合未能鑒定出qRT-PCR所示的大量基因。為了確定具有更有效的DEGs指示的方法組合,并且在誤差最小的情況下,我們?cè)u(píng)估了每個(gè)方法的DEGs識(shí)別性能。方法的子集:九,八,七,六,五,四,三,二和一。

每個(gè)子集的性能結(jié)果如表5所示。正如所料,每個(gè)子集的性能表明,一起考慮更多方法往往會(huì)提高準(zhǔn)確性并降低錯(cuò)誤率。正如在基因網(wǎng)絡(luò)推斷的背景下報(bào)道的那樣,集體知識(shí)或數(shù)據(jù)整合可以產(chǎn)生比個(gè)體結(jié)果更好的結(jié)果[48,49]?;谶@一原理,我們發(fā)現(xiàn)五種方法的整合可以獲得比任何其他測(cè)試子集更高的TPR和SPC值。為了識(shí)別每個(gè)基數(shù)的DEG識(shí)別方法的最佳組合(1,2,...,9),我們采用ROC(接收器工作特性)曲線[50],一種標(biāo)準(zhǔn)模式識(shí)別工具。圖4給出了DEG識(shí)別方法共識(shí)的更好組合。可以注意到,五種方法的組合在所有測(cè)試組合中提供了最有效的解決方案。六種方法的共識(shí)導(dǎo)致FPR略有改善,但TPR也出現(xiàn)下降。5種DEG識(shí)別方法的共識(shí)提出了最佳的綜合結(jié)果,具有更高的SPC和TPR值,從而得到高精度的結(jié)果。圖5顯示了通過(guò)增加DEGs識(shí)別方法的整合而相關(guān)的TPR和SPC值的演變。

包含方法帶來(lái)了相當(dāng)大的特異性增益(SPC),但是從六種方法的整合來(lái)看,TPR值經(jīng)歷了相當(dāng)大的下降。該結(jié)果表明了https://github.com/costasilvati/consexpression上可用的軟件的默認(rèn)值,用戶可以在執(zhí)行默認(rèn)共識(shí)的方法(五種方法)之間進(jìn)行選擇, 從而獲得SPC和TPR之間的最佳平衡。應(yīng)用這種方法的另一種可能性是改變定義所需方法數(shù)量共識(shí)的方法數(shù)量,同時(shí)考慮到變更的成本,其他績(jī)效衡量標(biāo)準(zhǔn),以及在這項(xiàng)工作中只使用其中一種采用的方法。表6概述了根據(jù)qRT-PCR正確鑒定DEG的方法組。關(guān)于來(lái)自qRT-PCR的413°,其中19種未通過(guò)任何方法鑒定。當(dāng)將一個(gè)指示視為差異表達(dá)時(shí)(可接受任何工具),可以觀察到它不可能達(dá)到指示的413個(gè)基因定量RT-PCR。

為了確定哪組方法具有最佳共識(shí),評(píng)估很重要每種方法在聚合結(jié)果中的表現(xiàn)如何,尤其是在五種適應(yīng)癥的組中。表7顯示了匯總結(jié)果中每種方法的頻率。比較表7和表6中的結(jié)果,我們可以觀察到343種方法通過(guò)五種方法的共識(shí)指出,最正確指出的方法(幾乎所有適應(yīng)癥)都是baySeq [11],DESeq2 [37],limma + voom [38]和NOISeq [15,39]。關(guān)于五種方法的共識(shí),baySeq方法表明所有DEGs呈現(xiàn)

在五個(gè)共識(shí)結(jié)果中。DESeq2表示97.6%,limma + voom方法表明其中96.5%,NOISeq表示95.9%。對(duì)于baySeq的分析,

有必要定義模型集合,每個(gè)模型是樣本細(xì)分為組,假設(shè)同一組中的樣本共享底層分布的相同參數(shù)。在DESeq2方法中,為觀察到的計(jì)數(shù)創(chuàng)建模型,使用貝葉斯定理擬合該模型以指導(dǎo)每個(gè)基因的運(yùn)動(dòng)。在NOISeq方法中,成績(jī)單如果兩個(gè)條件之間的log2與兩個(gè)相應(yīng)條件之間的差值的比值可能高于噪聲,則差分表達(dá)。通過(guò)比較相同條件下的所有重復(fù)對(duì)來(lái)獲得噪聲分布。在limma + voom方法中,讀取計(jì)數(shù)被轉(zhuǎn)換為每百萬(wàn)計(jì)數(shù)的log2(logCPM),并且平均方差比用精確權(quán)重建模??傊?,baySeq方法傾向于更高的FP值,如表4所示,表明五種方法的100%DEGs共識(shí)。參數(shù)共享樣本這種方法的一組,減輕了同一組基因的變異,從而導(dǎo)致該方法的正確性更大的可能性。另一方面,NOISeq,DESeq2和limma + voom方法以均衡的方式執(zhí)行與正確DEGs識(shí)別的關(guān)系,從而使結(jié)果具有高可靠性,這只能證明'未通過(guò)qRT-PCR鑒定,未鑒定出3.8%DEG。關(guān)于edgeR結(jié)果,我們可以證實(shí)其TPR傾向于較低的可靠性,呈現(xiàn)由qRT-PCR指示的正確鑒定DEG的81.3%。

結(jié)論
這項(xiàng)工作提出了關(guān)于鑒定差異表達(dá)基因(DEG)或轉(zhuǎn)錄本的方法的擴(kuò)展審查。

我們?cè)u(píng)估了六種映射方法的影響,包括一種偽對(duì)齊和一種準(zhǔn)映射,
DEGs鑒定和這些方法整合的九種主要方法,以便從結(jié)果中產(chǎn)生共識(shí)。

通過(guò)比較來(lái)自相同測(cè)試轉(zhuǎn)錄物的參考qRT-PCR的各自結(jié)果來(lái)進(jìn)行所采用方法的評(píng)估。

我們已經(jīng)確定,繪圖工具對(duì)最終結(jié)果的影響很小,表明DEGs鑒定方法是RNA-Seq數(shù)據(jù)中差異表達(dá)分析的主要選擇。

對(duì)于評(píng)估的實(shí)驗(yàn)條件,我們沒有在評(píng)估的方法中確定在所有性能測(cè)量中獲得最佳結(jié)果的工具。 NOIseq,DESeq2和limma + vomm方法分別以95%,95%和93%的特異性和80%,84%和81%的真陽(yáng)性率呈現(xiàn)最佳個(gè)體結(jié)果。

關(guān)于DEG識(shí)別方法的整合,我們發(fā)現(xiàn)五種方法的結(jié)合提高了識(shí)別的靈敏度,并提供了更可靠的結(jié)果。

使用的五種方法綜合產(chǎn)生了91%的特異性和83%的特異性
真陽(yáng)性率,因此表明五種方法的共識(shí)比單獨(dú)的解決方案更好地平衡。

最后,本研究還有助于在https://github.com/costasilvati/consexpression上提供免費(fèi)軟件,
它實(shí)現(xiàn)了所提出的分析,可以很容易地用于復(fù)制這項(xiàng)工作,以及分析其他RNA-Seq數(shù)據(jù)源。

支持信息S1表。 qRT-PCR分析。通過(guò)qRT-PCR指示差異表達(dá)的基因。
(PDF)S2表。

映射分析。不同映射器的每種DEG識(shí)別方法的性能。(PDF)

致謝
我們感謝審稿人在以前版本的稿件中提供了深刻見解。

作者貢獻(xiàn)
概念化:Douglas Domingues,F(xiàn)abricio Martins Lopes。

正式分析:Douglas Domingues,F(xiàn)abricio Martins Lopes。

資金收購(gòu):Fabricio Martins Lopes。

調(diào)查:Fabricio Martins Lopes。
方法論:Juliana Costa-Silva,Douglas Domingues,F(xiàn)abricio Martins Lopes。

項(xiàng)目管理:Fabricio Martins Lopes。

軟件:Juliana Costa-Silva,F(xiàn)abricio Martins Lopes。

監(jiān)督:Douglas Domingues,F(xiàn)abricio Martins Lopes。

驗(yàn)證:Juliana Costa-Silva,F(xiàn)abricio Martins Lopes。

寫作原始草稿:Juliana Costa-Silva,F(xiàn)abricio Martins Lopes。

寫作評(píng)論與編輯:Douglas Domingues,F(xiàn)abricio Martins Lopes。

圖1.本工作中提供的管道概述。采用的生物樣品生成qRT-PCR數(shù)據(jù)與用于生成RNA-Seq數(shù)據(jù)的生物樣品相同。

圖2.來(lái)自不同表達(dá)分析工具的鑒定的DEG的比較,與不同的RNA-Seq作圖方法相比較
定量RT-PCR。 (A)Venn圖比較baySeq工具鑒定的DEG與BWA,TopHat,Bowtie和qRT-PCR二倍體。

(B)通過(guò)edgeR工具與BWA,TopHat,Bowtie和qRT-PCR映射器比較鑒定的DEG的維恩圖。

(C)Venn圖比較NOIseq鑒定的DEGs
BWA,TopHat,Bowtie和qRT-PCR映射器。

(D)通過(guò)DESeq與BWA,TopHat,Bowtie和qRT-PCR比較鑒定的DEG的維恩圖
映射器。

表3.與qRT-PCR相比,與不同RNA-Seq作圖方法相關(guān)的來(lái)自不同表達(dá)分析工具的鑒定的DEG數(shù)量的比較。edgeR和NOISeq工具使用來(lái)自不同映射器的數(shù)據(jù)指示的DEG。 qRT-PCR行表示正確標(biāo)記的DEG的量。

表4.關(guān)于qRT-PCR結(jié)果的DEGs軟件工具的性能。采取的績(jī)效衡量指標(biāo):TPR(真實(shí)正率),SPC(特異性),PPV(正預(yù)測(cè)值),ACC(準(zhǔn)確度)和F1度量[46,47]。

圖3。直方圖來(lái)自DEGs鑒定方法的整合。

紅色條表示DEGs被鑒定為差異表達(dá)(真陽(yáng)性)。
藍(lán)色條表示未從方法中鑒定為DEG的差異表達(dá)的轉(zhuǎn)錄物(假陽(yáng)性)。 Y軸表示正確識(shí)別轉(zhuǎn)錄本為差異表達(dá)的工具數(shù)量。
第一行(Y軸為0的條)表示DEGs,而不是來(lái)自qRT-PCR(金標(biāo)準(zhǔn))的差異表達(dá)基因,其中413°和584不是差異表達(dá)的轉(zhuǎn)錄物,總共分析了997個(gè)基因。

9種工具沒有性能值,因?yàn)榻Y(jié)果與9種方法表示的轉(zhuǎn)錄本沒有收斂。

表5. DEGs識(shí)別方法的每個(gè)子集的性能。子集沒有特定方法的選擇,僅觀察到適應(yīng)癥的頻率。 9種工具沒有性能值,因?yàn)榻Y(jié)果與9種方法表示的轉(zhuǎn)錄本沒有收斂。

圖4. DEG識(shí)別方法整合的ROC曲線。每個(gè)點(diǎn)表示關(guān)于采用的qRT-PCR的最佳子集的性能。

圖5. TPR和SPC的投影曲線。結(jié)合DEGs識(shí)別方法時(shí)TPR和SPC值的投影曲線。 X軸是組合DEGs識(shí)別方法的數(shù)量。 Y軸是關(guān)于采用的qRT-PCR的TPR和SPC值的演變。

表6.真陽(yáng)性(TP)與方法數(shù)量的聚合結(jié)果之間的關(guān)系。關(guān)于通過(guò)qRT-PCR鑒定為差異表達(dá)(DE)的413個(gè)基因,我們按數(shù)量分組正確指示DEG的方法。

表7.考慮總體結(jié)果(共識(shí)),從每種方法中正確識(shí)別的DEG的數(shù)量。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容