国产美女av经典,大胆色噜噜

RNA-Seq differential expression analysis: An extended review and a software tool RNA-Seq差異表達(dá)分析：擴(kuò)展評(píng)論和軟件工具

正確鑒定特定條件之間的差異表達(dá)基因（DEG）是理解表型變異的關(guān)鍵。高通量轉(zhuǎn)錄組測(cè)序（RNA-Seq）已成為這些研究的主要選擇。

因此，用于RNA-Seq數(shù)據(jù)的差異表達(dá)分析的方法和軟件的數(shù)量也迅速增加。但是，對(duì)于最合適的管道還是沒有達(dá)成共識(shí)用于從RNA-Seq數(shù)據(jù)鑒定差異表達(dá)基因的方案。這項(xiàng)工作對(duì)該主題進(jìn)行了擴(kuò)展審查，其中包括對(duì)六種繪圖方法的評(píng)估讀取，包括偽對(duì)齊和準(zhǔn)映射以及來(lái)自RNA-Seq數(shù)據(jù)的九種差異表達(dá)分析方法。

使用qRT-PCR數(shù)據(jù)作為參考（金標(biāo)準(zhǔn)），基于真實(shí)RNA-Seq數(shù)據(jù)評(píng)估所采用的方法。作為結(jié)果的一部分，我們開發(fā)了一個(gè)軟件，可以執(zhí)行本工作中提供的所有分析，可在https://github.com/costasilvati/consexpression免費(fèi)獲取。結(jié)果表明，考慮到映射方法對(duì)最終DEG分析的影響很小采用的數(shù)據(jù)有一個(gè)帶注釋的參考基因組。關(guān)于采用的實(shí)驗(yàn)?zāi)Ｐ椭?，具有更一致結(jié)果的DEGs識(shí)別方法是limma + voom，NOIseq和DESeq2。此外，五種DEG識(shí)別方法的共識(shí)保證了DEG的列表具有很高的準(zhǔn)確性，表明了這種不同的方法組合可以產(chǎn)生更合適的結(jié)果。共識(shí)選項(xiàng)也包括在內(nèi)用于可用的軟件。

介紹
高通量測(cè)序已成為測(cè)量表達(dá)水平的主要選擇，即RNA-Seq [1]。RNA-Seq可以在不事先了解參考文獻(xiàn)的情況下進(jìn)行感興趣的序列，允許廣泛的應(yīng)用，如：“從頭”重建轉(zhuǎn)錄組（沒有參考基因組），核苷酸變異的評(píng)估，評(píng)估甲基化模式[2]，僅舉幾例。RNA-seq技術(shù)比cDNA微陣列具有一些優(yōu)勢(shì)，例如高通過(guò)泳道和流通池的數(shù)據(jù)再現(xiàn)性水平，這減少了實(shí)驗(yàn)的技術(shù)重復(fù)數(shù)量。

此外，RNA-seq可以識(shí)別和量化同種型和未知轉(zhuǎn)錄本的表達(dá)[3]。關(guān)于越來(lái)越受歡迎高通量測(cè)序方法，下一代測(cè)序?qū)嶒?yàn)的成本

已大幅下降。然而，對(duì)于RNA-Seq的定性和定量分析的清晰理解尚未實(shí)現(xiàn)，特別是與較老的方法如cDNA微陣列相比時(shí)[4]。

一般而言，RNA-Seq技術(shù)對(duì)于涉及某些特定條件的差異表達(dá)分析非常有用[5]，其中通常采用五個(gè)步驟[6,7]。首先，將RNA樣品片段化成小的互補(bǔ)DNA序列（cDNA）和然后從高吞吐量平臺(tái)排序。

其次，將小的生成序列映射到基因組或轉(zhuǎn)錄組。第三，估計(jì)每種基因或同種型的表達(dá)水平。第四，映射的數(shù)據(jù)被標(biāo)準(zhǔn)化，例如使用統(tǒng)計(jì)和機(jī)器

在學(xué)習(xí)方法中，鑒定了差異表達(dá)的基因（DEG）。最后，最終從生物學(xué)背景中評(píng)估所產(chǎn)生數(shù)據(jù)的相關(guān)性[8]。隨著RNA-Seq技術(shù)的日益普及，開發(fā)了許多軟件和管道

這些數(shù)據(jù)的差異基因表達(dá)分析。來(lái)自RNA-Seq的差異基因表達(dá)分析方法可以分為兩個(gè)主要子集：參數(shù)和非參數(shù)。參數(shù)方法捕獲有關(guān)參數(shù)內(nèi)數(shù)據(jù)的所有信息。

在這些情況下，可以通過(guò)觀察采用的模型及其參數(shù)來(lái)預(yù)測(cè)未知數(shù)據(jù)的值。當(dāng)參數(shù)化方法應(yīng)用于差異基因表達(dá)假設(shè)，通常在歸一化后，給定基因的每個(gè)表達(dá)值被映射到特定分布，例如泊松[9±11]或負(fù)二項(xiàng)[12±14]。

另一方面，非參數(shù)方法可以捕獲關(guān)于數(shù)據(jù)分布的更多細(xì)節(jié)，即，不強(qiáng)加擬合的剛性模型。這是可能的，因?yàn)榉菂?shù)模型考慮到不能從有限的參數(shù)集定義數(shù)據(jù)分布，因此關(guān)于數(shù)據(jù)的信息量可以隨著其體積而增加。

關(guān)于RNA-Seq差異表達(dá)分析，一些工具如edgeR [13]和baySeq [11]采用負(fù)二項(xiàng)模型作為主要方法。

其他軟件工具，如NOIseq [15]和SAMseq [16]，采用非參數(shù)方法。

一些方法基于轉(zhuǎn)錄物檢測(cè)，其已被開發(fā)用于鑒定未知的轉(zhuǎn)錄物或同種型，并且還可用于鑒定DEG，例如EBSeq [17]和Cuffdiff2 [18]。如今，關(guān)于哪種方法最為重要，尚未達(dá)成共識(shí)適當(dāng)?shù)幕蚰姆N方法確保結(jié)果在穩(wěn)健性，準(zhǔn)確性方面的有效性和再現(xiàn)性。生物信息學(xué)研究中的這一主題仍在發(fā)展[5,19,20]。為了評(píng)估DEG的標(biāo)準(zhǔn)化和檢測(cè)的統(tǒng)計(jì)方法以及文庫(kù)制備對(duì)結(jié)果的影響，開發(fā)了一些研究工作[10]，通過(guò)考慮微生物來(lái)評(píng)估差異表達(dá)分析的方法，包括用于分析的映射方法[21]，并用模擬數(shù)據(jù)評(píng)估軟件和管道[20,22]。特別是Rapaport等人。 [23]評(píng)估了實(shí)際數(shù)據(jù)集中差異表達(dá)分析軟件的概要，考慮了分析的特征，如準(zhǔn)確性，標(biāo)準(zhǔn)化，DEG的檢測(cè)和沒有檢測(cè)到表達(dá)的條件。張等人。 [5]評(píng)估了重復(fù)次數(shù)，測(cè)序覆蓋率和比較組的影響。郭等人。表明三種DEGs鑒定方法之間的排序可以產(chǎn)生更準(zhǔn)確的鑒定[24]。李等人。 [8]評(píng)估標(biāo)準(zhǔn)化用于DEG檢測(cè)的方法，表明兩種標(biāo)準(zhǔn)化方法的結(jié)合導(dǎo)致更好的結(jié)果。Seyednasrollah等。 [25]介紹了八種軟件工具的比較

實(shí)際數(shù)據(jù)中的DEG分析。Germain等人。 [26]介紹了有關(guān)RNA-Seq數(shù)據(jù)分析步驟的工作，比較了不同的轉(zhuǎn)錄物定位和定量方法，同時(shí)也為采用的方法比較提供了一個(gè)在線工具。

最近，Yu等人。 [27]提出了一個(gè)基于模擬的程序，采用負(fù)二項(xiàng)分布和廣義線性模型（在基因水平）。該方法的主要目標(biāo)是降低先前研究中報(bào)道的I型錯(cuò)誤的高發(fā)率[17]，即

假陰性。Abedalrhman和Rueda [28]介紹了Zseq工具，指出了高通量測(cè)序數(shù)據(jù)分析中預(yù)處理步驟的重要性。更具特異性，Zseq專注于改善成績(jī)單的組裝，用不同的預(yù)處理方法評(píng)估DEGs的結(jié)果。

另一方面，其他方法一直關(guān)注評(píng)估其他觀點(diǎn)，例如RNA-Seq實(shí)驗(yàn)所需的生物復(fù)制數(shù)量，以及基于實(shí)驗(yàn)重復(fù)次數(shù)分析差異表達(dá)的最合適工具[29]。。從Sahraeian等人的不同角度對(duì)RNA-seq數(shù)據(jù)進(jìn)行全面而系統(tǒng)的分析。除了先前產(chǎn)生的RNA-Seq數(shù)據(jù)的表達(dá)分析外，al（2017）可以作出顯著貢獻(xiàn)[30]。與這些研究不同，我們?cè)u(píng)估了映射方法對(duì)差異基因表達(dá)分析結(jié)果的影響。

我們還通過(guò)不同的視角評(píng)估DEGs分析的方法，不僅指出了更好的方法。先前的研究及其結(jié)果表明，DEGs分析受許多因素的影響，如文庫(kù)的制備和實(shí)驗(yàn)的結(jié)構(gòu)。在這種情況下，我們用RNA-Seq數(shù)據(jù)分析了DEG鑒定中必需步驟的影響，并開發(fā)了一種軟件，可以獲得主要DEGs鑒定方法的結(jié)果。六個(gè)映射器之間的比較研究，包括一個(gè)偽對(duì)齊和一個(gè)通常用于差異表達(dá)研究的準(zhǔn)映射工具，導(dǎo)致識(shí)別

這一步驟在DEG的分析和鑒定中的重要性。還采用了金標(biāo)準(zhǔn)qRT-PCR數(shù)據(jù)，以評(píng)估DEG鑒定工具的準(zhǔn)確性，并指出其結(jié)果具有高可靠性的工具。這項(xiàng)工作的另一項(xiàng)貢獻(xiàn)是評(píng)估DEGs識(shí)別方法的綜合結(jié)果，

我們的工具允許執(zhí)行五種不同的差異表達(dá)分析方法的共識(shí)，結(jié)果表明差異表達(dá)的基因具有更高的可靠性和準(zhǔn)確性。在本研究中，我們用RNA-Seq數(shù)據(jù)對(duì)差異基因表達(dá)分析的主要方法進(jìn)行了擴(kuò)展回顧，評(píng)估了作圖和量化方法的影響。在本研究中，我們采用了繪圖軟件Bowtie2 [31]，TopHat [32]，BWA [33]和STAR [34]。對(duì)于其他方法，例如偽對(duì)齊和準(zhǔn)映射，我們采用了kallisto [35]和Salmon [36]。我們分析了差異表達(dá)分析軟件，它代表了該領(lǐng)域的最新技術(shù)水平，例如baySeq [11]，DESeq [12]，DESeq2 [37]，EBSeq [17]，edgeR [13]，limma + voom [38]，NOIseq [15,39]和SAMseq [16]。將映射結(jié)果用作一些差異表達(dá)分析軟件工具的輸入，并將其結(jié)果與qRT-PCR進(jìn)行比較[40]，從而驗(yàn)證與不同映射器相關(guān)的每個(gè)軟件的準(zhǔn)確性。

結(jié)果表明，NOIseq [15,39]，limma + voom [38]和DESeq2 [37]是考慮精度，準(zhǔn)確度和靈敏度最平衡的軟件。我們?cè)u(píng)估了不同方法中個(gè)體和綜合方式的結(jié)果。

結(jié)果表明，一組軟件可以比單個(gè)解決方案一起產(chǎn)生高精度和準(zhǔn)確性。最后，這項(xiàng)工作仍然很容易作為軟件工具的貢獻(xiàn)適用于差異基因表達(dá)分析的不同實(shí)驗(yàn)。該軟件工具提供了一個(gè)集成執(zhí)行，具有映射，映射計(jì)數(shù)（如果需要）和表達(dá)水平的量化，表明所采用的方法在識(shí)別DEG時(shí)的性質(zhì)和準(zhǔn)確性的特征。

材料和方法數(shù)據(jù)集

這項(xiàng)工作采用了為微陣列質(zhì)量控制（MAQC）項(xiàng)目[10,40]生成的實(shí)際數(shù)據(jù)集。使用Illumina的Genome Analyzer II獲得數(shù)據(jù)集。該實(shí)驗(yàn)分析了兩個(gè)生物樣本：來(lái)自Ambion人類大腦的RNA和Stratagene的人類通用參考RNA，我們將在這項(xiàng)工作中分別稱為Brain和UHR集[10]。我們只使用了使用PhiX Control的Brain和UHR樣本。數(shù)據(jù)集可在NCBI Short-Read Archive（SRA）上獲得，登記號(hào)為SRA010153。讀數(shù)針對(duì)人類基因組/轉(zhuǎn)錄組，版本19（GRCh37.p13）進(jìn)行了定位。作為MAQC項(xiàng)目的一部分，通過(guò)qRT-PCR分析了大約一千個(gè)基因[41]。qRT-PCR數(shù)據(jù)可在Gene Expression Omnibus獲得，訪問(wèn)：GSE5350，平臺(tái)GPL4097 [40]。

Ambion人腦和Stratagene通用人體樣本也被用作該實(shí)驗(yàn)的生物學(xué)參考。我們將qRT-PCR數(shù)據(jù)視為評(píng)估DEGs鑒定方法的金標(biāo)準(zhǔn)。從RNA-Seq數(shù)據(jù)（ENSEMBL）的注釋到qRT-PCR數(shù)據(jù)的轉(zhuǎn)換由在線工具bioDBnet [42]進(jìn)行，不包括重復(fù)的ID或同義詞。該轉(zhuǎn)換產(chǎn)生了997個(gè)獨(dú)特qRT-PCR基因的列表。有關(guān)qRT-PCR基因列表的詳細(xì)信息，請(qǐng)參閱S1表。序列比對(duì)和基因計(jì)數(shù)

采用的RNA-Seq數(shù)據(jù)集映射在人類基因組/轉(zhuǎn)錄組（hg19）中，同一版本的注釋文件均來(lái)自GENCODE項(xiàng)目[43]。

轉(zhuǎn)錄組到基因組注釋的轉(zhuǎn)換由R包txImport [44]完成。對(duì)于映射和量化，使用了各種方法：拼接讀取對(duì)準(zhǔn)器，未拼寫讀取對(duì)齊器，偽對(duì)齊和準(zhǔn)映射。對(duì)于拼接讀取對(duì)準(zhǔn)器方法，使用了TopHat軟件（v.2.1.0）[18]，該軟件應(yīng)用了外顯子優(yōu)先方法。對(duì)于無(wú)符號(hào)讀取對(duì)準(zhǔn)器方法，使用了兩個(gè)映射軟件，BWA（v.0.7.12-r1039）[33]和Bowtie（v.2.2.6）[31]，它們應(yīng)用了Burrows-Wheeler變換。

對(duì)于偽對(duì)齊方法，使用kallisto軟件（v.0.43.1）[35]。對(duì)于準(zhǔn)映射方法，使用Salmon（v0.8.2）軟件[36]。對(duì)于映射執(zhí)行，默認(rèn)

采用各軟件的參數(shù)。表1列出了采用的映射器。采用HTSeq軟件（v.0.6.0）[12]生成計(jì)數(shù)矩陣，默認(rèn)參數(shù)。

用于生成計(jì)數(shù)矩陣的采用的注釋文件與映射中使用的相同。圖1展示了目前的工作。通過(guò)每種采用的方法將RNA-Seq數(shù)據(jù)集（表示為圖1中的ΒNCBI-SRA）映射到人類基因組（hg19），從而獲得計(jì)數(shù)矩陣。矩陣用作所采用的差分表達(dá)方法的輸入。為了評(píng)估映射軟件對(duì)DEGs識(shí)別的影響，我們使用六個(gè)生成的計(jì)數(shù)矩陣分析了四個(gè)差分表達(dá)軟件。對(duì)于Salmon，STAR和kallisto，我們分析了兩種差異表達(dá)軟件。通過(guò)考慮以下DEG識(shí)別方法獲得映射器性能：edgeR，DESeq，baySeq和NOIseq，到Tophat，Bowtie2和BWA，分析Salmon，STAR和kallisto分別進(jìn)行了edgeR和NOISeq。 DESeq和baySeq只能使用計(jì)數(shù)數(shù)據(jù)運(yùn)行（圖1）。

差異表達(dá)

在這項(xiàng)工作中，我們比較了八種DEGs或轉(zhuǎn)錄本鑒定方法。在應(yīng)用每個(gè)軟件時(shí)，我們關(guān)注最常用的方法。因此，我們遵循手冊(cè)中提供的指南，應(yīng)用默認(rèn)參數(shù)，包括每個(gè)軟件的標(biāo)準(zhǔn)化方法。

使用由HTSeq產(chǎn)生的相同計(jì)數(shù)矩陣進(jìn)行所有差異表達(dá)分析。對(duì)于每個(gè)評(píng)估的映射器，生成計(jì)數(shù)矩陣或豐度矩陣，以這種方式對(duì)映射器工具評(píng)估DEG方法。表2總結(jié)了采用的DEG識(shí)別方法及其性質(zhì)。

使用BWA，TopHat，Bowtie和STAR映射器繪制RNA-Seq數(shù)據(jù)。量化是從Salmon和kallisto工具獲得的。每個(gè)映射器的計(jì)數(shù)表用作DEG識(shí)別方法（edgeR，DESeq，baySeq和NOISeq）的輸入，從而為不同的映射器生成每種DEG識(shí)別方法的DEG列表。Salmon，STAR和kallisto的結(jié)果用作edgeR和NOISeq的輸入。將結(jié)果與qRT-PCR（金標(biāo)準(zhǔn)）進(jìn)行比較，以評(píng)估映射是否影響DEGs檢測(cè)的性能。EBSeq，SAMSeq和limma + voom，DESeq2和偵探方法被添加到研究中，用于單獨(dú)評(píng)估DEG識(shí)別工具，僅使用TopHat映射器的映射結(jié)果。如其用戶指南所示，特殊偵探收到kallisto工具的量化輸出。圖1給出了概述

這項(xiàng)工作中提出的管道。采用的方法（使用TopHat映射器）確定的DEG用于評(píng)估結(jié)果部分中的性能統(tǒng)計(jì)數(shù)據(jù)。

·baySeq [11]：使用貝葉斯經(jīng)驗(yàn)方法估計(jì)每組模型的后驗(yàn)概率，定義每個(gè)元組的差分表達(dá)模式。

·DESeq [12]：基于負(fù)二項(xiàng)分布，方差和均值受局部回歸約束。

·EBSeq [17]：開發(fā)的主要目的是鑒定差異表達(dá)的同種型，它在鑒定DEG方面也很穩(wěn)健。它類似于baySeq [11]，它采用貝葉斯經(jīng)驗(yàn)方法。

edgeR [13]：Poisson超分散模型用于解釋技術(shù)和生物學(xué)問(wèn)題
變異。應(yīng)用貝葉斯經(jīng)驗(yàn)方法來(lái)調(diào)節(jié)過(guò)度分散對(duì)轉(zhuǎn)錄物的程度。

·limma + voom [38]：基于線性模型，最初開發(fā)用于分析微陣列數(shù)據(jù)，目前擴(kuò)展用于RNA-Seq分析。 limma用戶指南建議使用與使用voom轉(zhuǎn)換相關(guān)的edgeR包的TMM標(biāo)準(zhǔn)化，它基本上將標(biāo)準(zhǔn)化計(jì)數(shù)轉(zhuǎn)換為對(duì)數(shù)基數(shù)2并估計(jì)均值 - 方差關(guān)系以確定每個(gè)觀察的權(quán)重
最初由線性模型[45]制作。

·NOIseq [15,39]：自適應(yīng)數(shù)據(jù)和非參數(shù)，根據(jù)經(jīng)驗(yàn)?zāi)M計(jì)數(shù)數(shù)據(jù)中的噪聲，并允許數(shù)據(jù)分析而無(wú)需復(fù)制。

·SAMseq：[16]：非參數(shù)方法，對(duì)不同的測(cè)序計(jì)數(shù)進(jìn)行重新采樣
深處。它可以應(yīng)用于具有定量結(jié)果，兩類或多類的數(shù)據(jù)。

·DESeq2 [37]：DESeq2首先建立一個(gè)具有觀察計(jì)數(shù)的模型。其次，它使用與原始DESeq相同的方法擬合，或者分為兩步：找到使似然最大的參數(shù)值，稱為最大似然估計(jì)。
然后，它獲取所有基因值并將這些值移向平均值。

DESeq2使用貝葉斯定理來(lái)指導(dǎo)每個(gè)基因的運(yùn)動(dòng)量：如果基因的信息很低，其值接近平均值，如果基因的信息很高，則其值移動(dòng)很少。因此，移動(dòng)的值可用于評(píng)估不同的基因組以及應(yīng)用閾值;

·偵探 sleuth[35]：
sleuth工作流程首先過(guò)濾低豐度轉(zhuǎn)錄本，然后應(yīng)用兩個(gè)標(biāo)準(zhǔn)化，然后對(duì)每個(gè)轉(zhuǎn)錄本的模型進(jìn)行參數(shù)估計(jì)。這使得生物方差的正則化有助于跨樣品的轉(zhuǎn)錄物豐度變化，并最終導(dǎo)致每個(gè)轉(zhuǎn)錄物的總體方差估計(jì)。

結(jié)果與討論

閱讀參考基因組中的映射
為了評(píng)估映射方法，人類基因組在數(shù)據(jù)集小節(jié)中描述。

為了評(píng)估基因組作圖工具對(duì)DEG分析的影響，
所有采用默認(rèn)參數(shù)的繪圖軟件均采用。

每個(gè)映射的計(jì)數(shù)矩陣由HTSeq包[12]，通過(guò)htseq-count函數(shù)，使用基因組注釋文件和默認(rèn)參數(shù)生成。

每個(gè)映射工具的計(jì)數(shù)矩陣用作DEG檢測(cè)方法的輸入。

關(guān)于qRT-PCR數(shù)據(jù)，采用默認(rèn)方法（Benjamini＆Hochberg）的GEO2R工具無(wú)法識(shí)別DEG。

它僅被認(rèn)為是DEGs的轉(zhuǎn)錄物，log2FC> =±2且P±值<= 0.05。

完整的DEG列表可在S1表中找到。

我們比較了RNA-Seq（baySeq，edgeR，DESeq和NOIseq）中鑒定的DEG與qRT-PCR的DEGs。

在圖2和表3中可以觀察到DEG集中在映射器之間的交叉點(diǎn)上，表明即使隨著映射方法的改變，這些方法也保持了識(shí)別行為。

通過(guò)這種方式，我們觀察到映射器對(duì)最終結(jié)果的影響很小。

在圖2A和2C中，可以觀察到正確識(shí)別的DEG的數(shù)量（一致）
與qRT-PCR相比，與識(shí)別方法相比，與采用的映射器相關(guān)。

baySeq和NOIseq方法獲得了少量未識(shí)別的DEG，并且該量沒有隨著不同的映射器而改變。為了評(píng)估不使用映射的方法，以及其他量化讀數(shù)的策略，我們使用Salmon和STAR比較edgeR和NOISeq結(jié)果來(lái)量化

映射基因。表3顯示了來(lái)自不同RNA-Seq作圖方法的DEGs鑒定數(shù)。它只被認(rèn)為是NOISeq和edgeR，因?yàn)閎aySeq和DESeq無(wú)法接收不同整數(shù)值的輸入。結(jié)果再一次表明，差異表達(dá)分析更多地受到DEGs鑒定方法的影響，而不是所采用的讀數(shù)定位或定量方法。S2表提供了有關(guān)使用不同映射器的每種DEGs識(shí)別方法的性能的更多細(xì)節(jié)。 DEG識(shí)別方法如上一節(jié)所述，映射器對(duì)表達(dá)式分析的影響很小。

通過(guò)這種方式，僅考慮TopHat映射結(jié)果開發(fā)了所有后續(xù)分析。在本工作的這一步，我們分析了以下軟件工具的結(jié)果：limma + voom [38]，EBSeq [17]，SAMseq [15]，DESeq2 [37]和sleuth [35]。有關(guān)評(píng)估工具的更多詳細(xì)信息，請(qǐng)參閱差分表達(dá)式小節(jié)。

我們比較了9種工具差異表達(dá)的基因和qRT-PCR指示的DEGs。軟件按照每本手冊(cè)中的定義執(zhí)行，并且通過(guò)每個(gè)工具的手冊(cè)指示的限制，工具列出的基因被認(rèn)為是差異表達(dá)的?；诿糠N方法結(jié)果與qRT-PCR之間的匹配來(lái)評(píng)估所采用的DEG鑒定方法的性能。表4列出了每種采用方法的性能?？梢宰⒁獾紼BSeq，SAMseq和DESeq方法雖然使用不同的DEG識(shí)別方法具有相似的行為，但呈現(xiàn)低TPR（真陽(yáng)性率）和低ACC（準(zhǔn)確度）。DESeq的性能可以通過(guò)以下事實(shí)來(lái)證明：小樣本（每個(gè)條件兩個(gè)樣本）可以獲得更好的結(jié)果，如[22]中所示。SAMseq的結(jié)果很大程度上受樣本大小和重復(fù)次數(shù)的影響。SAMseq能夠?qū)ψ钕嚓P(guān)的DEG進(jìn)行排序，不過(guò)它是結(jié)果產(chǎn)生許多誤報(bào)[22,25]。NOIseq，DESeq2和limma + voom方法表現(xiàn)良好，具有較高的TPR和ACC率。limma + voom工具已經(jīng)在之前的工作中被指出是DEG排名和兩個(gè)以上樣本分析的更好結(jié)果之一[22]。 NOIseq和DESeq2工具顯示了一致的結(jié)果，表明這些方法適用于具有大量樣品和注釋基因組的實(shí)驗(yàn)。

整合DEG識(shí)別方法

對(duì)DEG識(shí)別方法的個(gè)別評(píng)估清楚地表明，每種方法都產(chǎn)生了截然不同的結(jié)果。

此外，一些方法有更好的結(jié)果和更多的方法
樣本，而其他人表現(xiàn)出其結(jié)果的變化受其他特征的影響，如測(cè)序深度和異常高計(jì)數(shù)的異常值。

為了驗(yàn)證每種DEG識(shí)別方法的各個(gè)結(jié)果之間的兼容性并確定可能的性能改進(jìn)，我們通過(guò)將所采用的方法集成到這項(xiàng)工作中來(lái)評(píng)估結(jié)果。

我們通過(guò)整合九種方法評(píng)估了結(jié)果中的性能，因此對(duì)于通過(guò)x方法鑒定為差異表達(dá)的每種基因，其中x是已經(jīng)鑒定每種DEG的方法的數(shù)量。

將DEG鑒定方法的每種組合的結(jié)果與來(lái)自qRT-PCR的金標(biāo)準(zhǔn)進(jìn)行比較。

為了評(píng)估DEG集成方法的性能，我們驗(yàn)證了性能更好的方法組合。圖3顯示了從1到9°的積分
識(shí)別方法。可以注意到差異沒有一致性

表達(dá)了九種方法整合的成績(jī)單。從九種評(píng)估方法來(lái)看，

對(duì)于165個(gè)轉(zhuǎn)錄物，發(fā)生8個(gè)同時(shí)適應(yīng)癥的頻率，qRT-PCR也表示差異表達(dá)。但是，當(dāng)觀察qRT-PCR指示的DEG數(shù)時(shí)，有可能觀察到8種方法的整合未能鑒定出qRT-PCR所示的大量基因。為了確定具有更有效的DEGs指示的方法組合，并且在誤差最小的情況下，我們?cè)u(píng)估了每個(gè)方法的DEGs識(shí)別性能。方法的子集：九，八，七，六，五，四，三，二和一。

每個(gè)子集的性能結(jié)果如表5所示。正如所料，每個(gè)子集的性能表明，一起考慮更多方法往往會(huì)提高準(zhǔn)確性并降低錯(cuò)誤率。正如在基因網(wǎng)絡(luò)推斷的背景下報(bào)道的那樣，集體知識(shí)或數(shù)據(jù)整合可以產(chǎn)生比個(gè)體結(jié)果更好的結(jié)果[48,49]?；谶@一原理，我們發(fā)現(xiàn)五種方法的整合可以獲得比任何其他測(cè)試子集更高的TPR和SPC值。為了識(shí)別每個(gè)基數(shù)的DEG識(shí)別方法的最佳組合（1,2，...，9），我們采用ROC（接收器工作特性）曲線[50]，一種標(biāo)準(zhǔn)模式識(shí)別工具。圖4給出了DEG識(shí)別方法共識(shí)的更好組合。可以注意到，五種方法的組合在所有測(cè)試組合中提供了最有效的解決方案。六種方法的共識(shí)導(dǎo)致FPR略有改善，但TPR也出現(xiàn)下降。5種DEG識(shí)別方法的共識(shí)提出了最佳的綜合結(jié)果，具有更高的SPC和TPR值，從而得到高精度的結(jié)果。圖5顯示了通過(guò)增加DEGs識(shí)別方法的整合而相關(guān)的TPR和SPC值的演變。

包含方法帶來(lái)了相當(dāng)大的特異性增益（SPC），但是從六種方法的整合來(lái)看，TPR值經(jīng)歷了相當(dāng)大的下降。該結(jié)果表明了https://github.com/costasilvati/consexpression上可用的軟件的默認(rèn)值，用戶可以在執(zhí)行默認(rèn)共識(shí)的方法（五種方法）之間進(jìn)行選擇，從而獲得SPC和TPR之間的最佳平衡。應(yīng)用這種方法的另一種可能性是改變定義所需方法數(shù)量共識(shí)的方法數(shù)量，同時(shí)考慮到變更的成本，其他績(jī)效衡量標(biāo)準(zhǔn)，以及在這項(xiàng)工作中只使用其中一種采用的方法。表6概述了根據(jù)qRT-PCR正確鑒定DEG的方法組。關(guān)于來(lái)自qRT-PCR的413°，其中19種未通過(guò)任何方法鑒定。當(dāng)將一個(gè)指示視為差異表達(dá)時(shí)（可接受任何工具），可以觀察到它不可能達(dá)到指示的413個(gè)基因定量RT-PCR。

為了確定哪組方法具有最佳共識(shí)，評(píng)估很重要每種方法在聚合結(jié)果中的表現(xiàn)如何，尤其是在五種適應(yīng)癥的組中。表7顯示了匯總結(jié)果中每種方法的頻率。比較表7和表6中的結(jié)果，我們可以觀察到343種方法通過(guò)五種方法的共識(shí)指出，最正確指出的方法（幾乎所有適應(yīng)癥）都是baySeq [11]，DESeq2 [37]，limma + voom [38]和NOISeq [15,39]。關(guān)于五種方法的共識(shí)，baySeq方法表明所有DEGs呈現(xiàn)

在五個(gè)共識(shí)結(jié)果中。DESeq2表示97.6％，limma + voom方法表明其中96.5％，NOISeq表示95.9％。對(duì)于baySeq的分析，

有必要定義模型集合，每個(gè)模型是樣本細(xì)分為組，假設(shè)同一組中的樣本共享底層分布的相同參數(shù)。在DESeq2方法中，為觀察到的計(jì)數(shù)創(chuàng)建模型，使用貝葉斯定理擬合該模型以指導(dǎo)每個(gè)基因的運(yùn)動(dòng)。在NOISeq方法中，成績(jī)單如果兩個(gè)條件之間的log2與兩個(gè)相應(yīng)條件之間的差值的比值可能高于噪聲，則差分表達(dá)。通過(guò)比較相同條件下的所有重復(fù)對(duì)來(lái)獲得噪聲分布。在limma + voom方法中，讀取計(jì)數(shù)被轉(zhuǎn)換為每百萬(wàn)計(jì)數(shù)的log2（logCPM），并且平均方差比用精確權(quán)重建模?？傊?，baySeq方法傾向于更高的FP值，如表4所示，表明五種方法的100％DEGs共識(shí)。參數(shù)共享樣本這種方法的一組，減輕了同一組基因的變異，從而導(dǎo)致該方法的正確性更大的可能性。另一方面，NOISeq，DESeq2和limma + voom方法以均衡的方式執(zhí)行與正確DEGs識(shí)別的關(guān)系，從而使結(jié)果具有高可靠性，這只能證明'未通過(guò)qRT-PCR鑒定，未鑒定出3.8％DEG。關(guān)于edgeR結(jié)果，我們可以證實(shí)其TPR傾向于較低的可靠性，呈現(xiàn)由qRT-PCR指示的正確鑒定DEG的81.3％。

結(jié)論
這項(xiàng)工作提出了關(guān)于鑒定差異表達(dá)基因（DEG）或轉(zhuǎn)錄本的方法的擴(kuò)展審查。

我們?cè)u(píng)估了六種映射方法的影響，包括一種偽對(duì)齊和一種準(zhǔn)映射，
DEGs鑒定和這些方法整合的九種主要方法，以便從結(jié)果中產(chǎn)生共識(shí)。

通過(guò)比較來(lái)自相同測(cè)試轉(zhuǎn)錄物的參考qRT-PCR的各自結(jié)果來(lái)進(jìn)行所采用方法的評(píng)估。

我們已經(jīng)確定，繪圖工具對(duì)最終結(jié)果的影響很小，表明DEGs鑒定方法是RNA-Seq數(shù)據(jù)中差異表達(dá)分析的主要選擇。

對(duì)于評(píng)估的實(shí)驗(yàn)條件，我們沒有在評(píng)估的方法中確定在所有性能測(cè)量中獲得最佳結(jié)果的工具。 NOIseq，DESeq2和limma + vomm方法分別以95％，95％和93％的特異性和80％，84％和81％的真陽(yáng)性率呈現(xiàn)最佳個(gè)體結(jié)果。

關(guān)于DEG識(shí)別方法的整合，我們發(fā)現(xiàn)五種方法的結(jié)合提高了識(shí)別的靈敏度，并提供了更可靠的結(jié)果。

使用的五種方法綜合產(chǎn)生了91％的特異性和83％的特異性
真陽(yáng)性率，因此表明五種方法的共識(shí)比單獨(dú)的解決方案更好地平衡。

最后，本研究還有助于在https://github.com/costasilvati/consexpression上提供免費(fèi)軟件，
它實(shí)現(xiàn)了所提出的分析，可以很容易地用于復(fù)制這項(xiàng)工作，以及分析其他RNA-Seq數(shù)據(jù)源。

支持信息S1表。 qRT-PCR分析。通過(guò)qRT-PCR指示差異表達(dá)的基因。
（PDF）S2表。

映射分析。不同映射器的每種DEG識(shí)別方法的性能。（PDF）

致謝
我們感謝審稿人在以前版本的稿件中提供了深刻見解。

作者貢獻(xiàn)
概念化：Douglas Domingues，F(xiàn)abricio Martins Lopes。

正式分析：Douglas Domingues，F(xiàn)abricio Martins Lopes。

資金收購(gòu)：Fabricio Martins Lopes。

調(diào)查：Fabricio Martins Lopes。
方法論：Juliana Costa-Silva，Douglas Domingues，F(xiàn)abricio Martins Lopes。

項(xiàng)目管理：Fabricio Martins Lopes。

軟件：Juliana Costa-Silva，F(xiàn)abricio Martins Lopes。

監(jiān)督：Douglas Domingues，F(xiàn)abricio Martins Lopes。

驗(yàn)證：Juliana Costa-Silva，F(xiàn)abricio Martins Lopes。

寫作原始草稿：Juliana Costa-Silva，F(xiàn)abricio Martins Lopes。

寫作評(píng)論與編輯：Douglas Domingues，F(xiàn)abricio Martins Lopes。

圖1.本工作中提供的管道概述。采用的生物樣品生成qRT-PCR數(shù)據(jù)與用于生成RNA-Seq數(shù)據(jù)的生物樣品相同。

圖2.來(lái)自不同表達(dá)分析工具的鑒定的DEG的比較，與不同的RNA-Seq作圖方法相比較
定量RT-PCR。（A）Venn圖比較baySeq工具鑒定的DEG與BWA，TopHat，Bowtie和qRT-PCR二倍體。

（B）通過(guò)edgeR工具與BWA，TopHat，Bowtie和qRT-PCR映射器比較鑒定的DEG的維恩圖。

（C）Venn圖比較NOIseq鑒定的DEGs
BWA，TopHat，Bowtie和qRT-PCR映射器。

（D）通過(guò)DESeq與BWA，TopHat，Bowtie和qRT-PCR比較鑒定的DEG的維恩圖
映射器。

表3.與qRT-PCR相比，與不同RNA-Seq作圖方法相關(guān)的來(lái)自不同表達(dá)分析工具的鑒定的DEG數(shù)量的比較。edgeR和NOISeq工具使用來(lái)自不同映射器的數(shù)據(jù)指示的DEG。 qRT-PCR行表示正確標(biāo)記的DEG的量。

表4.關(guān)于qRT-PCR結(jié)果的DEGs軟件工具的性能。采取的績(jī)效衡量指標(biāo)：TPR（真實(shí)正率），SPC（特異性），PPV（正預(yù)測(cè)值），ACC（準(zhǔn)確度）和F1度量[46,47]。

圖3。直方圖來(lái)自DEGs鑒定方法的整合。

紅色條表示DEGs被鑒定為差異表達(dá)（真陽(yáng)性）。
藍(lán)色條表示未從方法中鑒定為DEG的差異表達(dá)的轉(zhuǎn)錄物（假陽(yáng)性）。 Y軸表示正確識(shí)別轉(zhuǎn)錄本為差異表達(dá)的工具數(shù)量。
第一行（Y軸為0的條）表示DEGs，而不是來(lái)自qRT-PCR（金標(biāo)準(zhǔn)）的差異表達(dá)基因，其中413°和584不是差異表達(dá)的轉(zhuǎn)錄物，總共分析了997個(gè)基因。

9種工具沒有性能值，因?yàn)榻Y(jié)果與9種方法表示的轉(zhuǎn)錄本沒有收斂。

表5. DEGs識(shí)別方法的每個(gè)子集的性能。子集沒有特定方法的選擇，僅觀察到適應(yīng)癥的頻率。 9種工具沒有性能值，因?yàn)榻Y(jié)果與9種方法表示的轉(zhuǎn)錄本沒有收斂。

圖4. DEG識(shí)別方法整合的ROC曲線。每個(gè)點(diǎn)表示關(guān)于采用的qRT-PCR的最佳子集的性能。

圖5. TPR和SPC的投影曲線。結(jié)合DEGs識(shí)別方法時(shí)TPR和SPC值的投影曲線。 X軸是組合DEGs識(shí)別方法的數(shù)量。 Y軸是關(guān)于采用的qRT-PCR的TPR和SPC值的演變。

表6.真陽(yáng)性（TP）與方法數(shù)量的聚合結(jié)果之間的關(guān)系。關(guān)于通過(guò)qRT-PCR鑒定為差異表達(dá)（DE）的413個(gè)基因，我們按數(shù)量分組正確指示DEG的方法。

表7.考慮總體結(jié)果（共識(shí)），從每種方法中正確識(shí)別的DEG的數(shù)量。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

RNA-Seq differential expression analysis: An extended review and a software tool RNA-Seq差異表達(dá)分析：...

RNA-Seq differential expression analysis: An extended review and a software tool RNA-Seq差異表達(dá)分析：...

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

RNA-Seq differential expression analysis: An extended review and a software tool RNA-Seq差異表達(dá)分析：...

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av