基因組文章構(gòu)成

1.genome survey

  • 數(shù)據(jù)過濾

    去除測(cè)序原始數(shù)據(jù)中可能包含低質(zhì)量、接頭污染以及含 N 過高的 reads

  • NT比對(duì)
    通過BLAST對(duì)下機(jī)數(shù)據(jù)過濾后的有效數(shù)據(jù)進(jìn)行 NT 比對(duì)評(píng)估,如果有較高比例的序列同時(shí)比對(duì)到非近源物種的基因組上,可能是樣品存在污染引起的

  • Kmer分析
    通過GenomeScope進(jìn)行Kmer分析,Kmer分析可以初步判斷樣本的基因組大小 、雜合情況和重復(fù)序列信息。

  • SOAP denovo 組裝結(jié)果
    用SOAP denovo對(duì)高通量測(cè)序數(shù)據(jù)進(jìn)行初步組裝,獲取拼接結(jié)果和基因組大小

  • GC 分布
    GC百分比是一個(gè)物種基因組的重要特征之一 ,同時(shí) GC 含量分布的集中性有時(shí)也可以反映雜合、重復(fù)以及是否有污染等特征


    Genome survey

2. genome assembly

Assembly
  • PacBio測(cè)序組裝
    1.1 基于 PacBio 平臺(tái)的基因組測(cè)序
    PacBio測(cè)序平臺(tái)基于獨(dú)特的單分子實(shí)時(shí)測(cè)序技術(shù)( Single Molecule Real Time SMRT ),其應(yīng)用了邊合成邊測(cè)序的原理,以 SMRT 芯片為測(cè)序載體,利用芯片
    上納米級(jí)別的零模波導(dǎo)孔( zero mode waveguides, ZMWs )和熒光標(biāo)記的核苷酸焦磷酸鏈( Phospholinked nucleotides ),每個(gè)零模波導(dǎo)孔中都能夠包含一個(gè) DNA聚合酶及一條 DNA 樣品鏈進(jìn)行單分子測(cè)序,并實(shí)時(shí)檢測(cè)插入堿基的熒光信號(hào),連續(xù)不斷地讀取該 DNA 樣品鏈的堿基信息,因此可以極大的提高所獲得的測(cè)序片段長度。
    1.2 基于PacBio的基因組組裝
    1.2.1 基因組組裝
    Canu 在加載 reads 后將對(duì) k mer 進(jìn)行計(jì)數(shù),用于計(jì)算序列間的 overlap 。 Canu 分為糾錯(cuò)、修整和組裝三個(gè)步驟,在 reads 糾錯(cuò)時(shí)從 overlap中挑選一致性序列替換原始的噪聲 reads ,修整時(shí)使用 overlap 區(qū)分并 確定 reads中 的 高質(zhì)量區(qū)域 和 需要修整 的低質(zhì)量區(qū)域 ,保留單個(gè)最高質(zhì)量的序列塊。最終組
    裝時(shí), Canu 將根據(jù)一致的 overlap 對(duì)序列進(jìn)行排列 layout ,得到 contig 的 組裝結(jié)果 。
    1.2.2 基因組糾錯(cuò)
    Pilon 以 FASTA和 BAM 文件作為輸入,根據(jù)比對(duì)結(jié)果對(duì)輸入的參考基因組進(jìn)行糾錯(cuò)。整個(gè)過程包括了比對(duì)、標(biāo)記重復(fù)、過濾高質(zhì)量比對(duì)的 read 、 polish 。
  • 組裝評(píng)估
    2.1 GC分布評(píng)估
    使用BWA 軟件將過濾后的測(cè)序數(shù)據(jù)比對(duì)到基因組的組裝結(jié)果上,使用 soap.coverage 軟件將所有堿基的 soap 比對(duì)結(jié)果進(jìn)行統(tǒng)計(jì),得到基因組的單堿基深度信息;以 10kb 為滑窗長度在基因組上無重復(fù)前進(jìn),對(duì)每個(gè)滑窗長度內(nèi)的堿基平均測(cè)序深度與 GC 含量進(jìn)行統(tǒng)計(jì)。
    2.2 深度/覆蓋度評(píng)估
    為了評(píng)估組裝的準(zhǔn)確性,選取小片段文庫reads 采用 BWA 軟件比對(duì)到組裝的基因組上,統(tǒng)計(jì) reads 的比對(duì)率、覆蓋基因組的程度及深度的分布情況,評(píng)估組裝的完整性和測(cè)序的均勻性。
    2.3 SNP評(píng)估
    單核苷酸多態(tài)性指在基因組上單個(gè)核苷酸變異形成的遺傳標(biāo)記,其數(shù)量很多,多態(tài)性豐富。我們利用 Samtools 等工具對(duì) BWA 比對(duì)結(jié)果經(jīng)過染色體坐標(biāo)排序、去掉重復(fù)的 reads 等處理,進(jìn)行 SNPCalling ,并對(duì)原始結(jié)果進(jìn)行過濾。
    2.4 BUSCO評(píng)估
    BUSCO(Benchmarking sets of Universal Single Copy Orthologs )評(píng)估是利用單拷貝直系同源基因,抽樣了數(shù)百個(gè)基因組,從中選擇單拷貝直系同源大于 90%的基因作為直系同源基因集,并對(duì)基因組組裝結(jié)果中對(duì)同源基因的情況進(jìn)行比對(duì),以此評(píng)估基因組組裝的完整性。

3.genome annotation

基因組注釋主要包括四個(gè)方面內(nèi)容 :重復(fù)序列注釋、基因結(jié)構(gòu)預(yù)測(cè) 、基因功能注釋、 ncRNA注釋。


Annotation

1 .重復(fù)序列注釋
基因組重復(fù)序列
TRF(Tandem Repeat Finder);RepeatMasker;RepeatProteinMask;De novo
2 .基因結(jié)構(gòu)預(yù)測(cè)
de novo預(yù)測(cè) 使用軟件 Augustus;homolog注釋(近緣物種);Transcript預(yù)測(cè)(RNA-seq數(shù)據(jù))
使用Glean軟件對(duì)上述三種證據(jù)集進(jìn)行整合, 然后過濾掉部分基因,得到近緣物種基因結(jié)構(gòu)統(tǒng)計(jì)結(jié)果。使用BUSCO軟件對(duì)基因集得完整性進(jìn)行評(píng)估。
3 .基因功能注釋
用基因結(jié)構(gòu)預(yù)測(cè)得到的蛋白質(zhì)序列與Interpro、 KEGG、 Swissprot、 Tremble等已知蛋白庫進(jìn)行比對(duì)。

4 .非編碼RNA注釋
通過與已知ncRNA 庫進(jìn)行比對(duì)

  • 重復(fù)序列注釋
    重復(fù)序列可分為串聯(lián)重復(fù)序列(Tandem repeat)和散在重復(fù)序列 (Interspersed repeat)兩大類。其中串聯(lián)重復(fù)序列包括有微衛(wèi)星序列,小衛(wèi)星序列等;散在重復(fù)序列又稱轉(zhuǎn)座子元件,包括以 DNA-DNA方式轉(zhuǎn)座的 DNA轉(zhuǎn)座子和反轉(zhuǎn)錄轉(zhuǎn)座子 (retrotransposon)。常見的反轉(zhuǎn)錄轉(zhuǎn)座子類別有 LTR LINE和 SINE等。
    使用兩種方法進(jìn)行重復(fù)序列注釋:
    基于RepBase (http://www.girinst.org/repbase) 的同源預(yù)測(cè)方法 (軟件:RepeatMasker);
    基于自身序列比對(duì)(軟件 : RepeatModeler、 Piler、 RepeatScount)及重復(fù)序列特征 (軟 : Trf和 LTR-FINDER)的 De novo預(yù)測(cè)方法。
  • 基因結(jié)構(gòu)預(yù)測(cè)
    使用 GLEAN、 EVM、 Maker等軟件對(duì)不同的證據(jù)集 進(jìn)行整合,去除冗余,得到完整的基因集。其中,證據(jù)集的來源主要有三種:
    Homolog預(yù)測(cè) , 挑選 3~10個(gè) 近緣 物種,使用 Genewise軟件進(jìn)行 同源 預(yù)測(cè);
    De novo 預(yù)測(cè),根據(jù)基因自身的結(jié)構(gòu)特征,使用 Augustus, Genscan, Genemark, Glimmer, GeneID, SNAP等軟件對(duì)基因組序列進(jìn)行從頭預(yù)測(cè);
    Transcript預(yù)測(cè),有兩種策略,一種是 先 使用 Trinity軟件對(duì) RNA-seq數(shù)據(jù)進(jìn)行組裝,然后使用 Blat軟件將組裝結(jié)果 與基因組序列進(jìn)行比對(duì),接著再用Transdecoder軟件將比對(duì)結(jié)果去冗余;另一種是 利用 Hisat2軟件直接將 RNA-seq數(shù)據(jù)與基因組序列進(jìn)行比對(duì),然后用 Stringtie軟件 將比對(duì)結(jié)果轉(zhuǎn)化為基因格式
  • 基因功能注釋
    借助于外源蛋白數(shù)據(jù)庫(SwissProt、 TrEMBL、 KEGG、 InterPro、 COG、NT、 NR和 GO)對(duì)基因集中的蛋白進(jìn)行功能注釋。
  • 非編碼RNA注釋注釋
    非編碼RNA((Non-coding RNA)是指不編碼蛋白質(zhì)的)是指不編碼蛋白質(zhì)的RNA,包括包括rRNA,,tRNA,,snRNA和和miRNA等等。。這些這些RNA的共同特點(diǎn)是都能從基因組上轉(zhuǎn)錄而的共同特點(diǎn)是都能從基因組上轉(zhuǎn)錄而來,但是不翻譯成蛋白,在來,但是不翻譯成蛋白,在RNA 水平上就能行使生物學(xué)功能。水平上就能行使生物學(xué)功能。miRNA可降解靶可降解靶基因或抑制靶基因翻譯成蛋白質(zhì),具有沉默基因的功能基因或抑制靶基因翻譯成蛋白質(zhì),具有沉默基因的功能; tRNA、、rRNA直接參與直接參與蛋白質(zhì)的合成蛋白質(zhì)的合成; snRNA主要參與主要參與RNA前體的加工,是前體的加工,是RNA剪切體的主要成分。剪切體的主要成分。根據(jù)tRNA的結(jié)構(gòu)特征,利用的結(jié)構(gòu)特征,利用tRNAscan-SE軟件來尋找基因組中的軟件來尋找基因組中的tRNA序序列;由于列;由于rRNA具有高度的保守性,因此可以選擇近緣物種的具有高度的保守性,因此可以選擇近緣物種的rRNA序列作為參序列作為參考序列,通過考序列,通過BLASTN比對(duì)來尋找基因組中的比對(duì)來尋找基因組中的rRNA;另外,利用;另外,利用Rfam家族的家族的協(xié)方差模型,采用協(xié)方差模型,采用Rfam自帶的自帶的INFERNAL軟件可預(yù)測(cè)基因組上的軟件可預(yù)測(cè)基因組上的miRNA和和snRNA序列信息。序列信息。

4.Comparative genomics

比較基因組

與其近緣物種進(jìn)行比較基因組學(xué)分析,主要包括基因家族聚類、系統(tǒng)發(fā)育樹、分歧時(shí)間、基因家族的擴(kuò)張和收縮、 基因家族功能富集等分析。
1.基因家族聚類
使用OrthoMCL軟件 來進(jìn)行基因家族聚類,使用BLASTP軟件比對(duì)所有物種的蛋白序列, e值閾值設(shè)為 1e-5然后用OrthoMCL 軟件對(duì)所有基因進(jìn)行聚類。
2.系統(tǒng)發(fā)育
使用單拷貝基因家族構(gòu)建系統(tǒng)發(fā)育樹。首先使用 MUSCLE 比對(duì)單拷貝基因家族的蛋白序列 然后 基于比對(duì)結(jié)果,將蛋白序列反轉(zhuǎn)錄為 CDS 序列 提取每個(gè)比對(duì)的 4 倍簡并位點(diǎn)串聯(lián)成 super gene 然后 使用PhyML 和 Mrbayes 分別 進(jìn)行構(gòu)樹 ,獲得樹形圖文件最終使用 Figtree 將樹形圖文件圖像化 。
3.分歧時(shí)間
使用PAML中的 MCMCTREE 來估計(jì)物種 分歧 時(shí)間 使用“ Correlated molecular clock ”分子鐘模型和HKY85 ”核 酸 替換模型,校正點(diǎn)分歧時(shí)間來自TimeTree http://www.timetree. 。
4.基因家族擴(kuò)張和收縮
根據(jù)基因家族聚類結(jié)果和物種間的系統(tǒng)發(fā)育關(guān)系,使用CAFE 進(jìn)行基因家族擴(kuò)張和收縮分析,對(duì)這些顯著擴(kuò)張的基因進(jìn)行 KEGG 和 GO 富集分析.
使用PAML 中的 CodeML 進(jìn)行正選擇分析,選用“branch site” 模型得到受正選擇基因(p<0.05).
5.LTR插入時(shí)間
逆轉(zhuǎn)錄轉(zhuǎn)座子在插入宿主基因組時(shí) 兩個(gè) LTR 區(qū)域 通常是相同的。隨著時(shí)間的推移,核苷酸的替換會(huì)導(dǎo)致兩個(gè) LTR 序列 出現(xiàn) 差異。 在核苷酸 替換率已知的情況下 ,可以根據(jù)兩個(gè) LTR 之間的差異 數(shù)估算插入時(shí)間,我們使用 LTR_FINDER 尋找基因組中的 LTR 區(qū)域,然后使用MUSCLE 進(jìn)行多序列比對(duì)并使用 DISTMAT 計(jì)算距離矩陣,最后根據(jù)公式 T = K2P/2r 計(jì)算 LTR 插入時(shí)間 .
6.基因組共線性
我們使用BLASTP 來檢測(cè)物種間的直系同源基因,選擇最優(yōu)的比對(duì)結(jié)果,使用 MCscan 識(shí)別同源基因區(qū)塊,然后選擇更長的同源基因區(qū)塊進(jìn)行下一步作圖。
7.全基因組復(fù)制分析
由于同義突變?cè)谖锓N進(jìn)化過程中不受自然選擇, 所以在一定時(shí)間尺度下,同義突變的速率可以衡量物種進(jìn)化的時(shí)間 也可以用來衡量物種全基因組復(fù)制時(shí)間發(fā)生的時(shí)間和次數(shù) 。四倍簡并位點(diǎn)顛換率 (4dTv )分布 和同義替換率 (Ks) 分布 常被用來進(jìn)行全基因組復(fù)制分析。 首先 使用 BLASTP 來檢測(cè)物種內(nèi)的旁系同源基因和物種間的直系同源基因 然后使用 MCscan 軟件識(shí)別同源基因區(qū)塊,計(jì)算同源基因區(qū)塊的 4dTv 值,使用KaKs_caculator計(jì)算旁系同源基因的Ks值。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容