1.安裝getorganelle
conda create -n getorganelle python=3.6.8
#創(chuàng)建getoganelle的環(huán)境,可通過python3 -V查看當(dāng)前的python版本,使用系統(tǒng)中存在的python版本
conda install -n getorganelle -c bioconda getorganelle=1.7.7
#在miniconda3上安裝指定版本的getorganelle
2.安裝葉綠體基因組等數(shù)據(jù)庫
get_organelle_config.py --add embplant_pt
#安裝葉綠體基因組等數(shù)據(jù)庫(植物葉綠體基因組:embplant_pt,植物線粒體基因 組:embplant_mt,植物核核糖體DNA片段:embplant_nr)
小插曲:在安裝參考基因組時發(fā)現(xiàn)報錯:ERROR: Blast is not available!
當(dāng)時以為是blast沒有安裝,安裝了blast依然報錯,嘗試在打開getorganelle的情況下查看blast版本blastn -V,發(fā)現(xiàn)進(jìn)一步顯示為blastn: error while loading shared libraries: libnsl.so.1: cannot open shared object file: No such file or directory
這說明是libnsl.so.1這個庫沒有存在于getorganelle這個軟件的環(huán)境的,進(jìn)入目錄/home/monkeyflower/miniconda3/envs/getorganelle/lib查找這個庫,發(fā)現(xiàn)里面有個libnsl.so.3的庫,直接改掉這個庫的名稱,發(fā)現(xiàn)可以運行了。
3.運行g(shù)etorganelle
先將需要拼接的序列文件傳輸?shù)?home/monkeyflower/bioworkplace目錄下(最好每次建一個單獨的文件夾以保存運行結(jié)果)
cd /home/monkeyflower/bioworkplace
conda activate getorganelle
#激活軟件
4.拼接代碼
get_organelle_from_reads.py -1 sampleA_1.fq.gz -2 sampleA_2.fq.gz -F embplant_pt -o organellefile -R 10 -t 2 -k 21,45,65,85,105,127
#文件名不得有任何空格
-1和-2 正向和反向測序原始數(shù)據(jù)文件(如果是單向測序,-u)
-F 設(shè)定要組裝的基因組類型
-o 結(jié)果輸出保存的目錄(文件夾)名稱
-R 提取葉綠體基因 reads 的輪次(輪次越多,耗時越長)
-t 并行使用 CPU 的數(shù)量(多核可提速),默認(rèn)值是1
-k 調(diào)用SPAdes進(jìn)行 denovo組裝的k-mer,數(shù)值必須是奇數(shù),最大值是127
也可使用以下代碼可縮短運行時間
get_organelle_from_reads.py -1 sampleA.1.gz -2 CaryopterissampleA.2.gz -F embplant_pt -o organellefile --fast -k 21,65,105 -w 0.68
5.拼接不成環(huán)解決辦法
由于getorganelle在使用SPAdes拼接得到的assembly_graph.fastg時會對其進(jìn)行精簡結(jié)果會導(dǎo)致拼接結(jié)果無法成環(huán),如下圖所示:該序列有多個片段組成,卻沒有成環(huán)
發(fā)現(xiàn)可以先使用SPAdes對測序數(shù)據(jù)進(jìn)行組裝以獲得assembly_graph.fastg文件,對該文件再使用Getorganelle進(jìn)行拼接即可。具體流程如下:
5.1 SPAdes輔助拼接
5.1.1 SPAdes安裝
軟件安裝
conda create -n spades
conda activate spades
conda install -c bioconda spades=3.15.5
#創(chuàng)建環(huán)境并安裝指定版本的的spades
基本使用命令
spades.py -1 left.fq.gz -2 right.clean.fq.gz -o outputname -t 16
-1/2:雙端測序文件
-o:輸出文件目錄
-t:最大允許使用線程數(shù),默認(rèn)為1
5.1.2 Getorganelle運行命令
get_organelle_from_assembly.py -g assembly_graph.fastg -F embplant_pt -o output-plastome -t 16
-g:SPAdes組裝得到的FASTG的assembly graph
-F:設(shè)定要組裝的基因組類型
-o:輸出文件目錄
-t:最大允許使用線程數(shù)
拼接結(jié)果基本都能成環(huán),如下圖所示:

5.2 修改有關(guān)參數(shù)
5.2.1調(diào)整-w參數(shù)
如果服務(wù)器的內(nèi)存足夠,那么減少word(- w)參數(shù)。如果在命令中沒有特意指出-w參數(shù),則程序會自動估計,在get_org.log.txt中會有記錄,如果估計的-w大小是105,可以嘗試減小為95。-w的取值范圍一般在65 ~ 105之間。
5.2.2增加--max-reads參數(shù)
--max-reads MAX_READS
Maximum number of reads to be used per file. Default:
1.5E7 (-F embplant_pt/embplant_nr/fungus_mt/fungus_nr); 7.5E7
(-F embplant_mt/other_pt/anonym); 3E8 (-F animal_mt)
陸生植物默認(rèn)參數(shù)為1.5E7,應(yīng)該提升一下讀數(shù)。
5.2.3添加參考物種
如果目標(biāo)基因組是動物有絲分裂組或者reads質(zhì)量較差,或者目標(biāo)覆蓋度極不均勻,則使用與之緊密相關(guān)的細(xì)胞器基因組作為seed( -s )。對于動物基因組組裝或沒有緊密相關(guān)seed的情況,使用前一次運行的輸出作為第二次運行的seed。
5.2.4調(diào)整-J/-M參數(shù)
主要是減小這兩個值,-J默認(rèn)值為3,減小該值,延伸步幅變小,reads 招募量增多;-M默認(rèn)值為2,減小 mesh 值,同樣增加延伸量。這兩個參數(shù)調(diào)整后會影響拼接速度。
5.3手動矯正
該種方法只適合拼接的序列長度大于該屬物種正?;蚪M大小,首先在NCBI上找同屬的物種的fasta文件然后與拼接得到的序列整序列比對,找出拼接序列多余的部分。在原來的拼接結(jié)果中刪除多余的這一部分,然后重新在這個geseq網(wǎng)站找出各部分的準(zhǔn)確位置,再截取拼接就得到正確的基因組了。
6.使用getorganelle繪制測序深度圖
evaluate_assembly_using_mapping.py -1 sampleA_1.fq.gz -2 sampleA_2.fq.gz -o coverage -f sequence.fasta -t 1 --continue --draw --plot-title title --plot-subtitle "subtitle"
#-1/-2:測序數(shù)據(jù)文件
#-o:輸出文件名稱
#-f:組裝成功的fasta序列
#-t:運行線程數(shù)
#--plot-title:圖片主標(biāo)題
#圖片副標(biāo)題