葉綠體基因組組裝

getorganelle組裝葉綠體基因組

安裝

conda install -c bioconda getorganelle

安裝葉綠體基因組databases

get_organelle_config.py --add embplant_pt

NCBI測試數(shù)據(jù)下載

從網(wǎng)上隨機找了一篇文章 進(jìn)行組裝
文章鏈接

# download data
prefetch SRR15255748.sra
# split files
fasterq-dump --split-3  SRR15255748.sra
# after split 
# SRR15255748_1.fastq  SRR15255748_2.fastq

軟件運行

get_organelle_from_reads.py  -1 SRR15255748_1.fastq -2 SRR15255748_2.fastq  -k 21,77,127 -o results -t 30 -R 25 -F embplant_pt

組裝結(jié)果

使用Bandagegfa/fastg 結(jié)果文件進(jìn)行查看

getorganelle組裝結(jié)果

IR區(qū)域 拆分之后 就可以行成葉綠體的環(huán)狀結(jié)構(gòu)
兩種解環(huán)方式

IR拆分之后就行成了兩種成環(huán)方式,這也是為什么getorganelle會給出兩條序列的原因,兩條序列的差異在于SSC的方向。 因此我們需要對得到的兩條序列做共線性分析。選擇一條和參考相同的,或者NCBI用的比較多的一種方式 進(jìn)行下一步分析。

選用參考自己做組裝

參考序列下載

選用近緣的物種作為參考物種 這里選用 NC_063470.1 做為參考物種

數(shù)據(jù)處理

# build index  
bowtie2-build  test.fa  ref # test.fa NC_036134.1
# mapping
bowtie2 -x ref --very-sensitive-local -1 SRR15255748_1.fastq -2 SRR15255748_2.fastq  > mapping.sam
# sam to bam
samtools view -h -F 4 -@ 6 mapping.sam  > mapping.bam
# bam to fastq
samtools fastq -1 1.fq -2 2.fq -s unmapped.fq mapping.bam

SPAdes組裝

spades.py -k 21,77,127 -1 1.fq  -2 2.fq -t 30 -o results

組裝結(jié)果

使用Bandagegfa/fastg 結(jié)果文件進(jìn)行查看

SPAdes組裝結(jié)果

然后按照上面的處理方式 就可以得到相同的結(jié)果 如果序列前端和序列后端有一條Kmer是相似的 需要刪除該Kmer

寫在結(jié)尾

序列組裝好之后 鑒定葉綠體的四個區(qū)域,然后序列調(diào)整LSC的第一個堿基 作為序列的開始, 接著就可以進(jìn)行注釋等后續(xù)分析。

當(dāng)序列復(fù)雜度比較高時,使用getorganelle無法成環(huán)或者成環(huán)數(shù)比較多時(失敗的原因是多種多樣的),需要自己進(jìn)行糾正?。。?/p>

如果大家有想做的分析,也可以私信我哦 。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容