背景介紹
這篇應該是10x genomics數據輔助基因組組裝的最后一篇,tigmint也是這些軟件之中效果最好的一個,屬于壓箱底的好工具。并且這個軟件是個活著的軟件,相比于那些GitHub上最后更新時間是兩三年前的軟件而言,它還在不斷地動態(tài)更新中,在我寫這篇內容的2022年10月30日的時候,這個軟件在3天前剛剛提交了一次更新。
而且tigmint安裝起來也愈加地方便了,最初使用它的時候甚至只能用源碼安裝或者brew,現如今也支持conda一鍵安裝了。
這里順便提一下tigmint的開發(fā)者,是Shaun Jackman,根據他的簡歷(https://sjackman.ca/resume/), 他現在是10x genomcis的高級計算生物學家職位,之前提到過的ARCS/ARKS也是他開發(fā)的。也難怪tigmint處理10x數據的表現如此優(yōu)秀了。
根據GitHub上的介紹,tigmint不但可以用10x的數據,也可以使用nanopore數據。
tigmint的主要作用是識別并糾正錯誤組裝。將10x/nanopore數據比對到基因組上之后,從比對結果中推斷出DNA大分子(large DNA molecules)范圍的,因為跟單獨的序列相比,DNA大分子的物理覆蓋位置更一致,更不容易出現覆蓋缺失的情況。在沒有覆蓋到的位置把基因組給斷開。tigmint會以bed文件的格式輸出需要切割的斷點位置。而在運行tigmint的時候可以選擇結合使用ARCS或者ARKS做后續(xù)的處理,當然也可以單獨使用tigmint糾錯。
軟件安裝
GitHub地址:https://github.com/bcgsc/tigmint
文章地址:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-018-2425-6
conda install -c bioconda tigmint arcs links abyss seqtk
軟件運行
前期處理
輸入文件要先把10x的原始數據用longranger basic進行處理,處理完之后就可以直接輸給tigmint進行組裝了。
longranger basic的使用可以參考10x的官網:
https://support.10xgenomics.com/genome-exome/software/pipelines/latest/advanced/other-pipelines
運行tigmint-make
tigmint-make的命令主要有3種模式:
- 只調用tigmint進行糾錯
tigmint-make tigmint - 糾錯加組裝
tigmint-make arcs,還有一個arcs-long模式 - 糾錯+組裝+基于reference計算一個組裝的matrics。感覺這個應該是有比較好的reference的情況下再進行組裝才需要的。
tigmint-make arcs draft=test.hic.hap2.p_ctg reads=10x_longranger_basic
注意事項
- draft和reads都只能是文件名,不能帶后綴,否則會報錯。
- draft(即基因組文件)得是
.fa結尾的,如果是.fasta,記得改成.fa才能運行,否則會報找不到基因組文件的錯誤。 - 環(huán)境中安裝的
samtools的版本不能太低,samtools sort命令里得有-t選項,似乎samtools的1.9或者1.10版本之后才更新出這個選項,老版本的samtools運行到后面會報找不到-t選項的錯誤。 - 運行過程中可能會遇到/tmp滿了無法繼續(xù)寫入文件而中斷的問題,解決辦法是在有空間的位置設置一個臨時文件夾,把中間文件寫到我們自己設置的臨時文件夾中去。
mkdir tmpdir
# 記得把這一句寫入環(huán)境變量中哦。
export TMPDIR=/path/to/tmpdir
萌哥碎碎念
- 我嘗試過
tigmint-make arcs和tigmint-make arcs-long,arcs-long的結果里會引入更多的N,如果你后面還有Hi-C數據的話,沒有必要在這一步里引入不必要的N,反正后面該打斷該連不上的都是會現出原形的。 - 如果你是手動安裝的ARCS,安裝的過程中可能會遇到
sparsehash找不到的錯誤,但是這個不影響ARCS的使用。因為這個依賴是ARKS所需要的,所以如果報錯了,只是影響ARKS的使用,ARCS還是能正常使用的。一般而言,從結果來看,ARCS要比ARKS要好,只是ARKS更快罷了。