BioNano以cmap格式存放光學圖譜,為了評估基因組的組裝質量或者了解光學圖譜中冗余情況(高雜合基因組組裝結果偏大),我們就需要進行cmap之間的比較。
CMAP間比對
Solve套件提供了runCharacterize.py腳本封裝了RefAligner,用于進行CMAP之間的比對。
python2.7 runCharacterize.py \
-t RefAligner的二進制文件路徑 \
-q 用于比對的CMAP \
-r 參考CMAP \
-p Pipeline文件路徑\
-a 參數配置文件.xml \
-n 線程數,默認4
需要注意的是-p和-a參數的設置。-p是Pipeline的文件位置,比如說我的Solve安裝在/opt/biosoft/Solve3.4_06042019a,那么參數設置為-p /opt/biosoft/Solve3.4_06042019a/Pipeline/06042019。 而-a則是要在/opt/biosoft/Solve3.4_06042019a/RefAligner/8949.9232rel/目錄下選擇合適的xml文件。比如你的CMAP是Irys平臺,那么你可以考慮用optArguments_nonhaplotype_irys.xml.
以最新發(fā)表的辣椒的光學圖譜為例,該物種有比較高的雜合度,組裝結果偏大,我們可以通過自比對來尋找冗余區(qū)域,
# 下載CMAP
wget https://submit.ncbi.nlm.nih.gov/ft/byid/o62junnn/piper_nigrum_no_rcmap_refinefinal1.cmap
# 自比對
python /opt/biosoft/Solve3.4_06042019a/Pipeline/06042019/runCharacterize.py \
-t /opt/biosoft/Solve3.4_06042019a/RefAligner/8949.9232rel/RefAligner \
-q piper_nigrum_no_rcmap_refinefinal1.cmap \
-r piper_nigrum_no_rcmap_refinefinal1.cmap \
-p /opt/biosoft/Solve3.4_06042019a/Pipeline/06042019 \
-a /opt/biosoft/Solve3.4_06042019a/RefAligner/8949.9232rel/optArguments_nonhaplotype_saphyr.xml -n 64
最終會在當前文件下生成一個alignRef文件夾,其中結果是q.cmap,r.cmap和xmap的文件可以用于上傳到BioNano Access上進行展示。下圖就是一個冗余實例,可以把圖中較短的圖譜刪掉

基因組回帖
為了將基因組回帖到CMAP上,需要先將基因組的fasta格式轉成CMAP格式,參數如下
perl fa2cmap_multi_color.pl -i 輸入FASTA -e 酶1 通道1 [酶2 通道2]
其中一個最重要的參數就是酶切類型。例如我需要將序列回帖到用Nt.BspQI酶切組裝的光學圖譜上,因此運行參數如下
perl /opt/biosoft/Solve3.4_06042019a/HybridScaffold/06042019/scripts/fa2cmap_multi_color.pl -i athaliana.fa -e BspQI 1
最后的athaliana_BSPQI_0kb_0labels.cmap就是模擬酶切的CMAP序列。
之后將模擬酶切的結果回帖到實際的CMAP
python /opt/biosoft/Solve3.4_06042019a/Pipeline/06042019/runCharacterize.py \
-t /opt/biosoft/Solve3.4_06042019a/RefAligner/8949.9232rel/RefAligner \
-q athaliana_BSPQI_0kb_0labels.cmap \
-r kbs-mac-74_bng_contigs2017.cmap \
-p /opt/biosoft/Solve3.4_06042019a/Pipeline/06042019 \
-a /opt/biosoft/Solve3.4_06042019a/RefAligner/8949.9232rel/optArguments_nonhaplotype_saphyr.xml \
-n 64
最終會在當前文件下生成一個alignRef文件夾,其中結果是q.cmap,r.cmap和xmap的文件.