HiFi測(cè)序以及hifiasm軟件的使用,目前是市場(chǎng)上二倍體動(dòng)植物基因組組裝的最佳選擇,沒(méi)有之一,多倍體目前也是最佳選擇,也正因?yàn)镠iFi跟hifiasm軟件,使得動(dòng)植物基因組組裝變得簡(jiǎn)單了很多,組裝質(zhì)量提高了很多。
1、安裝,官網(wǎng)下載源代碼包hifiasm官網(wǎng),目前用的新版本,v0.16.0
cd hifiasm && make #hifiasm安裝非常簡(jiǎn)單,只需要到代碼包里make就好
2、常用參數(shù) ,hifiasm常用參數(shù)有-l和-n參數(shù),
-l:0-沒(méi)有對(duì)組裝去冗余,組裝結(jié)果包括全部組裝出來(lái)的contig,可能包含多個(gè)單倍體基因組;2/3,會(huì)對(duì)組裝出來(lái)的基因組進(jìn)行去冗余,對(duì)于二倍體,得到的結(jié)果基本上是全基因組一半的大小,小編用的多的是 -l 2
-n一般給3或者4,默認(rèn)3,表示組裝的contig中,unitigs支持大于3或4才保留,該參數(shù)會(huì)將支持度比較低的contig去掉
其他參數(shù):hifiasm -h
hifiasm軟件使用
(1)市場(chǎng)上絕大多數(shù)二倍體基因組,只需要組裝2n中的n,所以參數(shù)一般給 -l 2 -n 4:
hifiasm -o test.asm -t 16 -l 2 -n 4 HiFi-reads.fa.gz 2> test.assemble.log #-t16為16線程,test.ccs.fa.gz為處理好的ccs數(shù)據(jù),可為fasta或者fastq,用法很簡(jiǎn)單
(2)對(duì)于二倍體,結(jié)合HiC數(shù)據(jù)拆單倍體組裝,注:聽(tīng)該軟件作者講座了解到,HiC數(shù)據(jù)拆單倍體成功率還是挺高的,相對(duì)也比較準(zhǔn)確,所以如果做了HiC數(shù)據(jù),建議用該方法嘗試組裝:
hifiasm -o HiC.asm -t 16 --h1 read1.fq.gz --h2 read2.fq.gz HiFi-reads.fa.gz 2> HiC.assemble.log
(3)多倍體組裝,如果是異源多倍體,可以當(dāng)做二倍體進(jìn)行組裝,用以上方法即可。如果是同源多倍體,可以先嘗試-l 2參數(shù),如果結(jié)果不好,尤其是比較復(fù)雜的同源多倍體,小編建議,使用-l 0參數(shù)進(jìn)行組裝,然后使用HiC數(shù)據(jù)進(jìn)行掛載后,通過(guò)HiC互作信號(hào),進(jìn)行染色體拆分,如果深度足夠,可以得到所有的單倍體,如果深度不夠,拆分出其中的一半:
hifiasm --primary -o test.asm -t 16 -l 0 -n 3 HiFi-reads.fa.gz 2>test.assemble.log