小的Indel(Insertion 和 Deletion),指的是在基因組的某個(gè)位置上所發(fā)生的小片段序列的插入或者刪除,其長度通常在50bp以下;
大的結(jié)構(gòu)性變異,這種類型比較多,包括長度在50bp以上的長片段序列的插入或者刪除、染色體倒位,染色體內(nèi)部或染色體之間的序列易位,拷貝數(shù)變異,以及一些形式更為復(fù)雜的變異。
為了和SNP變異作區(qū)分,上述這兩類變異通常也被稱為基因組結(jié)構(gòu)性變異(Structural variation,簡稱SV)。這里值得一提的是,研究人員對(duì)基因組的結(jié)構(gòu)性變異發(fā)生興趣,主要是由于這幾年的研究發(fā)現(xiàn):(1)雖然還未被廣泛公認(rèn),但研究人員發(fā)現(xiàn)SV對(duì)基因組的影響比起SNP來說還要大;(2)基因組上的SV比起SNP而言,似乎更能用于解釋人類群體多樣性的特征;(3)稀有且相同的一些結(jié)構(gòu)性變異往往和疾?。òㄒ恍┌┌Y)的發(fā)生相關(guān)聯(lián)甚至還是其致病的誘因。
目前常用于檢測SV變異的軟件有很多,這里介紹下breakdancer和CREST的安裝和簡單使用。
首先介紹下breakdancer。
這里先貼出軟件GitHub的地址:https://github.com/genome/breakdancer
關(guān)于軟件的說明可在GitHub上自行閱讀。
sourceforge的下載地址:https://sourceforge.net/projects/breakdancer/files/
通過git clone命令或者wget命令都可以下載breakdancer的安裝包,這里比較簡單,略過不講。
breakdancer的安裝過程比較容易各種報(bào)錯(cuò)
首先先安裝libgd庫,具體可參考這里
然后安裝以下的perl模塊,安裝方式同上:GD、GDGraph、GDGraph-histogram、GDTextUtil、Math-CDF、Statistics-Descriptive;也可自行通過cpanm方式自動(dòng)安裝
然后安裝samtools,版本在0.1.7以下
最后一步才是安裝breakdancer:
cd breakdancer
make && make install
安裝成功后生成breakdancer-max的執(zhí)行文件
以上各個(gè)安裝過程若無root權(quán)限,請(qǐng)自行修改./config文件的安裝路徑
安裝成功后進(jìn)入perl文件夾下找到bam2cfg.pl文件
perl bam2cfg.pl
安裝成功就可以看到該文件的使用說明,若失敗根據(jù)提示安裝對(duì)應(yīng)的perl模塊即可。
breakdancer檢測SV變異的使用方法如下:
perl bam2cfg.pl -v (float)sample.bam > sample.cfg
生成配置文件,配置文件如下所示:
readgroup:sample
platform:illumina
map:sample.bam
readlen:
lib:
num:
lower:
upper:
mean:
std:
SWnormality:
exe:samtools view
接著使用breakdancer-max鑒定結(jié)構(gòu)變異:
breakdancer_max sample.cfg > sample.out
以上各步驟中請(qǐng)自行將安裝路徑加入環(huán)境變量中。breakdancer的檢測量很大,檢測時(shí)間會(huì)很久,建議加上nohup &命令放入后臺(tái)運(yùn)行。后面再進(jìn)行CREST的介紹。