宏基因組分析3-數(shù)據(jù)質(zhì)量控制(trimmomatic)

trimmomatic安裝

trimmomatic是用JAVA編寫的程序,將軟件下載解壓后就可直接使用

cd /home/llt/software
wget http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.38.zip
unzip Trimmomatic-0.38.zip

trimmomatic使用

trimmomatic的用法可以參考官方手冊(cè)http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/TrimmomaticManual_V0.32.pdf
運(yùn)行trimmomatic需要制定軟件目的。我的原始數(shù)據(jù)是雙端測(cè)序生成的,具有上下游兩個(gè)文件。采用雙末端模式運(yùn)行

java -jar /home/llt/software/Trimmomatic-0.38/trimmomatic-0.38.jar PE -threads 4 /home/llt/test/data/raw/SRR1976948_1.fastq.gz /home/llt/test/data/raw/SRR1976948_2.fastq.gz SRR1976948_1p SRR1976948_1u SRR1976948_2p SRR1976948_2u ILLUMINACLIP:/home/llt/software/Trimmomatic-0.38/adapters/TruSeq2-PE.fa:2:30:10 SLIDINGWINDOW:4:20 LEADING:10 TRAILING:10 MINLEN:100

java -jar /home/llt/software/Trimmomatic-0.38/trimmomatic-0.38.jar , 運(yùn)行java程序
PE ,雙末端模式
-threads 4 ,四線程

/home/llt/test/data/raw/SRR1976948_1.fastq.gz /home/llt/test/data/raw/SRR1976948_2.fastq.gz ,雙端測(cè)序的兩個(gè)序列文件

SRR1976948_1p SRR1976948_1u SRR1976948_2p SRR1976948_2u ,四個(gè)輸出文件:兩個(gè)成對(duì)的 clean data, 未成對(duì)的正向序列以及未成對(duì)的反向序列

ILLUMINACLIP ,這是用來去除接頭的步驟。這部分指定 2 種去接頭模式的參數(shù):/home/llt/software/Trimmomatic-0.38/adapters/TruSeq2-PE.fa指明需要匹配的接頭文件,2 代表 接頭序列與測(cè)序序列中可以有 2 個(gè)錯(cuò)配,30 代表采用回文模式時(shí)匹配得分至少為30 (約50個(gè)堿基),10 代表采用簡(jiǎn)單模式時(shí)匹配得分至少為10 (約17 個(gè)堿基)

SLIDINGWINDOW:4:20,從 5' 端開始以 4 bp 的窗口計(jì)算堿基平均質(zhì)量,如果此平均值低于 20,則從這個(gè)位置截?cái)?read

LEADING:10,從序列的開頭開始去掉質(zhì)量值小于 20 的堿基

TRAILING:10,從序列的末尾開始去掉質(zhì)量值小于 20 的堿基

MINLEN:100, 如果 reads 長(zhǎng)度小于 100 bp 則扔掉整條 read

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容