CD-hit安裝及使用

cd-hit?是用于蛋白質(zhì)序列或核酸序列聚類的工具,根據(jù)序列的相似度對(duì)序列進(jìn)行聚類以去除冗余的序列,一般用于構(gòu)建非冗余的數(shù)據(jù)集用于后續(xù)的實(shí)驗(yàn)分析。

cd-hit聚類算法

通常來(lái)說(shuō),根據(jù)序列相似度對(duì)序列進(jìn)行聚類,首先想到的可能是通過(guò)計(jì)算兩兩序列之間的相似度對(duì)序列進(jìn)行聚類,這樣需要進(jìn)行all by all的比較,相對(duì)來(lái)說(shuō)比較費(fèi)時(shí),而?cd-hit?軟件可以避開(kāi)all by all比較的問(wèn)題,大大縮短了運(yùn)行時(shí)間。

cd-hit?是一種貪婪的增量聚類方法,首先對(duì)輸入的序列根據(jù)序列的長(zhǎng)短進(jìn)行排序,并從最長(zhǎng)到最短的順序處理它們。將最長(zhǎng)的序列自動(dòng)的分為第一類并作為第一類的代表序列,然后將剩下的序列與在其之前發(fā)現(xiàn)的代表性序列進(jìn)行比較,根據(jù)序列相似性將其歸為其中的一類或成為新的一個(gè)聚類的代表序列,如此遍歷所有序列完成聚類過(guò)程。 在默認(rèn)方式中,序列僅和每一個(gè)聚類中的代表性序列(為這類中的最長(zhǎng)序列)進(jìn)行比較而不和這個(gè)類中的其他序列進(jìn)行比對(duì)。 在準(zhǔn)確模式下,序列會(huì)和每個(gè)聚類中的所有序列進(jìn)行比較然后決定是成為新的一類還是歸為其中的一類中。

cd-hit下載和安裝

下載網(wǎng)址

https://github.com/weizhongli/cdhit/releases

安裝

wget https://github.com/weizhongli/cdhit/releases/download/V4.6.8/cd-hit-v4.6.8-2017-1208-source.tar.gz ## 下載cd-hit

tar -zxvf cd-hit-v4.6.8-2017-1208-source.tar.gz? ## 解壓

cd cd-hit-v4.6.8-2017-1208

make? ## 編譯

cd cd-hit-auxtools

make ## 編譯

## 如果編譯失敗,可以下載二進(jìn)制版本,解壓就可以使用不用編譯

wget https://github.com/weizhongli/cdhit/releases/download/V4.6.7/cd-hit-v4.6.7-2017-0501-Linux-binary.tar.gz? ## 解壓即用,不用編譯

cd-hit的使用

包含的程序和用途

* cd-hit Cluster peptide sequences

* cd-hit-est Cluster nucleotide sequences

* cd-hit-2d Compare 2 peptide databases

* cd-hit-est-2d Compare 2 nucleotide databases

* psi-cd-hit Cluster proteins at <40% cutoff

* cd-hit-lap Identify overlapping reads

* cd-hit-dup Identify duplicates from single or paired Illumina reads

* cd-hit-454 Identify duplicates from 454 reads

* cd-hit-otu Cluster rRNA tags

* cd-hit-para Cluster sequences in parallel on a computer cluster

* h-cd-hit Hierarchical clustering

cd-hit 的基本用法

1

cd-hit -i db -o db90 -c 0.9 -n 5 -M 16000 –d 0 -T 8

參數(shù)說(shuō)明

-i 輸入文件,fasta格式的序列

-o 輸出文件路徑和名字

-c 相似性(clustering threshold),0.9表示相似性大于等于90%的為一類

-n 兩兩序列進(jìn)行序列比對(duì)時(shí)選擇的 word size

-d 0表示使用 fasta 標(biāo)題中第一個(gè)空格前的字段作為序列名字

-M 16000,16GB RAM

-T 使用的線程數(shù)

Choose of word size:

-n 5 for thresholds 0.7 ~ 1.0

-n 4 for thresholds 0.6 ~ 0.7

-n 3 for thresholds 0.5 ~ 0.6

-n 2 for thresholds 0.4 ~ 0.5

cd-hit?只能完成在40%以上的序列相似性的聚類,假設(shè)要將閾值設(shè)置為30%的相似性則需要兩次聚類并使用psi-cd-hit.pl?腳本才能完成

1

2

cd-hit -i nr -o nr60 -c 0.6 -n 4 -d 0 -M 16000 -T 16 # 先將閾值設(shè)置為60%

psi-cd-hit.pl -i nr60 -o nr30 -c 0.3 # 在用psi-cd-hit完成30%的相似性聚類

cd-hit-2d的基本用法

1

cd-hit-2d -i db1 -i2 db2 -o db2novel -c 0.9 -n 5 -d 0 -M 16000 -T 8

cd-hit-2d?用于比較兩個(gè)數(shù)據(jù)庫(kù)中的相似性序列,默認(rèn)識(shí)別在 db2 中的序列和 db1 中的序列相似性高于某個(gè)閾值的序列,輸入是兩個(gè) fasta 格式的文件,輸出是 db2 中與 db1 不相似的蛋白質(zhì)序列文件和列出 db1 和 db2 之間相似序列的文件,如果想要輸出 db1 中和 db2 中不相似的序列,可以將輸入文件 db1 和 db2 的前后位置進(jìn)行交換。

cd-hit-est的基本用法

1

cd-hit-est -i est_human -o est_human95 -c 0.95 -n 10 -d 0 -M 16000 - T 8

cd-hit-est?的基本用法基本和?cd-hit?相同,只是?cd-hit-est?是用于核酸序列聚類,其中 word size 范圍有點(diǎn)差異

-n 10, 11 for thresholds 0.95 ~ 1.0

-n 8,9 for thresholds 0.90 ~ 0.95

-n 7 for thresholds 0.88 ~ 0.9

-n 6 for thresholds 0.85 ~ 0.88

-n 5 for thresholds 0.80 ~ 0.85

-n 4 for thresholds 0.75 ~ 0.8

cd-hit-est-2d的基本用法

1

cd-hit-est-2d -i db1 -i2 db2 -o db2novel -c 0.95 -n 10 -d 0 -M 16000 - T 8

cd-hit-est-2d?的基本用法基本和?cd-hit-2d?相同,只是?cd-hit-est?是用于核酸序列聚類

參考文獻(xiàn)

Limin Fu, Beifang Niu, Zhengwei Zhu, Sitao Wu and Weizhong Li, CD-HIT: accelerated for clustering the next generation sequencing data. Bioinformatics, (2012), 28 (23): 3150-3152.

本文作者:?biolearn

本文鏈接:?https://huifangliu.github.io/2018/08/22/使用cd-hit對(duì)蛋白質(zhì)或核酸序列進(jìn)行聚類/

版權(quán)聲明:?本博客所有文章除特別聲明外,均采用?CC BY-NC-SA 3.0?許可協(xié)議。轉(zhuǎn)載請(qǐng)注明出處!

# 序列聚類

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容