99精品小视频,亚洲综合清纯在线,无码伦理天堂一本

cd-hit?是用于蛋白質(zhì)序列或核酸序列聚類的工具，根據(jù)序列的相似度對(duì)序列進(jìn)行聚類以去除冗余的序列，一般用于構(gòu)建非冗余的數(shù)據(jù)集用于后續(xù)的實(shí)驗(yàn)分析。

cd-hit聚類算法

通常來(lái)說(shuō)，根據(jù)序列相似度對(duì)序列進(jìn)行聚類，首先想到的可能是通過(guò)計(jì)算兩兩序列之間的相似度對(duì)序列進(jìn)行聚類，這樣需要進(jìn)行all by all的比較，相對(duì)來(lái)說(shuō)比較費(fèi)時(shí)，而?cd-hit?軟件可以避開(kāi)all by all比較的問(wèn)題，大大縮短了運(yùn)行時(shí)間。

cd-hit?是一種貪婪的增量聚類方法，首先對(duì)輸入的序列根據(jù)序列的長(zhǎng)短進(jìn)行排序，并從最長(zhǎng)到最短的順序處理它們。將最長(zhǎng)的序列自動(dòng)的分為第一類并作為第一類的代表序列，然后將剩下的序列與在其之前發(fā)現(xiàn)的代表性序列進(jìn)行比較，根據(jù)序列相似性將其歸為其中的一類或成為新的一個(gè)聚類的代表序列，如此遍歷所有序列完成聚類過(guò)程。在默認(rèn)方式中，序列僅和每一個(gè)聚類中的代表性序列（為這類中的最長(zhǎng)序列）進(jìn)行比較而不和這個(gè)類中的其他序列進(jìn)行比對(duì)。在準(zhǔn)確模式下，序列會(huì)和每個(gè)聚類中的所有序列進(jìn)行比較然后決定是成為新的一類還是歸為其中的一類中。

cd-hit下載和安裝

下載網(wǎng)址

https://github.com/weizhongli/cdhit/releases

安裝

wget https://github.com/weizhongli/cdhit/releases/download/V4.6.8/cd-hit-v4.6.8-2017-1208-source.tar.gz ## 下載cd-hit

tar -zxvf cd-hit-v4.6.8-2017-1208-source.tar.gz? ## 解壓

cd cd-hit-v4.6.8-2017-1208

make? ## 編譯

cd cd-hit-auxtools

make ## 編譯

## 如果編譯失敗，可以下載二進(jìn)制版本，解壓就可以使用不用編譯

wget https://github.com/weizhongli/cdhit/releases/download/V4.6.7/cd-hit-v4.6.7-2017-0501-Linux-binary.tar.gz? ## 解壓即用，不用編譯

cd-hit的使用

包含的程序和用途

* cd-hit Cluster peptide sequences

* cd-hit-est Cluster nucleotide sequences

* cd-hit-2d Compare 2 peptide databases

* cd-hit-est-2d Compare 2 nucleotide databases

* psi-cd-hit Cluster proteins at <40% cutoff

* cd-hit-lap Identify overlapping reads

* cd-hit-dup Identify duplicates from single or paired Illumina reads

* cd-hit-454 Identify duplicates from 454 reads

* cd-hit-otu Cluster rRNA tags

* cd-hit-para Cluster sequences in parallel on a computer cluster

* h-cd-hit Hierarchical clustering

cd-hit 的基本用法

cd-hit -i db -o db90 -c 0.9 -n 5 -M 16000 –d 0 -T 8

參數(shù)說(shuō)明

-i 輸入文件，fasta格式的序列

-o 輸出文件路徑和名字

-c 相似性（clustering threshold），0.9表示相似性大于等于90%的為一類

-n 兩兩序列進(jìn)行序列比對(duì)時(shí)選擇的 word size

-d 0表示使用 fasta 標(biāo)題中第一個(gè)空格前的字段作為序列名字

-M 16000，16GB RAM

-T 使用的線程數(shù)

Choose of word size:

-n 5 for thresholds 0.7 ~ 1.0

-n 4 for thresholds 0.6 ~ 0.7

-n 3 for thresholds 0.5 ~ 0.6

-n 2 for thresholds 0.4 ~ 0.5

cd-hit?只能完成在40%以上的序列相似性的聚類，假設(shè)要將閾值設(shè)置為30%的相似性則需要兩次聚類并使用psi-cd-hit.pl?腳本才能完成

cd-hit -i nr -o nr60 -c 0.6 -n 4 -d 0 -M 16000 -T 16 # 先將閾值設(shè)置為60%

psi-cd-hit.pl -i nr60 -o nr30 -c 0.3 # 在用psi-cd-hit完成30%的相似性聚類

cd-hit-2d的基本用法

cd-hit-2d -i db1 -i2 db2 -o db2novel -c 0.9 -n 5 -d 0 -M 16000 -T 8

cd-hit-2d?用于比較兩個(gè)數(shù)據(jù)庫(kù)中的相似性序列，默認(rèn)識(shí)別在 db2 中的序列和 db1 中的序列相似性高于某個(gè)閾值的序列，輸入是兩個(gè) fasta 格式的文件，輸出是 db2 中與 db1 不相似的蛋白質(zhì)序列文件和列出 db1 和 db2 之間相似序列的文件，如果想要輸出 db1 中和 db2 中不相似的序列，可以將輸入文件 db1 和 db2 的前后位置進(jìn)行交換。

cd-hit-est的基本用法

cd-hit-est -i est_human -o est_human95 -c 0.95 -n 10 -d 0 -M 16000 - T 8

cd-hit-est?的基本用法基本和?cd-hit?相同，只是?cd-hit-est?是用于核酸序列聚類，其中 word size 范圍有點(diǎn)差異

-n 10, 11 for thresholds 0.95 ~ 1.0

-n 8,9 for thresholds 0.90 ~ 0.95

-n 7 for thresholds 0.88 ~ 0.9

-n 6 for thresholds 0.85 ~ 0.88

-n 5 for thresholds 0.80 ~ 0.85

-n 4 for thresholds 0.75 ~ 0.8

cd-hit-est-2d的基本用法

cd-hit-est-2d -i db1 -i2 db2 -o db2novel -c 0.95 -n 10 -d 0 -M 16000 - T 8

cd-hit-est-2d?的基本用法基本和?cd-hit-2d?相同，只是?cd-hit-est?是用于核酸序列聚類

參考文獻(xiàn)

Limin Fu, Beifang Niu, Zhengwei Zhu, Sitao Wu and Weizhong Li, CD-HIT: accelerated for clustering the next generation sequencing data. Bioinformatics, (2012), 28 (23): 3150-3152.

本文作者：?biolearn

本文鏈接：?https://huifangliu.github.io/2018/08/22/使用cd-hit對(duì)蛋白質(zhì)或核酸序列進(jìn)行聚類/

版權(quán)聲明：?本博客所有文章除特別聲明外，均采用?CC BY-NC-SA 3.0?許可協(xié)議。轉(zhuǎn)載請(qǐng)注明出處！

# 序列聚類

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

CD-hit安裝及使用

CD-hit安裝及使用

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

CD-hit安裝及使用

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av