前言
最近碰到一個需求,比較兩個fasta文件的所有序列是否一樣,但是其名字無所謂是否相同,于是想了一個比較簡單的辦法,shell下面直接可以完成。比如有A.fasta和B.fasta兩個文件:
思路
1.首先把兩個文件進行排序,用sort。
2.然后用grep把fasta的header去掉。
3.最后比較兩個處理過的文件的md5。
代碼
cat A.fasta | sort | grep -v ">" > 1.tmp
cat B.fasta | sort | grep -v ">" > 2.tmp
md5sum 1.tmp 2.tmp