2024-03-02從gff文件中獲取多區(qū)域基因ID

awk -F "\t" 'BEGIN {OFS="\t"}$3=="gene" {print $1,$4,$5,$9}' final_sorted_with_promoter.change.gff3  >final_sorted_with_promoter.change.gene
bedtools intersect -a region.xls -b final_sorted_with_promoter.change.gene -wa -wb | awk -F ";" '{print $1}'> EAR_SR3.gene.name

注意,region.xls和 final_sorted_with_promoter.change.gene文件均為bed格式。
bed格式前3列為必須有的,分別為染色體,起始位置,終止位置。


image.png

由于 region.xls 我在excel表格整理出來的,格式是dos系統(tǒng)的,會(huì)報(bào)錯(cuò)。因此需要在linux下打開后用set ff=unix改成linux系統(tǒng)的。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容