提取基因長度genelength

# 下載gtf:選擇的是ensembl的GRCh38.94.gtf:

下載地址:ftp://ftp.ensembl.org/pub/release-94/gtf/homo_sapiens/

下載命令:

axel -n 10 ftp://ftp.ensembl.org/pub/release-94/gtf/homo_sapiens/Homo_sapiens.GRCh38.94.gtf.gz

# 解壓:

gunzip Homo_sapiens.GRCh38.94.gtf.gz

# head查看一下gtf的格式:

Homo_sapiens.GRCh38.94.gtf

# 提取exon出來:

awk '{if ($3=="exon") print $0}' Homo_sapiens.GRCh38.94.gtf? > exon.gtf

exon.gtf

# 去掉雙引號:

sed -i 's/"http://g' exon.gtf

# 提取需要的信息到txt:

awk 'BEGIN{FS="\t| |;";OFS="\t"}{print $1,$3,$4,$5,$7,$10,$25,$5-$4+1}' exon.gtf > exon.txt

其實這里提取genename/geneid、genelength這兩項就夠了。

exon.txt

# 查看下有多少exon,多少個gene:

wc -l exon.txt

-> 1262162

awk '{print $6}' exon.txt | sort | uniq |wc -l

-> 58735 (gene_id)

awk '{print $7}' exon.txt | sort | uniq |wc -l

-> 57169 (gene_name)

看來gene_id的數(shù)量比genename要多,用name吧。

# 計算長度:

awk 'BEGIN{OFS="\t"}{ s[$7] += $8 }END{for (i in s){print i,s[i]}} ' exon.txt > gene.length.txt

gene.length.txt

wc -l gene.length.txt

-> 57169 (gene_name)

同樣的思路也可以對轉(zhuǎn)錄本id/name的長度進行統(tǒng)計。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 慢慢看,憋著急!很有用! 前言: 首先呢,在你的Linux系統(tǒng)中新建一個文件,Thanos.txt(紫薯俠賜予你力...
    劉小澤閱讀 3,483評論 6 33
  • wget ftp://ftp.ensembl.org/pub/release-87/gtf/homo_sapien...
    白云夢_7閱讀 2,459評論 0 0
  • 系統(tǒng)巡檢腳本:Version 2016.08.09 ############################ 系統(tǒng)...
    NamasAmitabha閱讀 1,480評論 0 0
  • rljs by sennchi Timeline of History Part One The Cognitiv...
    sennchi閱讀 7,872評論 0 10
  • 月亮,暗了, 是我,不安了。 你說,莫怕,莫怕, 便為我打亮了一旁的星燈。 你的吻輕輕地落在我的額頭, 柔柔的指尖...
    二小妹閱讀 220評論 0 1

友情鏈接更多精彩內(nèi)容