當(dāng)小白遇到:參考基因組和基因組注釋

1、啥是參考基因組和參考基因注釋?

俗話說“大道至簡”,咱生物界表示:這我熟呀!君不見,我只用ATCG 四個堿基就能上天入地,外加海底兩萬里。嗯,沒毛?。。?br> 自從 1990 啟動的家喻戶曉的人類基因組計劃開始,全世界的科學(xué)家竭盡全力破譯了第一個完整的人類基因組,從那時開始人類拿到了一本只有 ATCG 四個堿基書寫的天書。后續(xù)人們逐步完善了基因組序列信息,并寫在 Fasta 格式的文本文件“天書”中,這本天書就叫做參考基因組
但是,直接拿天書來看是一臉懵逼的,于是大家開始利用實驗技術(shù)手段開始著手解密這本天書,隨后大量的基因以及非編碼序列被人們詳細的標(biāo)記在參考基因組對應(yīng)的位置。同時對該位置加入大量的注釋細節(jié),最終將這些信息寫在 BED,GTF,GFF 格式的基因組注釋文件 。
隨著時間推移和技術(shù)的發(fā)展,已經(jīng)構(gòu)建好的基因組和基因組注釋信息會出現(xiàn)不同程度的增加、刪減等修改,從而有了不同版本。

2、參考基因組版本命名

在講參考基因組之前,需要提到一個組織參考基因組聯(lián)盟(Genome Reference Consortium),它是由 NCBI,EBI,桑格研究所等機構(gòu)組成。GRC 利用最佳的技術(shù)裝配,糾正,增加基因組序列,以此作為在生信分析領(lǐng)域作為參考的基因組。目前,該機構(gòu)構(gòu)建了人,小鼠,大鼠,斑馬魚,雞的參考基因組。

2.1 常用人參考基因組對應(yīng)表

發(fā)布時間 2013 2009 2006
GRC官方名 GRCh38 GRCh37 GRCh36
UCSC hg38 hg19 hg18
Ensemble GRCh38 GRCh37 GRCh36
GENCODE 38 19 3c
NCBI GRCh38 GRCh37 GRCh36
GenBank GCA_000001405
RefSeq GCA_000001405

2.2 常用小鼠參考基因組對應(yīng)表

發(fā)布時間 2020 2011 2007
GRC官方名 GRCm39 GRCm38
UCSC m39 mm10 mm9
Ensemble GRCm39 GRCm38
GENCODE M27 M25 M1
NCBI GRCm39 GRCm38 NCBIM37

3 如何下載基因組和基因組注釋?

3.1、NCBI

這里提供兩種下載方式,一種為網(wǎng)頁界面下載,另一種為FTP下載。

a) 可視化下載

  • 進入網(wǎng)址

https://www.ncbi.nlm.nih.gov/genome/browse#!/overview/

  • 搜索物種


    圖1 NCBI人基因組信息搜索
  • 下載界面


    圖2 NCBI人基因下載頁面 (下載時注意對應(yīng)版本)

b) FTP下載

注:Chrome 瀏覽器在18版本后由于安全原因已經(jīng)不支持 ftp 協(xié)議,改用 https 協(xié)議,可以看到鏈接已經(jīng)與之前的不同。

這里以下載人的參考基因組 GRCh38 為例:

https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/reference/GCF_000001405.39_GRCh38.p13

人類基因組注釋文件:

GTF 格式:https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/annotation_releases/109/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_genomic.gtf.gz

GFF 格式:

https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/annotation_releases/109/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_genomic.gff.gz

如果以這種方式下載,其實已經(jīng)可以路徑中大概看出相關(guān)物種的下載地址,可以自行查詢及下載其他物種。

2、Ensemble

a) 可視化下載

圖3 Ensemble人基因組搜索
圖4 Ensemble人基因組下載

b) FTP下載

同樣以下載人參考基因組 GRCh38 為例:

http://ftp.ensembl.org/pub/current_fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.toplevel.fa.gz

GTF 文件:http://ftp.ensembl.org/pub/current_gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz

GTT 文件:http://ftp.ensembl.org/pub/cur

3、GENCODE

給做醫(yī)學(xué)相關(guān)研究的小伙伴們推薦,GENCODE的物種只涉及人類和小鼠,但這里具有最新最全的基因組和其注釋信息。

  • 網(wǎng)址:https://www.gencodegenes.org/
  • 點擊人類的最新版


    圖5 GENCOND人基因組
  • 點擊下載基因組注釋文件


    圖6 GENCOND人基因組下載

4、UCSC

相對其他下載方式,UCSC 本職的工作是做基因組瀏覽器的,因此也可以從下圖看到,在這里可以根據(jù)自己定義來下載相對于的基因組區(qū)域,比如 prime,exon,gene,transcript等等。

以上詳細描述了4個數(shù)據(jù)庫如何下載基因組和基因組注釋問價,其他物種基本也是這種套路了。希望小伙伴們再也不會迷路啦。。。。

---------------------------------------------------------------------------------------------------------------------------------------------------I`m a line ! Thanks !-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
參考:
https://zhuanlan.zhihu.com/p/383397412

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容