1、啥是參考基因組和參考基因注釋?
俗話說“大道至簡”,咱生物界表示:這我熟呀!君不見,我只用ATCG 四個堿基就能上天入地,外加海底兩萬里。嗯,沒毛?。。?br>
自從 1990 啟動的家喻戶曉的人類基因組計劃開始,全世界的科學(xué)家竭盡全力破譯了第一個完整的人類基因組,從那時開始人類拿到了一本只有 ATCG 四個堿基書寫的天書。后續(xù)人們逐步完善了基因組序列信息,并寫在 Fasta 格式的文本文件“天書”中,這本天書就叫做參考基因組。
但是,直接拿天書來看是一臉懵逼的,于是大家開始利用實驗技術(shù)手段開始著手解密這本天書,隨后大量的基因以及非編碼序列被人們詳細的標(biāo)記在參考基因組對應(yīng)的位置。同時對該位置加入大量的注釋細節(jié),最終將這些信息寫在 BED,GTF,GFF 格式的基因組注釋文件 。
隨著時間推移和技術(shù)的發(fā)展,已經(jīng)構(gòu)建好的基因組和基因組注釋信息會出現(xiàn)不同程度的增加、刪減等修改,從而有了不同版本。
2、參考基因組版本命名
在講參考基因組之前,需要提到一個組織參考基因組聯(lián)盟(Genome Reference Consortium),它是由 NCBI,EBI,桑格研究所等機構(gòu)組成。GRC 利用最佳的技術(shù)裝配,糾正,增加基因組序列,以此作為在生信分析領(lǐng)域作為參考的基因組。目前,該機構(gòu)構(gòu)建了人,小鼠,大鼠,斑馬魚,雞的參考基因組。
2.1 常用人參考基因組對應(yīng)表
| 發(fā)布時間 | 2013 | 2009 | 2006 |
|---|---|---|---|
| GRC官方名 | GRCh38 | GRCh37 | GRCh36 |
| UCSC | hg38 | hg19 | hg18 |
| Ensemble | GRCh38 | GRCh37 | GRCh36 |
| GENCODE | 38 | 19 | 3c |
| NCBI | GRCh38 | GRCh37 | GRCh36 |
| GenBank | GCA_000001405 | ||
| RefSeq | GCA_000001405 |
2.2 常用小鼠參考基因組對應(yīng)表
| 發(fā)布時間 | 2020 | 2011 | 2007 |
|---|---|---|---|
| GRC官方名 | GRCm39 | GRCm38 | |
| UCSC | m39 | mm10 | mm9 |
| Ensemble | GRCm39 | GRCm38 | |
| GENCODE | M27 | M25 | M1 |
| NCBI | GRCm39 | GRCm38 | NCBIM37 |
3 如何下載基因組和基因組注釋?
3.1、NCBI
這里提供兩種下載方式,一種為網(wǎng)頁界面下載,另一種為FTP下載。
a) 可視化下載
- 進入網(wǎng)址
https://www.ncbi.nlm.nih.gov/genome/browse#!/overview/
-
搜索物種
圖1 NCBI人基因組信息搜索 -
下載界面
圖2 NCBI人基因下載頁面 (下載時注意對應(yīng)版本)
b) FTP下載
注:Chrome 瀏覽器在18版本后由于安全原因已經(jīng)不支持 ftp 協(xié)議,改用 https 協(xié)議,可以看到鏈接已經(jīng)與之前的不同。
這里以下載人的參考基因組 GRCh38 為例:
人類基因組注釋文件:
GFF 格式:
如果以這種方式下載,其實已經(jīng)可以路徑中大概看出相關(guān)物種的下載地址,可以自行查詢及下載其他物種。
2、Ensemble
a) 可視化下載
- 網(wǎng)址:http://asia.ensembl.org
- 點擊物種名,進入下載界面


b) FTP下載
同樣以下載人參考基因組 GRCh38 為例:
http://ftp.ensembl.org/pub/current_fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.toplevel.fa.gz
GTF 文件:http://ftp.ensembl.org/pub/current_gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz
GTT 文件:http://ftp.ensembl.org/pub/cur
3、GENCODE
給做醫(yī)學(xué)相關(guān)研究的小伙伴們推薦,GENCODE的物種只涉及人類和小鼠,但這里具有最新最全的基因組和其注釋信息。
- 網(wǎng)址:https://www.gencodegenes.org/
-
點擊人類的最新版
圖5 GENCOND人基因組 -
點擊下載基因組注釋文件
圖6 GENCOND人基因組下載
4、UCSC
相對其他下載方式,UCSC 本職的工作是做基因組瀏覽器的,因此也可以從下圖看到,在這里可以根據(jù)自己定義來下載相對于的基因組區(qū)域,比如 prime,exon,gene,transcript等等。
- 網(wǎng)址:http://genome.ucsc.edu/cgi-bin/hgTables
-
下載:設(shè)置參數(shù)如下,然后點擊下載參考基因組及注釋文件
圖7 UCSC人基因組下載
以上詳細描述了4個數(shù)據(jù)庫如何下載基因組和基因組注釋問價,其他物種基本也是這種套路了。希望小伙伴們再也不會迷路啦。。。。
---------------------------------------------------------------------------------------------------------------------------------------------------I`m a line ! Thanks !-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
參考:
https://zhuanlan.zhihu.com/p/383397412




