如何在NCBI下載數據(包括批量下載)?

NCBI(National Center for Biotechnology Information)https://www.ncbi.nlm.nih.gov/

NCBI官方介紹是:

NCBI advances science and health by providing access to biochemical and genomic information.

對做系統發(fā)育的我們來說就是上傳、下載以及分析自己分子數據的地方。

這里說下載數據

我們下載一般的核苷酸數據,在搜索框左面的All Databases中選擇Nucleotide,然后在搜索框內編輯要查找的。


比如我們要下載禾本科的葉綠體基因組數據,我們可以輸入:Poaceae chloroplat complete genome,點擊Search之后,出來的結果可能并不都是葉綠體數據,我們在出現在左邊的項目欄里點擊特定的選項,這里我們點擊Genetic compartments 下面的Chloroplast,網站會自動篩選出葉綠體數據。

我們隨便點進去一個,就會出現下面的頁面:

我們看到在確切信息Paspalum ionanthum chloroplast, complete genome下面有一個:

GeneBank:MG524002.1

這里的MG524002.1是這條基因序列在GeneBank中的編號(accession number)。GeneBank,顧名思義,就像一個基因銀行,但和真正的銀行不同的是,基因銀行存儲的基因序列是所有人共享的,可以自由上傳和下載。上傳的人可以更改這條序列的相關信息,但是編號是不變的。

那我們如何下載這條序列呢?

點擊Send to右邊的倒三角,按圖中給出的提示選擇,Format(格式)建議選擇GenBank,然后點擊Create File,就可以進行下載。

當我們下載多條序列時,我們也可以在上一個界面中,點擊要下載的item(序列項目)前面的方括號,然后點擊右上角Send to,同上面單條序列一樣。

當我們有大量的序列需要下載(已經有這些序列的序列號accession number了),我們可以進行批量下載。

批量下載有兩種辦法:

NCBI有官方的途徑:Batch Entrezhttps://www.ncbi.nlm.nih.gov/sites/batchentrez

操作比較簡單,首先我們準備一個含有accession number的.txt格式的文件,

然后在Batch Entrez界面上面的工具欄中,Database選擇相對應的數據庫,File選擇我們準備好的.txt文件,然后點擊Retrieve(檢索),出現下面的頁面,

點擊最下面一行Retrieve records for...,然后進入這個頁面,

不用選擇items前面的方塊,直接點擊右上Send to,同之前的操作一樣。

另外推薦一個好用的軟件TBtools(批量下載只是TBtools其中很小的一個功能):

下載網址:https://github.com/CJ-Chen/TBtools-Manual

點擊上圖中綠色方框Clone?or?download,然后選擇Download Zip

可以安裝在windows系統,安裝好打開,按圖中的提示點擊,

出現下面的界面以后,既可以在空白區(qū)域直接粘貼編號,也可以點擊空白區(qū)右邊的藍色長方形上傳包含編號的文件,在下面的Set Output File設置文件下載的路徑。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內容