基因家族分析(1)——基因家族成員的確定①

更多內(nèi)容關(guān)注微信公眾號(hào):“今日之森”? ?后獲取。

【除夕當(dāng)天】

平日里也不知道忙的啥,總是疏于和朋友們聯(lián)絡(luò)。

今年是牛年,可以牛氣沖天。

吃過年夜飯,趁著過年的喜慶日子,和朋友們聯(lián)系聯(lián)系,挺好的。

有的朋友從不聯(lián)系,有的朋友久不聯(lián)系,有的朋友偶有聯(lián)系。

不管怎樣,過年的日子就總有理由可以聯(lián)系聯(lián)系。

晚上六點(diǎn)多吃過飯看了會(huì)兒春晚就和朋友們陸續(xù)開始聯(lián)絡(luò)起來,主要是和平日里很少聯(lián)系的朋友們聯(lián)絡(luò)。簡單聊了一會(huì)兒就開始和去年相識(shí)的幾個(gè)小朋友吃雞了,打游戲還是好玩的,到了晚上十二點(diǎn),與兄弟三人去了家門口廟里燒香,家里人說是討個(gè)來年吉祥,往年去廟里磕頭還能有個(gè)期許,今年就比較簡單了,磕完頭就完事兒了,心里也沒想啥有的沒的。燒完香回來也睡不著,那就簡單寫點(diǎn)東西。

祝愿朋友們來年牛氣沖天,事事順順利利。

【廢話當(dāng)頭】

之前說過,我一直在想一些關(guān)于基因家族分析的事情。今天開始就寫一個(gè)基因家族分析的專題,一方面是想把一些簡單的事情分享給朋友們,有問題的地方或許還可以得到朋友們的指導(dǎo)和批評(píng),另一方面也是把自己學(xué)到的東西整理一下,以備將來需要。

由于自己學(xué)習(xí)的局限,有錯(cuò)誤的地方大家需要自行斟酌,當(dāng)然最好可以給我指出來。

【前言】

關(guān)于基因家族分析的概念和內(nèi)容,想必大家很輕松就可以查到,這里就不再重復(fù),相關(guān)的文獻(xiàn)更是不勝枚舉,總體來看,文獻(xiàn)中關(guān)于基因家族分析的常規(guī)套路是很容易重復(fù)出來的,思路也會(huì)很簡單。但是有一件事情必須清楚,簡單的做一些基因家族分析并不能發(fā)很好的文章,當(dāng)然也最好不要為了發(fā)文章而學(xué)基因家族分析。要不然很容易誤入歧途而不能自拔,因?yàn)榘凑粘R?guī)套路做基因家族分析太過簡單,水水文章也很輕松,但是這樣,很多時(shí)候也就背離了初心。因此,我更傾向于將基因家族分析理解為科研入門過程中對(duì)基因序列所包含的信息進(jìn)行較為深入的認(rèn)識(shí),可以對(duì)自己所研究的相關(guān)內(nèi)容起到很好的輔助作用。

【進(jìn)入主題——基因家族成員的確定】

基因家族成員的確定是進(jìn)行分析的第一步,也是最為關(guān)鍵的一步。由于我是研究作物的,所以后面的介紹都以植物為主進(jìn)行。

首先需要明確,對(duì)于想要研究的基因家族是否已有主要的保守結(jié)構(gòu)域的隱馬爾可夫(HMM)模型,若有,則直接從Pfam網(wǎng)站下載相關(guān)模型,然后使用模型文件去目標(biāo)物種基因組(蛋白)中搜索即可;若無,則需要從文獻(xiàn)中整理可靠的基因家族序列,以這些序列構(gòu)建HMM模型,然后同上;若文獻(xiàn)中不好找,或者找不到,那就請(qǐng)使用NCBI中Protein數(shù)據(jù)庫搜索相似的序列,以這些序列構(gòu)建HMM模型,然后同上。

整體的鑒定思路或許可以參考下面的建議:

首先使用文獻(xiàn)中已發(fā)表序列集合作為種子序列,使用本地blastp比對(duì)到目標(biāo)序列。然后再使用基因家族結(jié)構(gòu)域HMM模型文件去hmmsearch第一步的結(jié)果。最后去除重復(fù)序列。

大致思路如上,至于上述提及的一些有疑惑的地方會(huì)在后面的介紹中提到。

【實(shí)際操作】

1、首先,不管目標(biāo)基因到底是個(gè)什么情況,先不管,我們首先將目標(biāo)物種的相關(guān)基因組數(shù)據(jù)和注釋文件下載下來,推薦使用EnsemblPlants數(shù)據(jù)庫http://plants.ensembl.org/info/data/ftp/index.html

選擇這個(gè)網(wǎng)站,一是因?yàn)榇蠖鄶?shù)植物數(shù)據(jù)都有,二是因?yàn)樽⑨屛募容^友好,三是因?yàn)榫W(wǎng)頁容易打開,下載速度較快(推薦IDM下載神器進(jìn)行下載)。

比如擬南芥(Arabidopsis thaliana ),可以將DNA,cDNA,CDS,Protein sequence,Gene?sets(GTF&GFF3)這幾個(gè)文件都下載下來,以后會(huì)用到。其他的文件大家就自行探索吧。下載好之后在后續(xù)分析過程中直接使用就好,不建議進(jìn)行手動(dòng)修改,尤其不建議對(duì)注釋文件(GTF,GFF3)進(jìn)行修改。

2、在Pfam網(wǎng)站https://pfam.xfam.org/下載隱馬爾可夫模型,

比如先隨便以WD40這個(gè)結(jié)構(gòu)域?yàn)槔?,可以看到HMM?information中可以下載該結(jié)構(gòu)域的HMM模型。

3、以下載好的HMM模型向目標(biāo)物種基因組序列(蛋白)搜索,以得到大致的基因家族成員。

這一步需要用到hmmer程序http://hmmer.org/下的子程序hmmsearch。

先寫到這里,睡覺,晚安。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容