繼續(xù)反思:如何才能入門生信?

繼我前幾天的文章徹夜反思:我為什么總是學(xué)不好生信? 之后,我認(rèn)為有必要去搞清楚,為啥我真的學(xué)不會(huì)生信,以及到底需要怎么樣才能學(xué)會(huì)生信。于是乎,我認(rèn)真觀看了賣萌哥給我的推薦,信息如下:
平臺(tái):B站
up主:鯪魚不會(huì)飛(孟浩巍老師)
題目:2020-02-08-生信入門的經(jīng)驗(yàn)分享

為什么學(xué)起來這么困難?

缺乏對(duì)生信整個(gè)框架的認(rèn)知

我對(duì)生信的理解就是,整理數(shù)據(jù),然后畫圖。因此,一直是從數(shù)據(jù)整理下手,然后學(xué)別人的畫圖代碼。當(dāng)然也會(huì)跟著別人的項(xiàng)目pipeline走,但是出了既定的框架外,我就會(huì)非常的迷茫。一直以來,我在生信上所做的努力就是:
(1)學(xué)習(xí)基本的linux操作,掌握一套數(shù)據(jù)分析流程,比如RNA-seq;
(2)學(xué)習(xí)基本的測序知識(shí),比如illumia的測序原理;
(3)重頭戲:學(xué)習(xí)R語言基礎(chǔ),以及轉(zhuǎn)錄組數(shù)據(jù)分析流程。

我在完成上面學(xué)習(xí)之后,我發(fā)現(xiàn)一些很重要的問題:
(1)內(nèi)心沒有標(biāo)準(zhǔn),對(duì)數(shù)據(jù)的質(zhì)量沒有把控,例如:我可能知道RNA-seq的QC結(jié)果最重要的是幾個(gè)quality的項(xiàng)目,但是卻不知道為什么。每次我拿到QC報(bào)告,總要問一下別人,我這個(gè)adapter的檢測沒有通過,影不影響后續(xù)的數(shù)據(jù)分析?一般得到的回復(fù)就是,咱們主要看看Q30等等,其他不是很重要。這背后真正的原因,其實(shí)是不清晰的,這就讓我感覺很模糊,沒有掌控感;
(2)我可能知道TPM比RPKM和FPKM好像現(xiàn)在用得更多,大約知道一些原因,但是我并不知道RPKM是FPKM的2倍,以及它的原因;
(3)我可能會(huì)重復(fù)R語言的代碼,但是我還是不知道為什么要做某些數(shù)據(jù)轉(zhuǎn)換,做與不做到底有啥區(qū)別?做到怎么樣才是對(duì)自己的數(shù)據(jù)負(fù)責(zé),得到合理的結(jié)果。
出現(xiàn)以上原因是因?yàn)?,?strong>對(duì)測序原理沒有掌握好,對(duì)每一個(gè)步驟的測序數(shù)據(jù)的由來和作用并不清晰;其次是對(duì)于不同工具的理解仍然不夠,統(tǒng)計(jì)學(xué)知識(shí)也嚴(yán)重不足。

學(xué)生信應(yīng)該掌握什么?

首先需要認(rèn)識(shí)到,生物信息學(xué)是要用計(jì)算機(jī)技術(shù)去解決大數(shù)據(jù),并且結(jié)合生物學(xué)背景來篩選出有意義的數(shù)據(jù)。因此,生信要結(jié)合計(jì)算機(jī)+生物背景知識(shí),同時(shí)還需要有統(tǒng)計(jì)學(xué)知識(shí),在這里孟老師講解得非常清晰:

image.png

(1)linux操作能力:在這里他僅僅提到了操作系統(tǒng)的能力,而我認(rèn)為至少還要理解每一步驟的數(shù)據(jù)結(jié)構(gòu)和意義,以及不同的數(shù)據(jù)能提供給我們的信息。你需要非常努力,才能看起來毫不費(fèi)力。在這里他推薦了羅老師的30個(gè)linux基本操作命令(帶有相應(yīng)的習(xí)題)。
(2)編程能力:這是我一直都未曾掌握的東西,對(duì)于半自助應(yīng)用的我來說,一開始給我的定位就是不需要掌握編程能力,只要學(xué)好linux還有R語言即可。可是會(huì)編程的人用linux和不會(huì)編程的人是完全不同的感覺,在這一點(diǎn)上雖然我不是很著急,但是必須要有所學(xué)習(xí)。這里提到的是Python,C,C++,Java等東西。
(3)統(tǒng)計(jì)能力:這是我也一直忽略的,我認(rèn)為R語言本身就有一套流程,我是用工具的人,我不需要去理解工具是怎么制作的,然而事實(shí)上是,我還得明白工作是怎么運(yùn)作的,以及工具是要如何選擇。因此在后續(xù)方面要保持對(duì)基本統(tǒng)計(jì)學(xué)知識(shí)的掌握。
(4)生物能力:這里我就不談了,作為一個(gè)生物學(xué)基本研究人員,這是必備的素養(yǎng)。

孟老師推薦的半自助學(xué)習(xí)生信流程

半自助的意思是,只是分析數(shù)據(jù)--而后畫圖。全自助是還要在算法等等方法做一系列的努力。


image.png

(1)linux學(xué)習(xí):羅老師3個(gè)文件,1-2天;
(2)統(tǒng)計(jì)學(xué)學(xué)習(xí):《醫(yī)學(xué)統(tǒng)計(jì)學(xué)》漫長3個(gè)月,當(dāng)然他在視頻中還有其他的推薦以及對(duì)統(tǒng)計(jì)學(xué)必備知識(shí)框架;
(3)測序基礎(chǔ):illumia的視頻(我看過不少),但僅僅是視頻是不夠的,這其中還有很多細(xì)節(jié)需要去夯實(shí),大約1周時(shí)間;
(4)選擇1篇文章,重復(fù)結(jié)果。

這里提出:上游幾乎一樣,下游則是對(duì)BAM文件的處理,并且他在知乎上有很多對(duì)于細(xì)節(jié)問題的解答,所以我打算過去看一波


image.png
結(jié)語:怎么說呢,我看生信入門相關(guān)視頻不算多也不算少,在生信的門口徘徊至少也有1年的,當(dāng)然不可以否認(rèn)這一年的努力,而正是這一年的努力,讓我能看得下這樣的教學(xué)視頻,并且可以得到一定的領(lǐng)悟。相信學(xué)習(xí)是一個(gè)緩慢爬坡的過程,總有迷惑的時(shí)候。我們盡量記錄下自己作為小白的心情,希望能為后來的人提供一些幫助,少走一些彎路。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容