說明:此篇筆記系2016-2017年由克里克學院與康昱盛主辦的蛋白質組學網(wǎng)絡大課堂整理而成,侵刪。該課程由上海交通大學系統(tǒng)生物醫(yī)學研究院助理研究員庫鑫博士所授。
主要知識點:
- 蛋白定性檢測(續(xù)):搜庫工具、搜庫流程、鑒定結果評估
- 蛋白定量檢測:基于MS1的定量、基于MS2的定量
- 靶向蛋白質組學:SRM/MRM、DIA
蛋白鑒定
搜庫工具
說到搜庫,對于我們使用者來說,其實并不復雜,只需要搞清楚以下五個要素,搜庫就妥妥的了!
1) 蛋白序列數(shù)據(jù)庫:通常是FASTA格式,從公共數(shù)據(jù)庫下載,如果是未知的蛋白,可以從DNA測序的序列翻譯成蛋白;最常用的數(shù)據(jù)庫Uniprot。
2) 特異性酶解:在搜庫時要明確使用的蛋白酶是哪一種,比如最常用的胰蛋白酶(軟件會自動識別它在K或R后面切斷肽段)。如果我們不對酶切位點進行限制,計算機只好把所有的可能都窮盡一遍,產(chǎn)生非常多可能的肽段,不僅運行時間會非常長,而且錯誤匹配的可能性也會高很多。
3) 轉錄后修飾:分兩類,一種叫固定修飾,即在某種氨基酸殘基上一定出現(xiàn)的特定基團修飾,比如加入乙酰化試劑進行乙酰化修飾;另一種叫可變修飾(動態(tài)修飾),就是說某一種氨基酸殘基可能會被某種基因修飾(被修飾的可能性比較大),例如甲硫氨酸的氧化等。
4) 碎片類型:上一篇專門講過,比如CID或HCD碎裂產(chǎn)生by離子,搜索引擎就只按by離子的規(guī)則切割;沒特別的原因,不建議大家再加入其它離子類型,不然會大大延長搜庫時間,還會引入錯誤;如果是ETD碎裂則會產(chǎn)生cz離子,而QTOF會產(chǎn)生ax離子。搜庫軟件通常會根據(jù)我們指定的儀器類型來自動判斷碎片離子的類型。
5) 選擇合適的搜庫軟件:接下來詳聊。
小編明白,大伙兒通常都比較關心用哪款搜庫軟件,能最快最好地解決自己的問題。根據(jù)課堂上學到的內容,小編給大伙兒逐一介紹目前最常用到的搜庫軟件,以及它們各自的特點。
首先出場的是世界上第一款搜庫軟件SEQUEST!雖然幾經(jīng)升級更新,它仍然保留了最初設計時的基本架構,并且仍然被廣泛使用。SEQUEST的思路主要分兩步走:先對匹配結果給出一個預打分,然后再通過全局的評估打出最后得分。目前整合了SEQUEST搜庫方法的軟件還有Proteome Discovery、X!Tandem、Comet等。
第二款軟件是被認為是目前世界上使用最為廣泛的搜庫工具Mascot,由英國Matrix Science公司研發(fā)(www.matrixscience.com,國內的代理商為康昱盛公司)。它與SEQUEST的搜庫算法完全不同,是基于概率的打分。它之所以廣愛歡迎,主要有以下幾個特點:
能給出清楚明了的搜庫結果報告;
對蛋白的鑒定率很高;
可以整合和分析幾乎所有主流的質譜儀器原始數(shù)據(jù);
搜索速度很快。
還有一款開源軟件也值得介紹給大家:X!Tandem。它的打分算法其實與SEQUEST是一樣一樣的,但搜庫速度相當快,近年來用戶數(shù)增長很顯著,感興趣的小伙伴們可以訪問以下網(wǎng)站獲取更多的信息:www.thegpm.org
除了以上三種搜庫軟件,目前我們能看到的類似的工具還有很多很多,比如Comet, OMSSA, InsPecT, MyriMatch, Phenyx, SpectrumMill, ProteinPilot等等。其實這些軟件的處理步驟都是搜庫和打分,但它們所使用的算法思路又各不相同。推薦給大伙兒的做法是,選擇兩個基于不同算法的搜庫軟件,分別進行打分,然后將結果合并,可以得到比單用一種搜庫算法高一些的鑒定結果。
搜庫流程
說到底,搜庫軟件在報告最終的匹配結果之前,到底都做了些什么操作呢?
首先,把質譜儀得到的譜圖輸入搜庫軟件。對于搜庫軟件來說,碎片離子的信息越豐富越好。如果最后給出的搜庫結果不好,建議大伙兒點開二級譜圖檢查一下,是否因為碎片信息太少而造成的,或者是因為二級碎片的intensity太低。
大伙兒要記得,二級碎片的信息主要是用來做蛋白序列信息推導的,如果二級譜圖給我們的信息太少,就很難做出一個好的鑒定結果。二級譜圖質量不高有各種可能的原因,比如樣品本身的原因,或者質譜儀的原因,這個要根據(jù)實際情況來逐一排查。
(對于我們這些小白來說,如果你拿到搜庫軟件只會點點鼠標,那就是入門一級的水平,如果你還會打開二級譜圖查看一番,那就升到二級了_ 這也是為啥雖然并不需要自己寫搜庫軟件,咱們還是要學習一下搜庫原理。)
除了譜圖,還將讀入母離子及電荷狀態(tài)等信息,這些都存儲于RAW文件中,所以我們只需要輸入RAW文件,并指定之前談到的五個變量,就可以開始搜庫了。
搜庫軟件通過以下五步來實現(xiàn)譜圖的正確匹配:
1) 從數(shù)據(jù)庫中選擇分子量與輸入值相等的肽段;
2) 生成理論碎片,并生成理論譜圖;
3) 將實驗譜圖與理論譜圖進行匹配;
4) 對匹配進行打分;
5) 將打分進行排序,通過統(tǒng)計學分析,確定最佳的匹配結果并導出。
來,我們看一張形象點的圖,再來理解一下這五步到底是怎么實現(xiàn)的。
假設我們的譜圖檢測到的是一條1000分子量的肽段,則搜庫軟件首先會在蛋白序列數(shù)據(jù)庫里對所有可能的蛋白序列進行特定位點的酶切(酶切位點由我們指定的特異性酶參數(shù)來決定),然后選出分子量1000左右的肽段,根據(jù)指定的儀器類型,模擬打碎成理論上的碎片離子,然后生成理論譜圖,再與輸入的實際譜圖進行比對,得到一個相似性打分,按得分高低進行排序,最后挑選出匹配結果。
鑒定結果評估
聽上去整個過程并不復雜,對不對?事實上,由于各種因素對搜庫匹配的影響,這里面最重要的問題是,怎么判斷哪些鑒定結果是對的!也就是說,我們需要對匹配結果進行評估。
在過去,評估的大部分工作需要手工完成。下面這個餅圖大伙兒感受一下:整個樣品制備+質譜實驗+數(shù)據(jù)庫搜索只占了25%的時間,而對結果的手工驗證要花掉75%的時間!是不是很可怕!
還好,我們已經(jīng)不用再受這種折磨了,如今的各種搜庫軟件都自帶統(tǒng)計學算法來幫我們進行評估,幸福感頓時提升了好幾個數(shù)量級!
目前主流的統(tǒng)計學評估算法有兩種思路:
target-decoy 也就是通常所說的正庫反庫策略
peptideprophet 基于概率的打分
蛋白定量
為什么要做定量,這個大概不用小編多啰嗦了吧?總之,定量檢測可以研究不同生理狀態(tài)及不同時間點上各種蛋白表達量的變化,研究意義是大大的有啊!
在質譜史前時代,是2D膠的天下。前面也提過,2D膠的通量、準確性以及可重復性都沒法跟質譜比。
說到利用質譜對蛋白進行定量檢測,可以分為基于MS1(一級譜圖)的定量,以及基于MS2的定量。啥意思呢?基于MS1的定量是指根據(jù)一級譜圖的信息得到定量結果,同理,基于MS2的定量是指根據(jù)二級譜圖的信息得到定量結果。聽上去很高深吧?別怕,聽小編逐一給你解釋。
基于MS1的定量
基于MS1的定量方法最早是ICAT(ICAT是標記試劑的名字,這種定量方法現(xiàn)在用得很少了),現(xiàn)在常用的SILAC,以及l(fā)abel free非標記定量。我們來說說SILAC定量策略。
SILAC(Stable Isotope Labeling Strategies)翻譯過來就是穩(wěn)定同位素標記技術,說得簡單一點,就是想辦法把非天然同位素摻到肽段里代替天然同位素,然后計算譜圖里各個同位素的峰面積,其差值就對應著蛋白相對量的變化。
通常呢,我們是利用C13或者N15這類穩(wěn)定的同位素(叫做重標),用培養(yǎng)基或者飼料對細胞或者實驗動物進行培養(yǎng)或喂食。大伙兒應該知道吧,有一類氨基酸叫必需氨基酸,比如Lys和Arg,是生物體自身無法合成的,需要從外界攝入。于是,從外界攝入的過程中,Lys和Arg里包含的C12或N14,就被C13或N15取代了。
妙的是,Lys和Arg又正好是胰蛋白酶的酶切位點,所以它又能保證每條切出來的肽段至少有一個Lys或Arg,也就是說,每條肽段上至少有一個殘基是有同位素標記的,完美!
SILAC的標記效率很高,比如細胞培養(yǎng),通常5、6代以后,同位素標記就有95%左右的比例了。重標標記好后,將沒有同位素標記的樣品(通常叫輕標)與重標的樣品1:1混合,經(jīng)過分離、酶切等步驟,進入質譜檢測。得到的譜圖會有對應的兩個峰,峰面積的差值就是不同樣品中相應蛋白的相對量的變化了。
所以,SILAC定量是一種相對定量方法,我們只能得到兩組樣品之間每種蛋白含量的差異值,而無法知道它們的絕對量。
如果你有三組樣本想要進行SILAC定量,我們可以把C13和N15標記組合一下,比如輕標(不標記)、中標(C13標記)和重標(C13和N15共同標記),然后三組樣品1:1:1混合。
怎么把同位素標記上去這件事情,方法有很多,可以分為代謝同位素標記,化學方法標記,酶反應標記。比如我們剛才舉例的細胞培養(yǎng),就屬于代謝同位素標記,這也是其中最常用的方法;通過化學反應在特別的肽段上加一個基團這種方法叫做化學方法標記;酶切的時候在斷裂位點標記這種方法在酶反應標記(通常使用O18同位素)
剛才小編在講到SILAC定量時,云淡風輕地提到峰面積。有沒有童鞋對“峰面積”到底是什么心存疑惑呢?小編用一張圖告訴你:
上圖是在時間軸上從一級質譜得到的多張譜圖,在荷質比軸上的每一根小柱子代表的是肽段在不同時間點上被檢測到的值,我們用黃色小柱子表示其中一種肽段,將這四個黃色小柱子的頂點連起來,就可以畫出一個峰型,這個峰的面積就是肽段的量(通過若干肽段的量我們可以推出蛋白質的量)。
對這個圖,小編的理解是,假設質譜掃描的速度是無限地快,相當于可以把一個時間段分為無數(shù)個時間點,每個點上都能掃描得到一個值(小柱子),然后在時間軸上把這些值全部加起來(做積分)于是就得到了這個肽段的量。
基于MS2的定量
扯完了基于MS1的定量,我們繼續(xù)扯基于MS2的定量,也就是基于報告離子的定量。在Shotgun領域主流的方法是iTRAQ和TMT,不要被這些名字嚇到,其實就是兩種試劑的名字,而且原理和操作方法都差不多。以iTRAQ為例,先來一張清新的示意圖洗洗眼:
圖的左側就是iTRAQ試劑的分子式,如果你覺得太小了看得不爽,那小編再來貢獻一張更大更簡明的:
大伙兒看懂了嗎?iTRAQ試劑分三個部分:報告離子(就是最終要進入二級質譜進行檢測的)、平衡離子(連接報告離子與反應離子),以及與肽段反應的反應基團。
說起來,這個iTRAQ試劑也是很妙的,它這三個基團里含有一堆同位素,每種同位素的總量是一個固定的值,但具體位置可以變化,主要體現(xiàn)在報告離子上的變化,于是我們可以得到幾種不同的報告離子。
說得詳細點兒,假設(只是假設哈),我們同時用了四個C13,四個N15來標記整個iTRAQ分子,無論這四個C13和四個N15的位置有多么不同,大家總的分子量都是一樣的。但對于報告離子來說,可以有變化,比如第一個報告離子被標記了一個C13,第二個報告離子被標記了一個N15,第三個標記了C13+N15,第四個標注記C13+C13+N15.
由于可以做這樣的位置組合,我們常聽到的iTRAQ“四”標或者“八”標,就是指標記位置的不同組合的數(shù)量。以四標為例,在MS1時就通過iTRAQ試劑中的反應基團將整個iTRAQ試劑標記在肽段上,這里面包含了四種同位素標記的組合,但由于它們總的分子量都相同,對樣品不會產(chǎn)生什么影響。
好,接下來我們將標記好的樣品送入二級質譜,經(jīng)過與惰性氣體的碰撞碎裂,iTRAQ試劑會按它固定的方式將報告離子碎裂出來,于是,四種標記位置不同的iTRAQ試劑碎裂后,得到四種分子量不同的報告離子!將這四種報告離子混合以后得到譜圖,根據(jù)譜峰面積可以推導它們各自標記的肽段的量。是不是很機智的一種方法?
我們還是以四標為例,報告離子的荷質比分別是114,115,116,117,于是,在二級譜圖的110-120的范圍里,我們會看到一個與by離子完全不同的非常高的峰,就像這樣:
這就是iTRAQ方法標志性的峰!把這個峰放大,我們就能清楚地看到四個峰,就是對應的四個通道。像下面這樣:
Tips:
用iTRAQ方法定量的時候,質譜儀的參數(shù)需要根據(jù)試劑碎裂時的碰撞能量進行優(yōu)化,就是說,要將報告離子充分地碎裂出來,才能保證它可以被穩(wěn)定可靠地檢測。
大伙兒如果能基本理解iTRAQ四標的原理,對于iTRAQ八標,TMT六標或者十標,都可以類推了。只需要注意的是,iTRAQ與TMT試劑來不同的質譜儀公司,因此對質譜儀也有選擇性的,大家在選擇到底用哪種標記試劑的時候,除了要考慮標記的樣本數(shù),也要考慮對應的質譜儀品牌和類型了。
靶向蛋白質組學
前面我們聊過了蛋白質組學的定性檢測與定量檢測,接下來我們整點兒更前沿的,代表著未來一個重要發(fā)展方向的東西:靶向蛋白質組學!
話說,在精準醫(yī)學如火如荼的今天,最能代表有機體當下生命狀態(tài)的蛋白質組學,如何大規(guī)模地應用于生物醫(yī)學領域呢?與基因組學相比,蛋白質組學目前的瓶頸到底在什么地方呢?
簡單說來,蛋白質組學的著力點一直是研發(fā)更高通量的技術平臺,發(fā)現(xiàn)更多未知的蛋白。當我們轉身關注生物醫(yī)學領域時才發(fā)現(xiàn),人家并不需要一次檢測上萬個蛋白這么高的通量,但是卻需要在大量的樣本中,高度穩(wěn)定地重復地檢測幾十個幾百個蛋白。
比如說,當我們試圖把蛋白質組學研究手段用于臨床生物標志物的研發(fā)時,走到第二步就卡住了!要在上百個樣本中重復檢測一些候選標志物蛋白質,真的很困難??!
這種困難是什么造成的呢?最重要的原因是,也就是 Shotgun方法的局限性,它只適合檢測高豐度蛋白,含量不夠高的蛋白很容易漏檢,而這些卻往往是真正可能的生物標志物。此處請大家腦補一下小編介紹DDA(數(shù)據(jù)依賴性采集)時提到的,低豐度蛋白進入二級質譜的機會都很少!對于低豐度蛋白,可能出現(xiàn)的結果就是,一會兒檢測到了,一會兒又檢測不到…這叫人怎么忍?
以血液中包含的蛋白為例,大家感受一下,紅色的都是非候選標志物,但含量都非常高。余下的低豐度蛋白我們又搞不定。這么看來,對于臨床應用,蛋白質組學還有希望嗎?
2012年,一種新的方法被nature method選為年度新方法,認為是未來發(fā)展的大趨勢,它的名字就叫靶向蛋白質組學!于是,希望來了~
靶向蛋白質組學技術到底是怎樣的不同?它大體上可以分為幾類:MRM/SRM、PRM、SWATH/DIA。大伙兒就跟著小編來了解一下其中兩種比較有代表性的吧~
SRM/MRM
先來名詞解釋一下:
SRM:Selective Reaction Monitor(選擇反應監(jiān)測),就是先只選擇一個肽段離子,碰撞后,從形成的碎片離子中也只選一個離子,進行檢測。因為兩步都只選單離子,針對性很強,可以排除噪音和干擾的影響。
MRM:Multi Reaction Monitor(多反應監(jiān)測)就是多個化合物同時測定時,多個SRM一起做。不需要特意區(qū)分SRM和MRM,只要一次實驗是同時做幾個SRM,就是MRM方式了。
概括來說,由于MRM/SRM預先選定了需要分析的肽段及碎片離子,而不像之前的方法,眉毛胡子一把抓,這樣可以繞過一級質譜中只能選擇高峰度Tops的標準,從而保證低峰度蛋白可以不受影響。
第一篇MRM/SRM應用的文獻于2009年發(fā)表在CELL上的,對酵母全蛋白組做了精確定量,覆蓋了從1E6 copies/cell 到100 copies/cell的蛋白,無一遺漏,是不是很贊?。–ell 138, 795-806, Auguest21, 2009)
另一個激動人心的應用發(fā)表于2013年,利用MRM/SRM技術成功研發(fā)出肺癌篩選的試劑盒,從371個候選蛋白中選出13個蛋白的panel作為檢測目標。該試劑盒已得到美國FDA批準,在美國上市使用,進入醫(yī)保支付范圍。感興趣的小伙伴們可以找文獻來研讀一下(Sci Transl Med 5, 207ra142, 2013).
還有一種與MRM/SRM很類似的方法,叫PRM。它唯一的不同是,MRM/SRM的母離子和子離子都需要預先選定,而PRM只需要選定母離子,而不需要預選子離子。這是因為PRM是在高精度的Orbitrap質譜儀上做(MRM/SRM是在三重四級桿質譜儀上做),由于精度夠高,可以對多種子離子同時進行準確的測定。由于不需要選定子離子,PRM方法實施起來更容易,而MRM/SRM則需要針對子離子不斷優(yōu)化儀器參數(shù)。
DIA
MRM之類的技術,需要預先選定多肽及肽段離子,那么問題就來了,如果我們想發(fā)現(xiàn)點新的東西呢?我沒法預先選定??!
這種情況下,你需要關注的就是第二種代表性的靶向蛋白質組學技術DIA(data-independent acquisition)了,也就是“數(shù)據(jù)非依賴性采集”策略。
DIA的一個代表性方法叫SWATH技術(由蛋白質組學泰山北斗Ruedi教授所在的蘇黎世聯(lián)邦理工學院與AB SCIENX公司合作將這個方法商業(yè)化)。它的基本思路是:選擇母離子的質荷比m/z在500-900或400-1000左右的范圍內,每25Dal作為一個窗口,比如,先分離500-525這個范圍的肽段,然后碎片化,接下來采集525-550分子量范圍的肽段,依次類推。
DIA的一級質譜可以很均勻地采集每個范圍窗口的肽段,不會有遺漏,不涉及到對母離子的限制性篩選,所以無論是準確性還是可重復性,與DDA相比都得到了很好的提升,前途一片大好!
不過呢,細心一點的童鞋就會發(fā)現(xiàn),DIA一次采集的范圍有25Dal,顯然是很寬的了!這就意味著,每一次放進來的肽段會很多,產(chǎn)生的碎片離子也非常復雜,于是我們會拿到非常復雜的譜圖。
如果用以往的搜庫方法,拿理論譜圖去匹配這么復雜的真實譜圖,很容易漏掉很多信息,準確率沒法保證。怎么辦呢?DIA的策略是,先收集真實的譜圖庫,然后拿實驗譜圖與真實譜圖庫進行比對,來鑒定肽段。
當然啦,即便如此,DIA復雜的譜圖仍然給后續(xù)的數(shù)據(jù)分析和統(tǒng)計學檢驗帶來很多挑戰(zhàn),也激起了各種大神的興趣!在這一兩年的各種蛋白質組學會議上,如果大伙兒留意的話,會發(fā)現(xiàn)對DIA數(shù)據(jù)分析的技術討論是相當?shù)幕馃?!我們也期待著DIA領域的突破和發(fā)展!