09測序數(shù)據(jù)處理(不是不好就不用,而是要盡可能去處理,挖掘數(shù)據(jù)的價值;即使是好的數(shù)據(jù)也需要處理)---也就是對數(shù)據(jù)進行過濾。
[if !supportLists]1.?[endif]過濾啥(1)非“基因組”本身序列(自身加的4個,adapter接頭;測序引物;barcode;index等)1.1 去adapter反向互補,adapter一般在0.1以下;1.2 去除含N堿基過多的reads(錯配最多5bp reads),超過10%堿基數(shù)就去掉 ?1.3 去除低質(zhì)量部分如以Q20作為判斷標準 (若大于30%,則去掉整條reads) ?如果測序數(shù)據(jù)足夠,不會因為隨機性不好而產(chǎn)生問題,比如基因組有些部分不好測,paired的 reads只要有一個不滿足條件,同時去除兩條reads;去掉reads1與reads2完全一致的片段(DNA中要去除打斷不隨機的duplication,但RNAseq中不能去除,否則會造成豐度丟失。但如果是無參轉(zhuǎn)錄組,拼接時需要去除duplication---即拼接時去除duplication,基因表達定量時保留duplication)----注意RNAseq與DNAseq的區(qū)別。
[if !supportLists]2.?[endif]低表達基因如果比較多,為了不影響定量,可以截短reads進行比對,如果測序量足夠多,影響不大。
[if !supportLists]3.?[endif]數(shù)據(jù)處理原則:(1)不要求100%精確,原則是不影響后續(xù)分析 (2)可以根據(jù)最終結(jié)果,重新過濾數(shù)據(jù)
10 RNAseq測序FAQ
[if !supportLists]1.?[endif]RNAseq相比于其他方法的優(yōu)勢(1.可以直接測定每個轉(zhuǎn)錄本序列、單核苷酸分辨率,低噪音 2.靈敏度高,可以檢測細胞中至少幾個拷貝的稀有轉(zhuǎn)錄本 3.可以對任意物種進行全基因組分析,無需預先設計探針 4.檢測范圍廣,能同時定量檢測稀有轉(zhuǎn)錄本與正常轉(zhuǎn)錄本)
[if !supportLists]2.?[endif]不同測序平臺RNAseq測序的比較 (1. ?454與Pacbio可以測全長,但是豐度低,成本高2.illumina與ion Torrent無法測序全長轉(zhuǎn)錄本,但數(shù)據(jù)量大,成本低;適合高通量RNAseq測序)
[if !supportLists]3.?[endif]mRNA的純化分離方法 (1.真核生物:磁珠富集或消除rRNA 2.原核生物:只能消除rRNA; 3宏基因組樣品:分別去除真核rRNA與原核rRNA)
[if !supportLists]4.?[endif]轉(zhuǎn)錄組測序有什么樣的樣品要求:1.樣品純度(OD值應在1.8-2.2之間;電泳檢測28S:18S至少大于1.8) 2.樣品濃度:總RNA濃度不低于400ng/ug,采用Truseq微量轉(zhuǎn)錄建庫策略,樣品量可以稍微小一些,200ng也可以。
[if !supportLists]5.?[endif]如何選擇反轉(zhuǎn)錄引物(1.oligo dT引物(引物擴增片段長度偏短,且偏向3’端問題,不利于序列識別和分析) 2.隨機引物:由于實驗之前已經(jīng)采用oligo dT微磁珠進行純化,因此反轉(zhuǎn)錄只能采用隨機引物進行cDNA的合成))----隨機引物能夠讀到更多的CDS信息,而oligo dT引物只能讀到更多的3’端信息,隨機引物的妙用啊***原來如此,否則怎么可能讀的了這么多基因呢,要讀就隨機引物來反轉(zhuǎn)錄了。只能隨機引物---反轉(zhuǎn)錄。
[if !supportLists]6.?[endif]FFPE樣品建庫測序(福爾馬林石蠟包埋,珍貴樣品,F(xiàn)FPE樣本的DNA容易發(fā)生嚴重的降解、損傷、分子或生物學修飾,因此從這種樣品中獲得完整樣品具有一定的難度,這需要找可信的廠家去做)
11 RNAseq有無參考序列的差別
[if !supportLists]1.?[endif](將高通量的reads比對到參考序列中是最重要的步驟,后續(xù)所有結(jié)果都是基于此分析的。參考序列數(shù)據(jù)越準確越好,理論上用自身的作為參考最好,但是很難達到;通常用同一物種的全基因組序列)因為同一種物種之間的全基因組數(shù)據(jù)都存在很大的區(qū)別(單大腸桿菌都可以由4.5M到5.7M)
[if !supportLists]2.?[endif]參考序列的影響(舉例Query中的5204個基因,參考序列4140個基因)
[if !supportLists]3.?[endif]RNAseq分類 (1.有參考序列的RNAseq ??2.無參考序列的RNAseq Denovo)
[if !supportLists]4.?[endif]有無參考序列的差別(1.新轉(zhuǎn)錄本 2.可變剪切 3.基因融合 4.SNP 5.InDel 6.RNA編輯均在Denovo中無法進行,因為需要已知的參考基因組和染色體信息---結(jié)構(gòu)相關的信息分析在Denovo分析中均無法進行。)
12真核與原核RNAseq的差別
[if !supportLists]1.?[endif]原核生物是指沒有成形的細胞核或線粒體的一類單細胞生物,主要包括三菌三體。
[if !supportLists]2.?[endif]區(qū)別(1原核沒有成熟的細胞核 (2基因組通常比較小,一般小于10M.大部分在4-5M (3通常只有1條染色體 (4GCf范圍大,以25%-70%都存在(5基因組組成比較簡單,基因去占大部分,通常80%以上,重復序列少(5遺傳信息連續(xù),無內(nèi)含子(6轉(zhuǎn)錄生成的mRNA加工成熟之后3‘端沒有polyA尾巴
[if !supportLists]3.?[endif]原核RNA seq的特點(1.結(jié)構(gòu)上可變剪切、基因融合、雜盒一般不存在,不用考慮;2.3’端不存在polyA尾,不能用磁珠富集;3對于原核生物通??梢哉业浇磪⒖夹蛄杏糜赗NAseq分析4.基因之間可能存在overlap 5.具有操作子結(jié)構(gòu))原核生物在基因組上有比較大的差別,注意參考序列要特別注意,一定要選擇最近源的----真核生物還好,影響沒那么大。
13 參考序列
[if !supportLists]1.?[endif]參考序列的要求(1.與測序樣品比較近(同)源;2.參考序列本身越完整越好(目前很多基因組還是草圖水平,還不能包含基因組上所有的信息。一個好的參考序列最好擁有完整的參考基因組,每條染色體區(qū)分開,才能檢測基因融合,而且參考序列染色體完整,才能識別鏈特異性;物種基因信息完整,才能知道是否表達了,否則比對不上) 3.注釋信息全面 4.文件格式要規(guī)范(因為有些軟件需要特定的格式,否則需要不停地轉(zhuǎn)換))
[if !supportLists]2.?[endif]參考序列(1.fasta格式地序列文件 2.包含轉(zhuǎn)錄本信息的GTF文件(包含基因與轉(zhuǎn)錄本信息,里面可以告訴你哪些是內(nèi)含子,哪些是外顯子) 3.包含轉(zhuǎn)錄本信息的BED文件) ?----如果想要下載所屬物種的參考序列,請進入UCSC網(wǎng)站
[if !supportLists]3.?[endif]下載:UCSC---->Download---->Genome Data---->選物種 ?;此外可以利用rsync遠程同步下載,好處在于可以遠程同步,當服務端對文件進行更新后,無需下載,直接替換更新即可。
[if !supportLists]4.?[endif]UCSC genome Bioinfomatics中下載GTF文件與BED文件,下載相應物種序列,本身不含GTF文件,需要轉(zhuǎn)換。人常用hg19與hg18
[if !supportLists]5.?[endif]王老師展示了如何下載人基因組參考序列數(shù)據(jù)的的下載。
14 GTF與BED文件格式(都是用來存儲轉(zhuǎn)錄本信息的)
[if !supportLists]1.?[endif]GTF文件ls -S查看下 每列內(nèi)容具體如下---(內(nèi)包括基因所處位置,來源,功能,對應reads信息,p值(可以是基因預測的內(nèi)容),正反向鏈,最后一列為屬性選項)-----不同GTF文件,屬性內(nèi)容有很大差別
[if !supportLists]2.?[endif]另外一種存儲轉(zhuǎn)錄本信息的格式---BED格式 (BED行有三列必須的,九列可選的,第一列是所屬染色體)一個轉(zhuǎn)錄本為一行(一個基因?qū)鄠€轉(zhuǎn)錄本,可見一個基因?qū)鄠€轉(zhuǎn)錄本)
15 Bowtie比對(比對速度快,常用于RNAseq分析之中)
[if !supportLists]1.?[endif]利用Bowtie比對,將Tophat加cuplink組合分析RNAseq數(shù)據(jù),(Bowtie與Tophat屬于同一個作者,Tophat大量借鑒Bowtie)Bowtie1適用于50bp以內(nèi),Bowtie2適用50bp以上,單有些平臺不能使用
[if !supportLists]2.?[endif]unzip 解壓縮
[if !supportLists]3.?[endif]比對具體過程:bowtie2 -x(索引文件)
bowtie2-build -f reference/lamba_virus.fa(索引建立)
bowtie2 -x lambda_virus -l re
bowtie2 -x lambda_virus -l reads/reads_1.fq -2 reads/reads_2.fq -S bowtie.sam(-S接輸出文件結(jié)果)
le bowtie.sam(輸出項目格式),可以利用samtools進行處理
16 sam文件格式
[if !supportLists]1.?[endif]sam是一種序列比對格式標準,全稱是(The sequence Alignment/Map(SAM) format),由sanger制定。是以TAB為文本分隔符。主要用于測序序列maping到基因組上的結(jié)果表示,當然也可以表示任意的多重比對結(jié)果。 其二進制的形式是Bam格式
[if !supportLists]2.?[endif]短序列比對需要記錄的信息
(1 pair-end比對還是single比對
(2 一對一比對還是一對多比對
(3 有無錯配比對
(4具體比對到哪條參考序列
(5比對的具體位置信息以及具體比對細節(jié)
(7具體哪發(fā)生了錯配、刪除與插入
[if !supportLists]3.?[endif]less -S all.sam(文件相對較小可以打開);bam文件比較大,不能夠打開(會刷屏)注釋信息--@啥
[if !supportLists]4.?[endif]sam 12行,每行包括12列,從左到右第二列是flag標記,標記信息可以通過(-1 -2 -4 -8等來反映)第五列maping的匹配值 第六列CIGAR字符串如37M1D2M1I(M-匹配;D-刪除;I-插入)第7列:read序列在參考序列上的名稱 第8列read序列在參考序列的位置 第九列:估計片段的長度 第十列:reads序列 11:ASCII質(zhì)量值 12:比對的的具體細節(jié) AS:i 匹配的得分 XS:i第二好的匹配得分
17 samtools(比對產(chǎn)生的數(shù)據(jù)為sam或bam格式,需要samtools進行后續(xù)處理)
[if !supportLists]1.?[endif]samtools能夠進行sam與bam文件的格式轉(zhuǎn)換,結(jié)果排序,覆蓋度統(tǒng)計,變異檢測等功能。
[if !supportLists]2.?[endif]samtools是一類非常重要的軟件,學生信必須掌握,可以從samtools官網(wǎng)網(wǎng)頁上進行下載,作者以0.1.19版本進行展示(建議下載最新版本)
[if !supportLists]3.?[endif]tar- xjvf samtools-0.1.19.tar.bz2^C(注意王老師更喜歡本地下載,然后解壓縮安裝)(聽課思考我覺得開一門RNAseq的課先講其所涉及內(nèi)容的二級結(jié)構(gòu)(它是誰,有什么用,為什么要用它)以及整個流程顯得效果會更加好。---自身可以多思考進行整理下)
cd samtools-0.1.19./ (進入) ??ll(查看) le INSTALL (準備安裝) ?make ^C(安裝前進行變異)
如果報錯缺乏相應zlip.的文件,則需要安裝相應的zlip庫
[if !supportLists]4.?[endif]安裝完成之后,目錄中會有samtools文件,此外還會有bcftools文件目錄example目錄下有測試數(shù)據(jù) misc/文件下有很多小工具,主要是用于文件格式轉(zhuǎn)換等啥的
[if !supportLists]5.?[endif]示例SAM轉(zhuǎn)換為二進制的BAM(省內(nèi)存以及有的軟件要求如此) (多查看help文檔)
samtools view -bS test/all.sam -o all.bam ?(轉(zhuǎn)換 -o是輸出文件) samtools sort(排序,通常按染色體位置進行排序)
為了提高比對效率,有時會將測序數(shù)據(jù)與每條染色體進行比對,比對之后會生成多個Sam格式的結(jié)果,這個時候就能使用merge選項來進行合并; depth是用來進行覆蓋文件深度的計算,必須是排序后的結(jié)果 samtools tview (能夠以文本的選項進行查看,但要求先進行排序,然后還需要先建立一個索引samtools index ref.fna,最后samtools tview后面接排序好的bam文件即可查看)samtools mphileup (內(nèi)含多種參數(shù),特別注意SNP/INDEL參數(shù)的使用,會將每個位點的比對細節(jié)信息進行整理,一般會配合bcftools進行檢測) 如何使用samtools進行結(jié)構(gòu)變異的檢測 ?(了解samtools的功能與參數(shù)可以通過help文檔)
18 tophat比對工具(一)
1.RNAseq中必須掌握的工具,可以將RNAseq數(shù)據(jù)進行快速剪接映射的程序,它使用了超快的高通量短序列比對用法,將RNAseq比對到的reads比對到參考基因組上,然后分析映射結(jié)果來鑒定外顯子鑒定時的剪接點。tophat與Bowtie均屬于馬里蘭大學同一作者開發(fā)的。
Tophat需要首先使用Bowtie來進行沒有切分reads的比對,之后將沒有比對上的reads進行spliced切割的方法進行比對,這些沒有比對上的reads有些是因為來自不同的外顯子,發(fā)生了可變剪切;利用Bowtie無法比對上,所以必須使用tophat才能夠進行比對
作者建議下載編譯好的版本,解壓縮之后就能夠使用了。
[if !supportLists]3.?[endif]tophat使用源碼編譯會稍微復雜一些,需要安裝bowtie1,bowtie2,samtools等,如果不需要開源碼,只使用tophat工具,建議直接下載編譯好的版本
(注tophat需要調(diào)用bowtie等進行比對,所以用tophat必須存在bowtie,這就是所謂的依賴關系)
[if !supportLists]4.?[endif]作者下載了最新版本軟件進行安裝(可以將相應軟件存放到bin目錄下,也可以將其放到自身建立的文件夾下,但要將這個目錄寫到自身的fastrc文件中,添加到path路徑中):
(1 tophat使用與bowtie類似, 注意它的建立索引是以bowtie建立索引,tophat1對應bowtie1,tophat2對應bowtie2
(2tophat常用參數(shù)介紹 -o輸出,內(nèi)含各種參數(shù),按序輸入 -G(要輸入GTF文件,若設置了該參數(shù),tophat則先提取轉(zhuǎn)錄組序列,然后從bowtie2將reads比對到提取的轉(zhuǎn)錄組數(shù)據(jù)中。所以不能比對上的reads再比對到Genome,比對到的reads再打斷,再融合相應的junction進行輸出-----不了解基因融合檢測)文件最好使用GTF文件。--solexxa -quals(使用solexa格式的文件合適,也就是solid平臺產(chǎn)生對應的Phread64,但是目前多用Phread33),一般為提高比對效率,會用多線程進行處理。