最新在线蜜桃av,欧美中文国产

09測序數(shù)據(jù)處理（不是不好就不用，而是要盡可能去處理，挖掘數(shù)據(jù)的價值；即使是好的數(shù)據(jù)也需要處理）---也就是對數(shù)據(jù)進行過濾。

[if !supportLists]1.?[endif]過濾啥（1）非“基因組”本身序列（自身加的4個，adapter接頭；測序引物；barcode;index等）1.1 去adapter反向互補，adapter一般在0.1以下；1.2 去除含N堿基過多的reads(錯配最多5bp reads)，超過10%堿基數(shù)就去掉 ?1.3 去除低質(zhì)量部分如以Q20作為判斷標準（若大于30%，則去掉整條reads） ?如果測序數(shù)據(jù)足夠，不會因為隨機性不好而產(chǎn)生問題，比如基因組有些部分不好測，paired的 reads只要有一個不滿足條件，同時去除兩條reads；去掉reads1與reads2完全一致的片段（DNA中要去除打斷不隨機的duplication，但RNAseq中不能去除，否則會造成豐度丟失。但如果是無參轉(zhuǎn)錄組，拼接時需要去除duplication---即拼接時去除duplication，基因表達定量時保留duplication）----注意RNAseq與DNAseq的區(qū)別。

[if !supportLists]2.?[endif]低表達基因如果比較多，為了不影響定量，可以截短reads進行比對,如果測序量足夠多，影響不大。

[if !supportLists]3.?[endif]數(shù)據(jù)處理原則：（1）不要求100%精確，原則是不影響后續(xù)分析（2）可以根據(jù)最終結(jié)果，重新過濾數(shù)據(jù)

10 RNAseq測序FAQ

[if !supportLists]1.?[endif]RNAseq相比于其他方法的優(yōu)勢（1.可以直接測定每個轉(zhuǎn)錄本序列、單核苷酸分辨率，低噪音 2.靈敏度高，可以檢測細胞中至少幾個拷貝的稀有轉(zhuǎn)錄本 3.可以對任意物種進行全基因組分析，無需預先設計探針 4.檢測范圍廣，能同時定量檢測稀有轉(zhuǎn)錄本與正常轉(zhuǎn)錄本）

[if !supportLists]2.?[endif]不同測序平臺RNAseq測序的比較 （1. ?454與Pacbio可以測全長，但是豐度低，成本高2.illumina與ion Torrent無法測序全長轉(zhuǎn)錄本，但數(shù)據(jù)量大，成本低；適合高通量RNAseq測序）

[if !supportLists]3.?[endif]mRNA的純化分離方法（1.真核生物：磁珠富集或消除rRNA 2.原核生物：只能消除rRNA; 3宏基因組樣品：分別去除真核rRNA與原核rRNA）

[if !supportLists]4.?[endif]轉(zhuǎn)錄組測序有什么樣的樣品要求：1.樣品純度（OD值應在1.8-2.2之間；電泳檢測28S：18S至少大于1.8） 2.樣品濃度：總RNA濃度不低于400ng/ug，采用Truseq微量轉(zhuǎn)錄建庫策略，樣品量可以稍微小一些，200ng也可以。

[if !supportLists]5.?[endif]如何選擇反轉(zhuǎn)錄引物（1.oligo dT引物（引物擴增片段長度偏短，且偏向3’端問題，不利于序列識別和分析） 2.隨機引物：由于實驗之前已經(jīng)采用oligo dT微磁珠進行純化，因此反轉(zhuǎn)錄只能采用隨機引物進行cDNA的合成））----隨機引物能夠讀到更多的CDS信息，而oligo dT引物只能讀到更多的3’端信息，隨機引物的妙用啊***原來如此，否則怎么可能讀的了這么多基因呢，要讀就隨機引物來反轉(zhuǎn)錄了。只能隨機引物---反轉(zhuǎn)錄。

[if !supportLists]6.?[endif]FFPE樣品建庫測序（福爾馬林石蠟包埋，珍貴樣品，F(xiàn)FPE樣本的DNA容易發(fā)生嚴重的降解、損傷、分子或生物學修飾，因此從這種樣品中獲得完整樣品具有一定的難度，這需要找可信的廠家去做）

11 RNAseq有無參考序列的差別

[if !supportLists]1.?[endif]（將高通量的reads比對到參考序列中是最重要的步驟，后續(xù)所有結(jié)果都是基于此分析的。參考序列數(shù)據(jù)越準確越好，理論上用自身的作為參考最好，但是很難達到；通常用同一物種的全基因組序列）因為同一種物種之間的全基因組數(shù)據(jù)都存在很大的區(qū)別（單大腸桿菌都可以由4.5M到5.7M）

[if !supportLists]2.?[endif]參考序列的影響（舉例Query中的5204個基因，參考序列4140個基因）

[if !supportLists]3.?[endif]RNAseq分類（1.有參考序列的RNAseq ??2.無參考序列的RNAseq Denovo）

[if !supportLists]4.?[endif]有無參考序列的差別（1.新轉(zhuǎn)錄本 2.可變剪切 3.基因融合 4.SNP 5.InDel 6.RNA編輯均在Denovo中無法進行，因為需要已知的參考基因組和染色體信息---結(jié)構(gòu)相關的信息分析在Denovo分析中均無法進行。）

12真核與原核RNAseq的差別

[if !supportLists]1.?[endif]原核生物是指沒有成形的細胞核或線粒體的一類單細胞生物，主要包括三菌三體。

[if !supportLists]2.?[endif]區(qū)別（1原核沒有成熟的細胞核（2基因組通常比較小，一般小于10M.大部分在4-5M （3通常只有1條染色體（4GCf范圍大，以25%-70%都存在（5基因組組成比較簡單，基因去占大部分，通常80%以上，重復序列少（5遺傳信息連續(xù)，無內(nèi)含子（6轉(zhuǎn)錄生成的mRNA加工成熟之后3‘端沒有polyA尾巴

[if !supportLists]3.?[endif]原核RNA seq的特點（1.結(jié)構(gòu)上可變剪切、基因融合、雜盒一般不存在，不用考慮；2.3’端不存在polyA尾，不能用磁珠富集；3對于原核生物通?？梢哉业浇磪⒖夹蛄杏糜赗NAseq分析4.基因之間可能存在overlap 5.具有操作子結(jié)構(gòu)）原核生物在基因組上有比較大的差別，注意參考序列要特別注意，一定要選擇最近源的----真核生物還好，影響沒那么大。

13 參考序列

[if !supportLists]1.?[endif]參考序列的要求（1.與測序樣品比較近（同）源；2.參考序列本身越完整越好（目前很多基因組還是草圖水平，還不能包含基因組上所有的信息。一個好的參考序列最好擁有完整的參考基因組，每條染色體區(qū)分開，才能檢測基因融合，而且參考序列染色體完整，才能識別鏈特異性；物種基因信息完整，才能知道是否表達了，否則比對不上） 3.注釋信息全面 4.文件格式要規(guī)范（因為有些軟件需要特定的格式，否則需要不停地轉(zhuǎn)換））

[if !supportLists]2.?[endif]參考序列（1.fasta格式地序列文件 2.包含轉(zhuǎn)錄本信息的GTF文件（包含基因與轉(zhuǎn)錄本信息，里面可以告訴你哪些是內(nèi)含子，哪些是外顯子） 3.包含轉(zhuǎn)錄本信息的BED文件） ?----如果想要下載所屬物種的參考序列，請進入UCSC網(wǎng)站

[if !supportLists]3.?[endif]下載：UCSC---->Download---->Genome Data---->選物種 ?；此外可以利用rsync遠程同步下載，好處在于可以遠程同步，當服務端對文件進行更新后，無需下載，直接替換更新即可。

[if !supportLists]4.?[endif]UCSC genome Bioinfomatics中下載GTF文件與BED文件，下載相應物種序列，本身不含GTF文件，需要轉(zhuǎn)換。人常用hg19與hg18

[if !supportLists]5.?[endif]王老師展示了如何下載人基因組參考序列數(shù)據(jù)的的下載。

14 GTF與BED文件格式（都是用來存儲轉(zhuǎn)錄本信息的）

[if !supportLists]1.?[endif]GTF文件ls -S查看下每列內(nèi)容具體如下---（內(nèi)包括基因所處位置，來源，功能，對應reads信息，p值（可以是基因預測的內(nèi)容），正反向鏈，最后一列為屬性選項）-----不同GTF文件，屬性內(nèi)容有很大差別

[if !supportLists]2.?[endif]另外一種存儲轉(zhuǎn)錄本信息的格式---BED格式（BED行有三列必須的，九列可選的，第一列是所屬染色體）一個轉(zhuǎn)錄本為一行（一個基因?qū)鄠€轉(zhuǎn)錄本，可見一個基因?qū)鄠€轉(zhuǎn)錄本）

15 Bowtie比對（比對速度快，常用于RNAseq分析之中）

[if !supportLists]1.?[endif]利用Bowtie比對，將Tophat加cuplink組合分析RNAseq數(shù)據(jù)，（Bowtie與Tophat屬于同一個作者，Tophat大量借鑒Bowtie）Bowtie1適用于50bp以內(nèi)，Bowtie2適用50bp以上，單有些平臺不能使用

[if !supportLists]2.?[endif]unzip 解壓縮

[if !supportLists]3.?[endif]比對具體過程：bowtie2 -x(索引文件)

bowtie2-build -f reference/lamba_virus.fa(索引建立)

bowtie2 -x lambda_virus -l re

bowtie2 -x lambda_virus -l reads/reads_1.fq -2 reads/reads_2.fq -S bowtie.sam（-S接輸出文件結(jié)果）

le bowtie.sam（輸出項目格式），可以利用samtools進行處理

16 sam文件格式

[if !supportLists]1.?[endif]sam是一種序列比對格式標準，全稱是（The sequence Alignment/Map(SAM) format），由sanger制定。是以TAB為文本分隔符。主要用于測序序列maping到基因組上的結(jié)果表示，當然也可以表示任意的多重比對結(jié)果。其二進制的形式是Bam格式

[if !supportLists]2.?[endif]短序列比對需要記錄的信息

（1 pair-end比對還是single比對

（2 一對一比對還是一對多比對

（3 有無錯配比對

（4具體比對到哪條參考序列

（5比對的具體位置信息以及具體比對細節(jié)

（7具體哪發(fā)生了錯配、刪除與插入

[if !supportLists]3.?[endif]less -S all.sam（文件相對較小可以打開）；bam文件比較大，不能夠打開（會刷屏）注釋信息--@啥

[if !supportLists]4.?[endif]sam 12行，每行包括12列，從左到右第二列是flag標記，標記信息可以通過（-1 -2 -4 -8等來反映）第五列maping的匹配值第六列CIGAR字符串如37M1D2M1I（M-匹配；D-刪除；I-插入）第7列：read序列在參考序列上的名稱第8列read序列在參考序列的位置第九列：估計片段的長度第十列：reads序列 11：ASCII質(zhì)量值 12：比對的的具體細節(jié) AS:i 匹配的得分 XS：i第二好的匹配得分

17 samtools（比對產(chǎn)生的數(shù)據(jù)為sam或bam格式，需要samtools進行后續(xù)處理）

[if !supportLists]1.?[endif]samtools能夠進行sam與bam文件的格式轉(zhuǎn)換，結(jié)果排序，覆蓋度統(tǒng)計，變異檢測等功能。

[if !supportLists]2.?[endif]samtools是一類非常重要的軟件，學生信必須掌握，可以從samtools官網(wǎng)網(wǎng)頁上進行下載，作者以0.1.19版本進行展示（建議下載最新版本）

[if !supportLists]3.?[endif]tar- xjvf samtools-0.1.19.tar.bz2^C(注意王老師更喜歡本地下載，然后解壓縮安裝)（聽課思考我覺得開一門RNAseq的課先講其所涉及內(nèi)容的二級結(jié)構(gòu)（它是誰，有什么用，為什么要用它）以及整個流程顯得效果會更加好。---自身可以多思考進行整理下）

cd samtools-0.1.19./ （進入） ??ll（查看） le INSTALL (準備安裝) ?make ^C(安裝前進行變異)

如果報錯缺乏相應zlip.的文件，則需要安裝相應的zlip庫

[if !supportLists]4.?[endif]安裝完成之后，目錄中會有samtools文件，此外還會有bcftools文件目錄example目錄下有測試數(shù)據(jù) misc/文件下有很多小工具，主要是用于文件格式轉(zhuǎn)換等啥的

[if !supportLists]5.?[endif]示例SAM轉(zhuǎn)換為二進制的BAM（省內(nèi)存以及有的軟件要求如此）（多查看help文檔）

samtools view -bS test/all.sam -o all.bam ?(轉(zhuǎn)換 -o是輸出文件) samtools sort（排序，通常按染色體位置進行排序）

為了提高比對效率，有時會將測序數(shù)據(jù)與每條染色體進行比對，比對之后會生成多個Sam格式的結(jié)果，這個時候就能使用merge選項來進行合并； depth是用來進行覆蓋文件深度的計算，必須是排序后的結(jié)果 samtools tview （能夠以文本的選項進行查看，但要求先進行排序，然后還需要先建立一個索引samtools index ref.fna，最后samtools tview后面接排序好的bam文件即可查看）samtools mphileup （內(nèi)含多種參數(shù)，特別注意SNP/INDEL參數(shù)的使用，會將每個位點的比對細節(jié)信息進行整理，一般會配合bcftools進行檢測）如何使用samtools進行結(jié)構(gòu)變異的檢測 ?(了解samtools的功能與參數(shù)可以通過help文檔)

18 tophat比對工具（一）

1.RNAseq中必須掌握的工具，可以將RNAseq數(shù)據(jù)進行快速剪接映射的程序，它使用了超快的高通量短序列比對用法，將RNAseq比對到的reads比對到參考基因組上，然后分析映射結(jié)果來鑒定外顯子鑒定時的剪接點。tophat與Bowtie均屬于馬里蘭大學同一作者開發(fā)的。

Tophat需要首先使用Bowtie來進行沒有切分reads的比對，之后將沒有比對上的reads進行spliced切割的方法進行比對，這些沒有比對上的reads有些是因為來自不同的外顯子，發(fā)生了可變剪切；利用Bowtie無法比對上，所以必須使用tophat才能夠進行比對

作者建議下載編譯好的版本，解壓縮之后就能夠使用了。

[if !supportLists]3.?[endif]tophat使用源碼編譯會稍微復雜一些，需要安裝bowtie1,bowtie2,samtools等，如果不需要開源碼，只使用tophat工具，建議直接下載編譯好的版本

（注tophat需要調(diào)用bowtie等進行比對，所以用tophat必須存在bowtie，這就是所謂的依賴關系）

[if !supportLists]4.?[endif]作者下載了最新版本軟件進行安裝（可以將相應軟件存放到bin目錄下，也可以將其放到自身建立的文件夾下，但要將這個目錄寫到自身的fastrc文件中，添加到path路徑中）：

（1 tophat使用與bowtie類似，注意它的建立索引是以bowtie建立索引，tophat1對應bowtie1，tophat2對應bowtie2

（2tophat常用參數(shù)介紹 -o輸出，內(nèi)含各種參數(shù)，按序輸入 -G（要輸入GTF文件，若設置了該參數(shù)，tophat則先提取轉(zhuǎn)錄組序列，然后從bowtie2將reads比對到提取的轉(zhuǎn)錄組數(shù)據(jù)中。所以不能比對上的reads再比對到Genome,比對到的reads再打斷，再融合相應的junction進行輸出-----不了解基因融合檢測）文件最好使用GTF文件。--solexxa -quals（使用solexa格式的文件合適，也就是solid平臺產(chǎn)生對應的Phread64,但是目前多用Phread33），一般為提高比對效率，會用多線程進行處理。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

2021-12-12轉(zhuǎn)錄組分析（四）--王通老師講解

2021-12-12轉(zhuǎn)錄組分析（四）--王通老師講解

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

2021-12-12轉(zhuǎn)錄組分析（四）--王通老師講解

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av