感謝關注:oddxix
得到下機數(shù)據(jù)后,我們先要進行數(shù)據(jù)質控,看一下數(shù)據(jù)質量
質量檢測
數(shù)據(jù)質量主要從兩方面去分析:堿基含量分布和堿基質量分布
堿基含量分布
測序的GC含量應該與物種的GC含量相同

縱坐標是堿基分布比,橫坐標是reads從第一位到最后一位,單端reads是90bp。
機器讀不出來或者分辨不出來的就是N堿基。N堿基越少越好
堿基含量分布異常

注:樣品為混合樣品或者測序一次樣品不能夠飽和等原因造成的波動是可以忽視的
堿基質量分布
評價標準




錯誤率和質量值的對應關系

堿基質量分布圖

縱坐標是質量,橫坐標是reads

數(shù)據(jù)質控
在測序過程中會加入額外的序列:adapter接頭、測序引物、barcode、index等
-
去除N堿基過多的reads
-
去duplication
理想的隨機打斷
RNAseq中的duplication不是打斷不隨機造成的,而是由于基因的表達差異。去除duplication會造成豐度信息的丟失,于是在RNAseq定量分析中不能去duplication.但在沒有參考基因組的情況下需要對序列進行拼接,此時又需要去duplication。

不要求100%精確,原則是不影響后續(xù)分析,可以根據(jù)最終結果,重新過濾數(shù)據(jù)

