【轉錄組-4】數(shù)據(jù)質控

感謝關注:oddxix

得到下機數(shù)據(jù)后,我們先要進行數(shù)據(jù)質控,看一下數(shù)據(jù)質量

質量檢測

數(shù)據(jù)質量主要從兩方面去分析:堿基含量分布和堿基質量分布

堿基含量分布

測序的GC含量應該與物種的GC含量相同


縱坐標是堿基分布比,橫坐標是reads從第一位到最后一位,單端reads是90bp。
機器讀不出來或者分辨不出來的就是N堿基。N堿基越少越好

堿基含量分布異常



注:樣品為混合樣品或者測序一次樣品不能夠飽和等原因造成的波動是可以忽視的

堿基質量分布

評價標準





錯誤率和質量值的對應關系


堿基質量分布圖

縱坐標是質量,橫坐標是reads

數(shù)據(jù)質控

  • 在測序過程中會加入額外的序列:adapter接頭、測序引物、barcode、index等

  • 去除N堿基過多的reads


  • 去duplication
    理想的隨機打斷


RNAseq中的duplication不是打斷不隨機造成的,而是由于基因的表達差異。去除duplication會造成豐度信息的丟失,于是在RNAseq定量分析中不能去duplication.但在沒有參考基因組的情況下需要對序列進行拼接,此時又需要去duplication。


不要求100%精確,原則是不影響后續(xù)分析,可以根據(jù)最終結果,重新過濾數(shù)據(jù)

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容