NCBI原始SRA數(shù)據(jù)下載 - 簡(jiǎn)書(shū) (jianshu.com)
SRA數(shù)據(jù)(2)------SRA數(shù)據(jù)處理 - 簡(jiǎn)書(shū) (jianshu.com)
Fastq-dump: 一個(gè)神奇的軟件 - 簡(jiǎn)書(shū) (jianshu.com)
linux中Trimmomatic安裝與使用 - 簡(jiǎn)書(shū) (jianshu.com)
RNA-seq從入門到自閉(Trimmomatic和Fastp) - 簡(jiǎn)書(shū) (jianshu.com)
轉(zhuǎn)錄組數(shù)據(jù)分析前準(zhǔn)備——SRA數(shù)據(jù)下載及整理 - 簡(jiǎn)書(shū) (jianshu.com)
【非模式種轉(zhuǎn)錄組】一、上游分析Linux篇 - 簡(jiǎn)書(shū) (jianshu.com)
下載NCBI的SRA數(shù)據(jù) 詳細(xì)教程 - 知乎 (zhihu.com)
fastq-dump、fasterq-dump和parallel-fastq-dump處理SRA文件的速度比較 - 簡(jiǎn)書(shū) (jianshu.com)
終于搞定了
SRA:sequence read archive
STUDY SAMPLE EXPERIMENT RUN
第一個(gè)字母:
S:NCBI's SRA database
E:EBI's database
D:DDBJ's database
第二個(gè)字母:R read
第三個(gè)字母:
R run
X experiment
S sample
P project/study
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.0.0/sratoolkit.3.0.0-centos_linux64.tar.gz
tar -zxvf sratoolkit.3.0.0-centos_linux64.tar.gz #解壓后就安裝完畢
./sratoolkit.3.0.0-centos_linux64/bin/prefetch -X 60G -O ./ SRR3583049#單個(gè)文件
先去NCBI搜想要的轉(zhuǎn)錄組,全部選中

選擇 Send results to Run selector

選擇想要的轉(zhuǎn)錄組,下載acession list,放到想要的路徑

./sratoolkit.3.0.0-centos_linux64/bin/prefetch --option-file SRR_Acc_List.txt #可以將要下載的SRA放一個(gè)文件里下載
./sratoolkit.3.0.0-centos_linux64/bin/fastq-dump --split-3 --gzip SRR7091488 #sra數(shù)據(jù)轉(zhuǎn)化成fq gzip壓縮數(shù)據(jù)節(jié)省空間
#或者不壓縮
./sratoolkit.3.0.0-centos_linux64/bin/fastq-dump --split-3 ./SRR3583049/ SRR3583049
#批量轉(zhuǎn)化
cat /路徑/SRR_Acc_List.txt | while read line
do
/路徑/bin/fastq-dump --split-3 --gzip /路徑/$line/$line.sra -O /存儲(chǔ)路徑
done
#或者使用parallel-fastq-dump非常快
conda install -c bioconda parallel-fastq-dump
parallel-fastq-dump -t 12 --outdir /路徑/transcriptome --split-3 --gzip -s /路徑/transcriptome/SRR1283218/SRR1283218.sra -T /路徑/tmp/
paired-end格式最好加split-3,這樣一方有另一方?jīng)]有的reads會(huì)單獨(dú)放在一個(gè)文件內(nèi)
下面進(jìn)行轉(zhuǎn)錄組質(zhì)控檢測(cè)
#掛后臺(tái)下載fastqc,安裝
nohup wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.9.zip &
unzip fastqc_v0.11.9.zip
cd /路徑/FastQC/
ls
chmod 700 fastqc
#掛后臺(tái)質(zhì)控
nohup /路徑/FastQC/fastqc -o /路徑/transcriptome -t 6 /路徑/transcriptome/SRR4294733.fastq &
#完整語(yǔ)句
PATH/fastqc -o 輸出目錄 [--(no)extract] -f fastq|bam|sam -c contaminant file seqfile1..seqfileN
#批量fastqc
cd /路徑/transcriptome
ls
ls *gz | xargs /路徑/FastQC/fastqc -t 10
--extract生成的報(bào)告默認(rèn)會(huì)打包成一個(gè)壓縮文件,使用這個(gè)參數(shù)讓程序不打包
-t 程序運(yùn)行的線程數(shù),越多越快
-c 污染物選項(xiàng),輸入文件里面是可能的污染序列
-a 輸入的是測(cè)序的adpater序列信息,不輸入就按通用的評(píng)估
然后是去除接頭,使用trimmomatic,一般用來(lái)處理illumina測(cè)序數(shù)據(jù)
mkdir trimmomatic
cd trimmomatic
wget http://www.usadellab.org/cms/uploads/suppelmentary/Trimmomatic/Trimmomatic-0.38.zip
unzip Trimmomatic-0.38.zip
cd Trimmomatic-0.38
which java
~/miniconda3/bin/java
pwd
~/miniconda3/bin/java -jar /路徑/trimmomatic/Trimmomatic-0.38/trimmomatic-0.38.jar
#單端
~/miniconda3/bin/java -jar /路徑/trimmomatic/Trimmomatic-0.38/trimmomatic-0.38.jar SE -phred33 /路徑/transcriptome/SRR4294733.fastq /路徑/transcriptome/SRR4294733trim.fastq ILLUMINACLIP:/路徑/trimmomatic/Trimmomatic-0.38/adapters/TruSeq3-SE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
#雙端
~/miniconda3/bin/java -jar /路徑/trimmomatic/Trimmomatic-0.38/trimmomatic-0.38.jar PE -threads 10 -phred33 /路徑/transcriptome/SRR16122871_1.fastq.gz /路徑/transcriptome/SRR16122871_2.fastq.gz /路徑/transcriptome/SRR16122871_forward_paired.fastq.gz /路徑/transcriptome/SRR16122871_forward_unpaired.fastq.gz /路徑/transcriptome/SRR16122871_reverse_paired.fastq.gz /路徑/transcriptome/SRR16122871_reverse_unpaired.fastq.gz ILLUMINACLIP:/路徑/trimmomatic/Trimmomatic-0.38/adapters/TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36 HEADCROP:8
#headcrop剪去頭端不合格的堿基,根據(jù)fastqc結(jié)果確定剪去多少
質(zhì)量值體系是Phred33還是Phred64,默認(rèn)是Phred64,這需要特別注意,因?yàn)槲覀儸F(xiàn)在的測(cè)序數(shù)據(jù)基本都是Phred33的了,所以一定要指定這個(gè)參數(shù)
ILLUMINACLIP: Cut adapter and other illumina-specific sequences from the read.
按照你的數(shù)據(jù)選擇接頭文件列表TruSeq3對(duì)應(yīng)HiSeq和MiSeq
TruSeq2 (as used in GAII machines)
TruSeq3 (as used by HiSeq and MiSeq machines),
SLIDINGWINDOW: Perform a sliding window trimming, cutting once the average quality within the window falls below a threshold.
SLIDINGWINDOW:<windowSize>:<requiredQuality>
對(duì)應(yīng)兩個(gè)參數(shù)窗口大小(堿基數(shù))和對(duì)應(yīng)堿基序列的質(zhì)量。一般就是4和15,沒(méi)必要亂改。除非數(shù)據(jù)質(zhì)量實(shí)在是很差。
LEADING: Cut bases off the start of a read, if below a threshold quality
因?yàn)闄C(jī)器對(duì)初始幾個(gè)序列檢測(cè)不太準(zhǔn),一般默認(rèn)依次把質(zhì)量低于3的堿基切掉
TRAILING: Cut bases off the end of a read, if below a threshold quality
同理,尾部也能切掉,不過(guò)沒(méi)必要。尤其是當(dāng)你數(shù)據(jù)是雙端測(cè)序結(jié)果的時(shí)候
CROP: Cut the read to a specified length
直接從中間切斷丟棄尾部序列,慎用
HEADCROP: Cut the specified number of bases from the start of the read
切掉頭部對(duì)應(yīng)堿基數(shù)并丟棄,同樣,慎用
MINLEN: Drop the read if it is below a specified length
這個(gè)參數(shù)重要也不重要,你需要看一眼你的FastQC結(jié)果,一般讀段都在100 bp左右,這個(gè)時(shí)候默認(rèn)36就好。如果你的讀段是50 bp甚至更短,你就需要修改這個(gè)參數(shù)。改的越低,結(jié)果里就有越多的錯(cuò)誤讀段。