本文最后更新于99 天前,其中的信息可能已经过时,如有错误请发送邮件到wuyk@163.com
测序原始数据下机后,是带有接头的数据,我们可以通过fastqc查看测序原始数据的质量
#fastqc质控
fastqc WF2-2_R1.fq.gz
fastqc WF2-2_R2.fq.gz
会分别输出R1和R1的质控html文件
质控合格后,我们用fastp去除低质量的接头
#fastq进行过滤,-i和-I分别是测序数据的两端数据,-o和-O分别是过滤后的测序数据
fastp -i WF2-2_R1.fq.gz -I WF2-2_R2.fq.gz -o WF2-2.R1.fq.ft.gz -O WF2-2.R2.fq.ft.gz
拿到去除低质量接头的测序数据后,我们通过hisat2将其转换成sam文件,再用samtools转换成bam文件
#第一步,建立索引,输入文件为参考基因组的序列文件,输出为索引文件
hisat2-build 02-12.genome.fa 02-12.index
#将测序数据比对成sam文件
hisat2 -x 02-12.index -1 WF2-2.R1.fq.ft.gz -2 WF2-2.R2.fq.ft.gz -S WF2-2.sam
#将sam文件转换成bam文件
samtools view -bS WF2-2.sam > WF2-2.out.bam
#对bam文件进行排序
samtools sort WF2-2.out.bam -o WF2-2.out.sorted.bam
#去除PCR重复
samtools rmdup -S WF2-2.out.sorted.bam WF2-2.out.sorted.rmdup.bam
#获得bam文件的索引bai文件
samtools index WF2-2.out.sorted.rmdup.bam