RNA-seq数据call变异
GATK的Best Practices Workflows还介绍了利用RNA数据call variants的方法,大体上跟DNA数据的方法是一样的,但还有一些不同,今天就来介绍一下。
概述

总体上看,流程主要包括mapping、MarkDuplicates、SplitNCigarReads、Base Quality Recalibration、Variant Calling和Variant Filtering这几步
mapping
GATK推荐了STAR的2-pass mode来进行mapping,官方解释说对于RNA的数据来说,STAR提高了SNP、和INDEL的灵敏度,尤其是对于indel。STAR的mapping给出了两种方式,一种是传统的original 2-pass,另外一种是使用–twopassMode Basic参数,一步到位,详细说明可以看官方文档(https://github.com/alexdobin/STAR)。
STAR \
--
genomeDir STAR_index \
--
sjdbGTFfile genome
.
gtf \
--
runThreadN
2
\
--
twopassMode
Basic
\
--
twopass1readsN
-
1
\
--
outSAMtype BAM
SortedByCoordinate
\
--
outSAMattrRGline ID
:
sample SM
:
sample PL
:
sample \
--
readFilesIn sample
.
1.fq
.
gz sample
.
2.fq
.
gz \
--
readFilesCommand zcat \
--
outFileNamePrefix sample
.
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!