测序数据过滤
今天是生信星球陪你的第74天
你想找辆共享单车,发现满街都是别家车,没有一辆你能骑。
你想学点生信,搜了“初学者教程”,满眼尽是高大上,没有一句能看懂。
终于你跨越茫茫宇宙,来到生信星球,发现了初学者的新大陆!
1.操作顺序
质控—过滤—质控
质控发现了数据有哪些问题,就要把问题数据过滤掉,好的数据还是可以用滴。
2.数据可能存在的问题
(1)低质量-remove/trim
(2)污染–包括adapter/primer污染,细菌污染
(3)duplication
(4)序列太短
3.过滤工具
(1)SOAPnuke
华大开发,内部使用。 设置好参数后,所有的过滤步骤可以一步完成,生成简单的统计报告。
特点:
-
功能强大
-
安装稍复杂
-
有统计结果
-
低质量 remove,不能trim
(现在的测序量大,数据够用,这种方法可行。) -
需要手动输入adapter序列参数
-
快
(2)Trimmomatic(就用它)
-
java 不需要安装
-
低质量trim,保留更多数据
-
自带adapter库
-
不能处理duplication
(3)FASTX-Tookit
功能齐全,可以质控。使用麻烦。
4.使用trimmomatic过滤数据
java -jar trimmomatic-0.35.jar
PE
input_forward.fq.gz input_reverse.fq.gz
output_forward_paired.fq.gz output_forward_unpaired.fq.gz
output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz
ILLUMINACLIP:TruSeq3-PE.fa:2:30:10
LEADING:3
TRAILING:3
SLIDINGWINDOW:4:15
MINLENTH:36
运行:nohup sh x.sh &
可修改处:
-
第一/五行:不在安装目录下处理数据时应改为安装软件的绝对路径
-
第二行:PE是双端测序,如果处理单端测序应改为SE
-
二/三行:输入/输出文件名,可改为自己的文件名
(1)ILLUMINACLIP:
作用:去掉adapter和primer等
命令:ILLUMINACLIP:TruSeq3-PE.fa:2:30:10
指定使用的adapter,存放在adapters目录下,有多个
如何选择adapter库:
方法1:Truseq2 用于早期的GAII machines,TruSeq3用于 HisSeq and MiSeq machines。
方法2:根据FASTqc结果中的overrepresented Sequencece图表最后一列选择。
— Illumina Single End或Illumina Paired End,使用 TruSeq2
— Truseq Universal Adapter TruSeq Adapter,Index ……,使用TruSeq3
(2)SLIDINGWINDOW:4:15
如果连续4个碱基平均质量值低于15,则把这四个碱基去掉,reads变成两条。
另一种策略:maxinfo
reads长度和质量的平衡
做基因组拼接:需要更长的reads
做变异检测:需要更高的质量值,对reads长度要求不高。
eg:MAXINFO:60:0.2
argv1:期望的reads长度
argv2:取值范围0-1之间,代表reads的长度和碱基质量的平衡。
值越小说明需要更长的reads,值越大说明需要更高的质量。
(3)MINLENTH:36
去除小于36bp长度的reads
(4)LEADING:3 TRAILING:3
fastqc结果显示有的序列头部几个碱基质量较差,这个参数的意思是将reads前段/后段质量值低于3的碱基去掉
CROP/HEADCROP:最多保留N个碱基长度,从末尾/头部剪掉多余的碱基。
CROP:100 仅保留前100碱基,从尾部去掉多余的碱基。
5.reads中为何会出现adapter污染
天蓝色:adapter库中的任意序列
深蓝色:我们的序列接头
绿色:有效序列
红色:无效序列
A:adapter完全比对到了一段reads
说明很长一段序列都存在污染,需要remove整条reads
B:adapter部分比对到了reads上
有20个碱基比对到,则污染
只3-4个碱基比对到,则无法判断是污染还是碰巧出现,需要用回文序列验证。
D:测到adapter的原因:序列过短
如果正反义链的3-段都又几个碱基能比对到adapter,说明是污染。
C:测序测到的直接是adapter,整段reads都是污染,叫做空载
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!