生信小白第7天-测序质控
今天是生信星球陪你的第7天
你想找辆共享单车,发现满街都是别家车,没有一辆你能骑。
你想学点生信,搜了“初学者教程”,满眼尽是高大上,没有一句能看懂。
终于你跨越茫茫宇宙,来到生信星球,发现了初学者的新大陆!
前两天我们认识了常用的数据格式和测序原理,那么问题来了:我们刚拿到的“烫手山芋”到底如何能判断是否符合我们的需要呢?今天我们就跟随豆豆来看看,如何对自己的raw data进行质量控制。
1 为何质控
我们已经知道了大多数的测序都是使用化学方法的边合成边测序,那么随着合成链的延伸,聚合酶的效率会下降,错误率会上升,而这种错误率的大小,直接关系到后来我们分析的准确程度。
质量控制相当于数据分析流水线上的第一个环节,源头把关不好,之后的产品会出现参差不齐的质量,极其不稳定~ 结果好不好,质控很重要!!
2 软件安装
我们来复习下如何安装软件吧:
利用conda自动安装fastqc, 直接conda install fastqc
,它会自动把fastqc依赖的java安装好,并且自动配置了环境变量;
如果自己喜欢DIY,不喜欢自己的环境变量被conda污染,那么可以
首先新建文件夹mkdir fastqc && cd fastqc
,放哪里看自己心情咯 – ->
然后去下载https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip
再修改权限chmod 755 fastqc
一般服务器的java是配置好的,如何检查?java -version
如果自己的目录中没有,服务器其他目录中也会有,拷贝到自己的环境变量就好cp xxx的java ~/.bashrc
。如果自己有root权限可以自己安装,这个教程这里先不展开,有需要的自行搜索。
3 如何操作
假设你已经将fastqc加入了环境变量,接下来就很简单:
fastqc raw.fq -o qc_out_dir
意思就是对那个raw数据质控,结果输出到qc_out_dir
输出的结果主要看那个html网页:打开后长这样
这里只列出了一小部分,我们主要关心的是接头序列有没有去除,低质量序列多不多等…
具体的解释下回分解~
初学生信,很荣幸带你迈出第一步~
我们是生信星球,一个不拽术语、说人话的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com~
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!