生信小白第11天-质控第二部
今天是生信星球陪你的第11天
你想找辆共享单车,发现满街都是别家车,没有一辆你能骑。
你想学点生信,搜了“初学者教程”,满眼尽是高大上,没有一句能看懂。
终于你跨越茫茫宇宙,来到生信星球,发现了初学者的新大陆!
前两天的海岛游让豆豆和花花放松了一下,接下来准备投入学习咯!为了心中的一个理想生活,拼一下~ 你问我家在向何方,我指着海岛的方向。
我们之前已经大概了解了质控的框架,包括原始数据如何质控,质控的意义,今天呢,我们来再次探讨一下质控中的种种解释。 [p.s. 很抱歉今天在火车上由于网络不好,不能放图解说]
我们使用fastqc得到的结果包括以下几部分:
-
Basic Statistics 基本统计
(我们通过看Encoding这一项能够知道数据采用何种方式编码:现在Illumina测序都采用了Phred33,因此会显示Illumina 1.8 +; 另外一般在它之前还显示Sanger是因为Sanger也是用的Phred 33模式)
(我们也可以看到测序的reads数,序列长度,GC含量主要信息) -
Per base sequence quality 每个位置的碱基质量情况
(给我们一个直观的描述质量情况,但是要注意哦~这里显示的并不是一条read的情况,而是全部的综合描述) -
Per sequence quality scores reads每个碱基平均质量频率分布
(只要大部分大于20就比较正常,一般比较好用的测序结果要求Q20 > 95%, Q30 > 85%) -
Per base sequence content 每个位置上碱基比例分布
(小伙伴们都知道AT, CG配对吧,所以每个区间上的A应该接近T,C应该接近G,有差别的话也不能超过1%) -
Per sequence GC content read的GC含量频率分布
(我们测序的操作是啥,不就是将DNA随机打断?所以测序越随机测的就越准确。GC含量就能够反应这一点。人类的GC含量一般为40%左右,如果发现了明显的偏差,那么就说明测序中有一些序列被反复测了太多次~这不行啊!让其他群众有意见啊!这样一来,下面的变异检测就要受到影响哦) -
Per base N content 每个位置碱基是N的数量
(测序仪面对碱基,一脸懵懵的时候就是N,一般N在开头数量还是蛮多的,毕竟测序仪刚开始接触ATCG有点陌生) -
Sequence length distribution 长度分布
-
Sequence duplication levels 序列重复
-
Overrepresented sequences
-
Adapter content 接头含量
(接头是测序是构建测序文库的时候加上的,目的有两个,一是能够带着目的测序序列结合到flowcell上,二是能在同时测定量大的起到区分的作用。当我们测的长度超过了待测片段长度时,位于待测片段两侧的接头就会被测到,这种情况多出现在RNA测序,因为RNA测序片段比较短) -
Kmer content Kmer含量
补充一点小福利:在这个颜值担当的年代,如果你不喜欢fastqc的粗糙,试下multiqc 咯?比较美观,可以多组数据比较,图片还能直接保存。具体安装及使用当个小练习 ~ 祝你玩的愉快
虽然接头和低质量碱基有影响,但是我们有工具啊,不怕!后面教你如何去除~
初学生信,很荣幸带你迈出第一步~
我们是生信星球,一个不拽术语、说人话的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com~
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!