Fastqc结果的超详细解读
今天是生信星球陪你的第72天
你想找辆共享单车,发现满街都是别家车,没有一辆你能骑。
你想学点生信,搜了“初学者教程”,满眼尽是高大上,没有一句能看懂。
终于你跨越茫茫宇宙,来到生信星球,发现了初学者的新大陆!
. 1.Basic Statisics
介绍数据的基本信息,需要关注的有三行:
(1)Encoding:质量体系
现在的illumina测序都采用Pred33,显示Sanger/illumina 1.8+
比较老的数据则只显示illumina 1.8-,使用时一般需要转换
(2)Total Sequence:reads总数
(3)Sequence length:序列长度
三代测序的数据序列长短不一
. 2.Per base sequence quality
反应单个碱基质量的象限图
横坐标:碱基位置
纵坐标:碱基质量
每个碱基的上下两条横线:表示质量最大值和最小值
中间红线:中位数
黄色矩形的上下边:上四分位/下四分位
下四分位纵坐标读数为x,则表示有75%的碱基质量值大于x,25%的碱基质量值小于x。
因此,黄色矩形越长(下四分位对应的纵坐标值就越低),碱基质量也就越差。
合格的碱基质量图,黄色矩形短,最小值也都在30以上。
不合格的碱基质量图,则是一片黄色,最小值落到了非绿色部分。
三代测序因序列长度很大,质量图会把部分横坐标合并显示。二代测序则没有必要合并。在对二代测序数据进行质控时,可以设置-nogroup参数,使其不分组合并显示。
. 3.per tile sequence quality
豆豆介绍过测序板的组成:flowcell -lane -tile。
有的tile 的数据测序质量差,需要过滤掉。
横坐标:碱基位置
纵坐标:tile编号
颜色越暖,质量越差。显示红色的tile测序结果很差。
好的数据应该是全部蓝色。
. 4.per sequence qulity scores
所有reads的平均质量值分布
横坐标:质量值(平均质量值)
纵坐标:这个质量值的reads数
那么峰值就代表着某个质量值的reads数很多
好的质量图峰值靠后,在30以上。差的质量图在靠前或中间位置有小的峰值。
. 5.AT是否相等
测序过程中,被随机打断的DNA片段需要添加接头,然后连接到flowcell上。这个过程成功率并非100%,因此建库测序的过程相当于大样本随机抽样。
DNA碱基互补,在数量上A=T,C=G。经过建库测序后,只要测序量足够大,测出的结果也应是约等于。
横坐标:reads上的碱基位置
纵坐标:四种碱基所占百分比
(1)曲线两两重合:数据合格
(2)每条曲线都是波浪形,无明显规律:数据量不够大
(3)头部几个位置上,四个碱基的百分比有一个100%,三个0%:
说明reads头部为特定碱基,可能是酶切导致,多见于RAD测序中。后续位置的碱基曲线基本重合,这样的数据也是合格的。
(4)头部13个碱基AT不等,后续曲线基本重合。
RNA测序建库需要将其反转录为cDNA,头部13个碱基无规律是由于RNA建库使用随机引物造成的,正常。
(5)无明显规律
RNA链特异性建库:将反义链消化掉,只保留义链。(反义链与RNA互补,义链与RNA方向一致,序列除u碱基外相同。
不存在互补,所以碱基百分比无明显关系。
. 6.Sequence Duplication levels
Sequence Duplication是指reads完全重复,造成浪费。
产生原因:
(1)基因组中的重复序列
(2)不同细胞中的多套序列
(3)pcr扩增(主要原因)
解释:TruSeq建库测序流程
(1)随机打断,选择特定的长度
如双端测序150碱基,可选长度为300-800
如果序列长度为200,两端各测150,则中间50个碱基被重复测序,叫做overlap,也是一种资源浪费。
如果长度为800,中间有500是测不到的。但由于是随机打断,这段未被测到的序列会在其他片段中被测到。
(2)末端修复,添加接头
(3)pcr
(4)上机测序
正常的duplication比例是4%左右,过高的原因是:
(1)过多的pcr扩增。
正常扩增6轮,形成2^6^个拷贝。如果DNA含量太低,则需要增加扩增循环数,形成千百个拷贝。
大片段测序:基因组拼接需要构建mate paird文库,需要将dna进行环化,成功率低,因此需要更多拷贝。
(2)目标片段长度差异太大
同样的时间内,短序列片段得到的pcr扩增数量更大。
(3)RNA-Seq
duplication高,无法确定是来源于基因的高表达还是pcr扩增,因此不做过滤。
看家基因:在所有细胞中均要稳定表达的一类基因,其产物对维持细胞基本生命活动所必需的。
横坐标:reads出现的次数
纵坐标:横坐标对应次数的reads所占百分比
红色线:按照reads种类来计算的(去除duplication)
蓝色线:按照reads总数来计算的(duplication计算在内)
实际分析中,为了降低内存占用和时间:
仅分析前10万条序列在整个文件中的重复次数
>
75bp的reads仅截取前50bp进行统计分析
>
10次的合并显示
. 7.序列污染
污染的来源:adapter(接头)primer(引物)/细菌污染
(1)per sequence GC content
好的结果基本应该呈现正态分布
不同物种的GC含量有所不同,动植物的GC含量在35-50%之间,细菌的GC含量变化较大
曲线不规则,在此范围以外出现异常的极高峰的是污染,但无法判断污染来源。
(2)duplication level曲线
可判断异常reads的数量和种类。若红色曲线(种类)接近0,蓝色曲线(数量)大,则说明是少数几种reads出现了非常多次的扩增。
(3)overrepresented sequences
列出出现次数很多的可疑序列及其占比和来源,看前几种序列的百分比加和是否与duplication level蓝色曲线中显示的异常reads数量占比吻合,同时查看其来源。
(4)adapter content
查看是否存在adapter 污染
(5)k-mer content
关于什么是kmer,找到了一个优质解答:
将一条reads连续切割,挨个碱基滑动,得到的一组序列长度为k的核苷酸序列。
例:read序列为:ACT GGT GCT AAT GAC GAT。采用7-mer分析
结果为:
ACT GGT G
CT GGT GC
T GGT GCT
GGT GCT A
……
看懂了吗,第一行以reads第一个碱基为起点,第二行以reads第二个碱基为起点,以此类推。每行的长度都是7。
kmer content是看这7个碱基的不同排列组合方式出现的次数。出现次数最多的碱基,通常可以在overrepresented sequences图中找到,并查看它的来源。
序列污染的处理方法:
adapter和primer带来的污染,直接在数据过滤环节将污染序列去除掉。
细菌带来的污染,需要和细菌数据库进行比对,看看比对到的序列存在的物种,结合实验中可能存在的污染情况综合考虑,确定后将其去除。
初学生信,很荣幸带你迈出第一步。
我们是生信星球,一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com~
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!