• 主页
  • 课程

    关于课程

    • 课程归档
    • 成为一名讲师
    • 讲师信息
    教学以及管理操作教程

    教学以及管理操作教程

    ¥1,000.00 ¥100.00
    阅读更多
  • 特色
    • 展示
    • 关于我们
    • 问答
  • 事件
  • 个性化
  • 博客
  • 联系
  • 站点资源
    有任何问题吗?
    (00) 123 456 789
    weinfoadmin@weinformatics.cn
    注册登录
    恒诺新知
    • 主页
    • 课程

      关于课程

      • 课程归档
      • 成为一名讲师
      • 讲师信息
      教学以及管理操作教程

      教学以及管理操作教程

      ¥1,000.00 ¥100.00
      阅读更多
    • 特色
      • 展示
      • 关于我们
      • 问答
    • 事件
    • 个性化
    • 博客
    • 联系
    • 站点资源

      生信星球

      • 首页
      • 博客
      • 生信星球
      • Fastqc结果的超详细解读

      Fastqc结果的超详细解读

      • 发布者 weinfoeditor
      • 分类 生信星球
      • 日期 2018年7月21日
      测试开头

      今天是生信星球陪你的第72天


         你想找辆共享单车,发现满街都是别家车,没有一辆你能骑。

         你想学点生信,搜了“初学者教程”,满眼尽是高大上,没有一句能看懂。

         终于你跨越茫茫宇宙,来到生信星球,发现了初学者的新大陆!


      . 1.Basic Statisics

      介绍数据的基本信息,需要关注的有三行:

      (1)Encoding:质量体系

      现在的illumina测序都采用Pred33,显示Sanger/illumina 1.8+

      比较老的数据则只显示illumina 1.8-,使用时一般需要转换

      (2)Total Sequence:reads总数

      (3)Sequence length:序列长度

      三代测序的数据序列长短不一

      . 2.Per base sequence quality

      反应单个碱基质量的象限图

      横坐标:碱基位置

      纵坐标:碱基质量

      每个碱基的上下两条横线:表示质量最大值和最小值

      中间红线:中位数

      黄色矩形的上下边:上四分位/下四分位

      下四分位纵坐标读数为x,则表示有75%的碱基质量值大于x,25%的碱基质量值小于x。

      因此,黄色矩形越长(下四分位对应的纵坐标值就越低),碱基质量也就越差。

      合格的碱基质量图,黄色矩形短,最小值也都在30以上。

      不合格的碱基质量图,则是一片黄色,最小值落到了非绿色部分。

      三代测序因序列长度很大,质量图会把部分横坐标合并显示。二代测序则没有必要合并。在对二代测序数据进行质控时,可以设置-nogroup参数,使其不分组合并显示。

      . 3.per tile sequence quality

      豆豆介绍过测序板的组成:flowcell -lane -tile。

      有的tile 的数据测序质量差,需要过滤掉。

      横坐标:碱基位置

      纵坐标:tile编号

      颜色越暖,质量越差。显示红色的tile测序结果很差。

      好的数据应该是全部蓝色。

      . 4.per sequence qulity scores

      所有reads的平均质量值分布

      横坐标:质量值(平均质量值)

      纵坐标:这个质量值的reads数

      那么峰值就代表着某个质量值的reads数很多

      好的质量图峰值靠后,在30以上。差的质量图在靠前或中间位置有小的峰值。

      . 5.AT是否相等

      测序过程中,被随机打断的DNA片段需要添加接头,然后连接到flowcell上。这个过程成功率并非100%,因此建库测序的过程相当于大样本随机抽样。

      DNA碱基互补,在数量上A=T,C=G。经过建库测序后,只要测序量足够大,测出的结果也应是约等于。

      横坐标:reads上的碱基位置

      纵坐标:四种碱基所占百分比

      (1)曲线两两重合:数据合格

      (2)每条曲线都是波浪形,无明显规律:数据量不够大

      (3)头部几个位置上,四个碱基的百分比有一个100%,三个0%:

      说明reads头部为特定碱基,可能是酶切导致,多见于RAD测序中。后续位置的碱基曲线基本重合,这样的数据也是合格的。

      (4)头部13个碱基AT不等,后续曲线基本重合。

      RNA测序建库需要将其反转录为cDNA,头部13个碱基无规律是由于RNA建库使用随机引物造成的,正常。

      (5)无明显规律

      RNA链特异性建库:将反义链消化掉,只保留义链。(反义链与RNA互补,义链与RNA方向一致,序列除u碱基外相同。

      不存在互补,所以碱基百分比无明显关系。

      . 6.Sequence Duplication levels

      Sequence Duplication是指reads完全重复,造成浪费。

      产生原因:

      (1)基因组中的重复序列

      (2)不同细胞中的多套序列

      (3)pcr扩增(主要原因)

      解释:TruSeq建库测序流程

      (1)随机打断,选择特定的长度

      如双端测序150碱基,可选长度为300-800

      如果序列长度为200,两端各测150,则中间50个碱基被重复测序,叫做overlap,也是一种资源浪费。

      如果长度为800,中间有500是测不到的。但由于是随机打断,这段未被测到的序列会在其他片段中被测到。

      (2)末端修复,添加接头

      (3)pcr

      (4)上机测序

      正常的duplication比例是4%左右,过高的原因是:

      (1)过多的pcr扩增。

      正常扩增6轮,形成2^6^个拷贝。如果DNA含量太低,则需要增加扩增循环数,形成千百个拷贝。

      大片段测序:基因组拼接需要构建mate paird文库,需要将dna进行环化,成功率低,因此需要更多拷贝。

      (2)目标片段长度差异太大

      同样的时间内,短序列片段得到的pcr扩增数量更大。

      (3)RNA-Seq

      duplication高,无法确定是来源于基因的高表达还是pcr扩增,因此不做过滤。

      看家基因:在所有细胞中均要稳定表达的一类基因,其产物对维持细胞基本生命活动所必需的。

      横坐标:reads出现的次数

      纵坐标:横坐标对应次数的reads所占百分比

      红色线:按照reads种类来计算的(去除duplication)

      蓝色线:按照reads总数来计算的(duplication计算在内)

      实际分析中,为了降低内存占用和时间:

      仅分析前10万条序列在整个文件中的重复次数

      >75bp的reads仅截取前50bp进行统计分析

      >10次的合并显示

      . 7.序列污染

      污染的来源:adapter(接头)primer(引物)/细菌污染

      (1)per sequence GC content

      好的结果基本应该呈现正态分布

      不同物种的GC含量有所不同,动植物的GC含量在35-50%之间,细菌的GC含量变化较大

      曲线不规则,在此范围以外出现异常的极高峰的是污染,但无法判断污染来源。

      (2)duplication level曲线

      可判断异常reads的数量和种类。若红色曲线(种类)接近0,蓝色曲线(数量)大,则说明是少数几种reads出现了非常多次的扩增。

      (3)overrepresented sequences

      列出出现次数很多的可疑序列及其占比和来源,看前几种序列的百分比加和是否与duplication level蓝色曲线中显示的异常reads数量占比吻合,同时查看其来源。

      (4)adapter content

      查看是否存在adapter 污染

      (5)k-mer content

      关于什么是kmer,找到了一个优质解答:

      将一条reads连续切割,挨个碱基滑动,得到的一组序列长度为k的核苷酸序列。

      例:read序列为:ACT GGT GCT AAT GAC GAT。采用7-mer分析

      结果为:

      ACT GGT G

      CT GGT GC

      T GGT GCT

      GGT GCT A

      ……

      看懂了吗,第一行以reads第一个碱基为起点,第二行以reads第二个碱基为起点,以此类推。每行的长度都是7。

      kmer content是看这7个碱基的不同排列组合方式出现的次数。出现次数最多的碱基,通常可以在overrepresented sequences图中找到,并查看它的来源。

      序列污染的处理方法:

      adapter和primer带来的污染,直接在数据过滤环节将污染序列去除掉。

      细菌带来的污染,需要和细菌数据库进行比对,看看比对到的序列存在的物种,结合实验中可能存在的污染情况综合考虑,确定后将其去除。


      初学生信,很荣幸带你迈出第一步。

      我们是生信星球,一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com~

      Fastqc结果的超详细解读

      测试结尾

      请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!

      • 分享:
      作者头像
      weinfoeditor

      上一篇文章

      懒惰也是一种美德
      2018年7月21日

      下一篇文章

      Perl的哈希知识点
      2018年7月22日

      你可能也喜欢

      8-1651673488
      生信零基础入门学习小组长期报名中(2022仍继续)
      7 4月, 2022
      2-1651673738
      简化版的ROC曲线
      21 2月, 2022
      8-1651674718
      支持向量机模型
      19 11月, 2021

      搜索

      分类

      • R语言
      • TCGA数据挖掘
      • 单细胞RNA-seq测序
      • 在线会议直播预告与回放
      • 数据分析那些事儿分类
      • 未分类
      • 生信星球
      • 老俊俊的生信笔记

      投稿培训

      免费

      alphafold2培训

      免费

      群晖配置培训

      免费

      最新博文

      Nature | 单细胞技术揭示衰老细胞与肌肉再生
      301月2023
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      301月2023
      如何快速批量修改 Git 提交记录中的用户信息
      261月2023
      logo-eduma-the-best-lms-wordpress-theme

      (00) 123 456 789

      weinfoadmin@weinformatics.cn

      恒诺新知

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      链接

      • 课程
      • 事件
      • 展示
      • 问答

      支持

      • 文档
      • 论坛
      • 语言包
      • 发行状态

      推荐

      • iHub汉语代码托管
      • iLAB耗材管理
      • WooCommerce
      • 丁香园论坛

      weinformatics 即 恒诺新知。ICP备案号:粤ICP备19129767号

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      要成为一名讲师吗?

      加入数以千计的演讲者获得100%课时费!

      现在开始

      用你的站点账户登录

      忘记密码?

      还不是会员? 现在注册

      注册新帐户

      已经拥有注册账户? 现在登录

      close
      会员购买 你还没有登录,请先登录
      • ¥99 VIP-1个月
      • ¥199 VIP-半年
      • ¥299 VIP-1年
      在线支付 激活码

      立即支付
      支付宝
      微信支付
      请使用 支付宝 或 微信 扫码支付
      登录
      注册|忘记密码?