• 主页
  • 课程

    关于课程

    • 课程归档
    • 成为一名讲师
    • 讲师信息
    教学以及管理操作教程

    教学以及管理操作教程

    ¥1,000.00 ¥100.00
    阅读更多
  • 特色
    • 展示
    • 关于我们
    • 问答
  • 事件
  • 个性化
  • 博客
  • 联系
  • 站点资源
    有任何问题吗?
    (00) 123 456 789
    weinfoadmin@weinformatics.cn
    注册登录
    恒诺新知
    • 主页
    • 课程

      关于课程

      • 课程归档
      • 成为一名讲师
      • 讲师信息
      教学以及管理操作教程

      教学以及管理操作教程

      ¥1,000.00 ¥100.00
      阅读更多
    • 特色
      • 展示
      • 关于我们
      • 问答
    • 事件
    • 个性化
    • 博客
    • 联系
    • 站点资源

      生信星球

      • 首页
      • 博客
      • 生信星球
      • 测序数据过滤

      测序数据过滤

      • 发布者 weinfoeditor
      • 分类 生信星球
      • 日期 2018年7月23日
      测试开头

      今天是生信星球陪你的第74天


         你想找辆共享单车,发现满街都是别家车,没有一辆你能骑。

         你想学点生信,搜了“初学者教程”,满眼尽是高大上,没有一句能看懂。

         终于你跨越茫茫宇宙,来到生信星球,发现了初学者的新大陆!


      1.操作顺序

      质控—过滤—质控

      质控发现了数据有哪些问题,就要把问题数据过滤掉,好的数据还是可以用滴。

      2.数据可能存在的问题

      (1)低质量-remove/trim

      (2)污染–包括adapter/primer污染,细菌污染

      (3)duplication

      (4)序列太短

      3.过滤工具

      (1)SOAPnuke

      华大开发,内部使用。 设置好参数后,所有的过滤步骤可以一步完成,生成简单的统计报告。

      特点:

      • 功能强大

      • 安装稍复杂

      • 有统计结果

      • 低质量 remove,不能trim
        (现在的测序量大,数据够用,这种方法可行。)

      • 需要手动输入adapter序列参数

      • 快

      (2)Trimmomatic(就用它)

      • java 不需要安装

      • 低质量trim,保留更多数据

      • 自带adapter库

      • 不能处理duplication

      (3)FASTX-Tookit

      功能齐全,可以质控。使用麻烦。

      4.使用trimmomatic过滤数据

      java -jar trimmomatic-0.35.jar 
      PE
      input_forward.fq.gz input_reverse.fq.gz
      output_forward_paired.fq.gz output_forward_unpaired.fq.gz
      output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz  
      ILLUMINACLIP:TruSeq3-PE.fa:2:30:10
      LEADING:3
      TRAILING:3
      SLIDINGWINDOW:4:15
      MINLENTH:36

      运行:nohup  sh x.sh &

      可修改处:

      • 第一/五行:不在安装目录下处理数据时应改为安装软件的绝对路径

      • 第二行:PE是双端测序,如果处理单端测序应改为SE

      • 二/三行:输入/输出文件名,可改为自己的文件名

      (1)ILLUMINACLIP:

      作用:去掉adapter和primer等

      命令:ILLUMINACLIP:TruSeq3-PE.fa:2:30:10

      指定使用的adapter,存放在adapters目录下,有多个

      测序数据过滤

      如何选择adapter库:

      测序数据过滤

      方法1:Truseq2 用于早期的GAII machines,TruSeq3用于 HisSeq and MiSeq machines。

      方法2:根据FASTqc结果中的overrepresented Sequencece图表最后一列选择。

      测序数据过滤

      — Illumina Single End或Illumina Paired End,使用 TruSeq2

      — Truseq Universal Adapter TruSeq Adapter,Index ……,使用TruSeq3

      (2)SLIDINGWINDOW:4:15

      如果连续4个碱基平均质量值低于15,则把这四个碱基去掉,reads变成两条。

      另一种策略:maxinfo

      reads长度和质量的平衡

      做基因组拼接:需要更长的reads

      做变异检测:需要更高的质量值,对reads长度要求不高。

      eg:MAXINFO:60:0.2

      argv1:期望的reads长度

      argv2:取值范围0-1之间,代表reads的长度和碱基质量的平衡。

      值越小说明需要更长的reads,值越大说明需要更高的质量。

      (3)MINLENTH:36

      去除小于36bp长度的reads

      (4)LEADING:3  TRAILING:3

      fastqc结果显示有的序列头部几个碱基质量较差,这个参数的意思是将reads前段/后段质量值低于3的碱基去掉

      CROP/HEADCROP:最多保留N个碱基长度,从末尾/头部剪掉多余的碱基。

      CROP:100 仅保留前100碱基,从尾部去掉多余的碱基。

      5.reads中为何会出现adapter污染

      测序数据过滤

      天蓝色:adapter库中的任意序列

      深蓝色:我们的序列接头

      绿色:有效序列

      红色:无效序列

      A:adapter完全比对到了一段reads

      说明很长一段序列都存在污染,需要remove整条reads

      B:adapter部分比对到了reads上

      有20个碱基比对到,则污染

      只3-4个碱基比对到,则无法判断是污染还是碰巧出现,需要用回文序列验证。

      D:测到adapter的原因:序列过短

      如果正反义链的3-段都又几个碱基能比对到adapter,说明是污染。

      C:测序测到的直接是adapter,整段reads都是污染,叫做空载

      测试结尾

      请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!

      • 分享:
      作者头像
      weinfoeditor

      上一篇文章

      Perl的哈希知识点
      2018年7月23日

      下一篇文章

      R的数据类型:向量与数据框
      2018年7月27日

      你可能也喜欢

      8-1651673488
      生信零基础入门学习小组长期报名中(2022仍继续)
      7 4月, 2022
      2-1651673738
      简化版的ROC曲线
      21 2月, 2022
      8-1651674718
      支持向量机模型
      19 11月, 2021

      搜索

      分类

      • R语言
      • TCGA数据挖掘
      • 单细胞RNA-seq测序
      • 在线会议直播预告与回放
      • 数据分析那些事儿分类
      • 未分类
      • 生信星球
      • 老俊俊的生信笔记

      投稿培训

      免费

      alphafold2培训

      免费

      群晖配置培训

      免费

      最新博文

      Nature | 单细胞技术揭示衰老细胞与肌肉再生
      301月2023
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      301月2023
      如何快速批量修改 Git 提交记录中的用户信息
      261月2023
      logo-eduma-the-best-lms-wordpress-theme

      (00) 123 456 789

      weinfoadmin@weinformatics.cn

      恒诺新知

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      链接

      • 课程
      • 事件
      • 展示
      • 问答

      支持

      • 文档
      • 论坛
      • 语言包
      • 发行状态

      推荐

      • iHub汉语代码托管
      • iLAB耗材管理
      • WooCommerce
      • 丁香园论坛

      weinformatics 即 恒诺新知。ICP备案号:粤ICP备19129767号

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      要成为一名讲师吗?

      加入数以千计的演讲者获得100%课时费!

      现在开始

      用你的站点账户登录

      忘记密码?

      还不是会员? 现在注册

      注册新帐户

      已经拥有注册账户? 现在登录

      close
      会员购买 你还没有登录,请先登录
      • ¥99 VIP-1个月
      • ¥199 VIP-半年
      • ¥299 VIP-1年
      在线支付 激活码

      立即支付
      支付宝
      微信支付
      请使用 支付宝 或 微信 扫码支付
      登录
      注册|忘记密码?