• 主页
  • 课程

    关于课程

    • 课程归档
    • 成为一名讲师
    • 讲师信息
    同等学历教学

    同等学历教学

    免费
    阅读更多
  • 特色
    • 展示
    • 关于我们
    • 问答
  • 事件
  • 个性化
  • 博客
  • 联系
  • 站点资源
    有任何问题吗?
    (00) 123 456 789
    weinfoadmin@weinformatics.cn
    注册登录
    恒诺新知
    • 主页
    • 课程

      关于课程

      • 课程归档
      • 成为一名讲师
      • 讲师信息
      同等学历教学

      同等学历教学

      免费
      阅读更多
    • 特色
      • 展示
      • 关于我们
      • 问答
    • 事件
    • 个性化
    • 博客
    • 联系
    • 站点资源

      未分类

      • 首页
      • 博客
      • 未分类
      • 生信基础标准化③拷贝数数据标准化问题

      生信基础标准化③拷贝数数据标准化问题

      • 发布者 一览
      • 分类 未分类
      • 日期 2020年3月6日
      • 评论 0评论

      参考: https://www.jianshu.com/p/ed43342ec93a

      1.1 引言

      目前,在全基因组范围内检测拷贝数变异的芯片技术已经在不同癌症中鉴定出了上百个拷贝数变异的基因,使我们对于癌症有了更深入的了解,同时也能够发现有用的生物学标记,从而预测癌症和药物靶点。然而,利用拷贝数芯片检测的高通量数据同样受诸如试剂与检测批次、不同操作者等多种因素的影响。为了排除技术因素的影响,应用于基因表达谱芯片的标准化算法通常也被直接用于拷贝数芯片分析,其中dChip标准化和Quantile标准化常被应用于拷贝数谱预处理中。这些标准化算法往往认为所有的样本的信号值应当近似服从一个分布而不顾组织间的生物学差异,即假设只有一小部分基因的拷贝数发生改变并且拷贝数扩增和缺失的基因数目大致相等。然而,我们最近的研究表明在癌表达谱中采用这些传统假设的标准化方法会失查很多癌相关的上调差异表达基因并且发现很多假的下调差异表达基因,因此需要采用不依赖于如前所述假设的数据标准化方法。在拷贝数数据中,研究人员通过观察癌样本的拷贝数信号值密度分布,发现大部分的基因倾向于拷贝数扩增而缺失却相对少见,因此有研究者建议很多现有的数据标准化方法不能直接应用。但是,目前仍然有很多研究者采用常规的方法对拷贝数检测芯片数据进行标准化处理。对此问题,研究者并未达成共识,一些研究人员在分析拷贝数变异数据时选择不进行标准化处理,而大部分研究者仍然采用常规的标准化方法对拷贝数数据进行预处理。因此,不同的标准化处理方法可能对筛选差异拷贝数基因等后续分析有重要的影响,有必要进行全面的评估。

      目前,Quantitle[18],dChip [19] 等是最常用的对Affymetrix SNP芯片数据进行标准化处理的方法,都是把不同状态的探针值标准化为相同或相似的分布。例如,Quantile 标准化方法强制所有样本的探针表达值具有相同的分布[18];DChip算法流程中采用 Rank-invariant Set 方法标准化探针值,强制所有芯片的探针表达值都和参考芯片具有相同的分布[19]。上述标准化方法都基于如下假设:在疾病状态下只有少数基因是差异的,并且上调基因和下调基因的数目基本相同[20]。但是,由于癌的发生过程中细胞获得一系列的遗传改变,共同促进癌细胞的生长,这个潜在的前提假设很可能是不可靠的。一直以来被研究者所广泛采用的标准化的前提假设是没有被充分的论证的。

      在本论文中,我们通过NCBI GEO数据库收集了八套癌症和正常样本配对的拷贝数数据。选择配对数据是因为可以避免一些如家系,个体和环境差异的复杂因素的影响。我们去除受处理时间的批次效应影响较大的数据后,通过比较正常和癌症样本的探针丰度来评价之前的标准化假设,结果显示探针丰度的中位数在四套数据集的癌症样本中都有所增加。在colorectal188数据中,我们发现采用原始数据筛选的差异拷贝数基因要比标准化后筛选的差异拷贝数基因与癌症有更高的相关性,提示在原始数据中挖掘癌相关生物学信号可能更为合理

      1.2 拷贝数变异显著区域的选择

      拷贝数变异显著区域的选择采用GISTIC(Genomic Identification of Significant Targets in Cancer)算法。GISTIC是一种统计学方法,全称为“癌症中显著靶点的基因识别”,设计用来分析癌症中的染色体变异。这种方法可以识别那些比随机情况下发生更多畸变的染色体区域。
      GISTIC算法是通过两个步骤识别显著的染色体变异,首先,计算一个统计量(G得分),它包括了发生的频率和变异的幅度。第二步,它通过比较统计量和随机情况下的期望值来评估每个变异的统计显著性,即反映了事件的发生是由于随机波动造成的可能性。

      请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!

      • 分享:
      作者头像
      一览

      上一篇文章

      生信基础标准化②甲基化数据标准化问题(Quantile算法、Lowess算法)
      2020年3月6日

      下一篇文章

      喜大奔普-全国巡讲全球听(买一得五)(第二期)
      2020年3月7日

      你可能也喜欢

      2-1675088548
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      30 1月, 2023
      9-1675131201
      如何快速批量修改 Git 提交记录中的用户信息
      26 1月, 2023
      8-1678501786
      肿瘤细胞通过改变CD8+ T细胞中的丙酮酸利用和琥珀酸信号来调控抗肿瘤免疫应答。
      7 12月, 2022

      留言 取消回复

      要发表评论,您必须先登录。

      搜索

      分类

      • R语言
      • TCGA数据挖掘
      • 单细胞RNA-seq测序
      • 在线会议直播预告与回放
      • 数据分析那些事儿分类
      • 未分类
      • 生信星球
      • 老俊俊的生信笔记

      投稿培训

      免费

      alphafold2培训

      免费

      群晖配置培训

      免费

      最新博文

      Nature | 单细胞技术揭示衰老细胞与肌肉再生
      301月2023
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      301月2023
      如何快速批量修改 Git 提交记录中的用户信息
      261月2023
      logo-eduma-the-best-lms-wordpress-theme

      (00) 123 456 789

      weinfoadmin@weinformatics.cn

      恒诺新知

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      链接

      • 课程
      • 事件
      • 展示
      • 问答

      支持

      • 文档
      • 论坛
      • 语言包
      • 发行状态

      推荐

      • iHub汉语代码托管
      • iLAB耗材管理
      • WooCommerce
      • 丁香园论坛

      weinformatics 即 恒诺新知。ICP备案号:粤ICP备19129767号

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      要成为一名讲师吗?

      加入数以千计的演讲者获得100%课时费!

      现在开始

      用你的站点账户登录

      忘记密码?

      还不是会员? 现在注册

      注册新帐户

      已经拥有注册账户? 现在登录

      close
      会员购买 你还没有登录,请先登录
      • ¥99 VIP-1个月
      • ¥199 VIP-半年
      • ¥299 VIP-1年
      在线支付 激活码

      立即支付
      支付宝
      微信支付
      请使用 支付宝 或 微信 扫码支付
      登录
      注册|忘记密码?