• 主页
  • 课程

    关于课程

    • 课程归档
    • 成为一名讲师
    • 讲师信息
    教学以及管理操作教程

    教学以及管理操作教程

    ¥1,000.00 ¥100.00
    阅读更多
  • 特色
    • 展示
    • 关于我们
    • 问答
  • 事件
  • 个性化
  • 博客
  • 联系
  • 站点资源
    有任何问题吗?
    (00) 123 456 789
    weinfoadmin@weinformatics.cn
    注册登录
    恒诺新知
    • 主页
    • 课程

      关于课程

      • 课程归档
      • 成为一名讲师
      • 讲师信息
      教学以及管理操作教程

      教学以及管理操作教程

      ¥1,000.00 ¥100.00
      阅读更多
    • 特色
      • 展示
      • 关于我们
      • 问答
    • 事件
    • 个性化
    • 博客
    • 联系
    • 站点资源

      生信星球

      • 首页
      • 博客
      • 生信星球
      • 富集分析Enrich Me!

      富集分析Enrich Me!

      • 发布者 weinfoeditor
      • 分类 生信星球
      • 日期 2018年9月22日
      测试开头

      今天是生信星球陪你的第135天


         你想找辆共享单车,发现满街都是别家车,没有一辆你能骑。

         你想学点生信,搜了“初学者教程”,满眼尽是高大上,没有一句能看懂。

         终于你跨越茫茫宇宙,来到生信星球,发现了初学者的新大陆


      豆豆写于18.9.22 今天豆花重逢,开心开心。这次花花是来领走豆豆的🤗
      今天先更新一半🤤
      不管是转录组,还是芯片数据,或者其他有关基因的组学分析,每当数据分析到后面,要想得到结果,都躲不过这个富集分析,因为它是帮助我们从庞杂的组学数据中发掘规律重要的一环。对基因功能进行富集分析, 就有可能发现在生物学过程中起关键作用的生物通路, 并且帮助理解生物学过程的分子机制

      现在的高通量测序带来的巨大数据量,让我们眼界大开,局限于单纯的某个基因的做法越来越行不通,但是想要从庞大的关系网络中挑选出有效信息,比如将某几个基因和某个期待的生物学现象结合起来,这个事直接做是很困难的。因此为了降低研究的复杂度,将不同生物学现象与基因的对应关系做成了多个数据库。于是,当我们手上有成百个差异基因时,就去不同数据库比对,这个过程就叫做富集分析。

      简而言之,基因富集分析 是在一组基因中找到具有一定基因功能特征和生物过程的基因集,在研究差异表达基因、筛选基因的后续分析中经常使用。

      . 富集分析目的

      万事万物皆有其因,事实上,我们做这个富集分析的目的主要包括:

      • 目前正在研究某个基因,想看它在不同样本中的表达差异,也就是我们有和课题相关的目标基因,你认为这个基因是处理和对照产生不同的原因之一,但是口说无凭,需要佐证。此时你需要富集分析

      • 跑程序得到的差异基因上千个,你想知道他们是那些类的,和物种什么生物过程相关,你会把基因一个一个放到注释数据库去调查吗?此时你需要富集分析

      • 研究某个基因的上下游调控关系时,你可能对KEGG的那个通路图不陌生,这就是富集分析

        它是快速调查目标基因集功能倾向性的方法之一。因此你可能还听过通路分析(pathway)、功能分析。就是说,手里有基因、蛋白的,都要经历这一步

      举个生活中的例子:城市中都有生活公园,清晨你会看到许多老人在锻炼身体,上午游人来玩耍,小商贩也不能放过这个机会,下午到了放学的点,孩子们蜂拥而至,而到了晚上,中年人群广场舞激情飘扬。现在想看看公园哪个时间段更吸引人。假如一天来公园的共1000人,现在把这些人都汇集在一起,从中抽取200人,结果看到70%以上都是老人,那么基本可以确定清晨公园人流量更大。然后针对主要公园人群——老年人,公园管理部门就可以安排更便民的设施。当然,这个例子只是为了理解下面的内容

      我们上面不同年龄的人群,就对应不同功能的基因集,当然人群中的每个人都可能不同时间光顾公园,当然基因集中的不同基因也可以参与好几个生物过程。我们这里做的富集分析,不是为了分析个体,而是看群体。先判断出哪些群体的差异是我们想要的,再看其中的个体~就是这么个过程!

      . 富集分析算法

      任何软件、分析背后都是一套算法,了解算法才能真正坐观云卷云舒

      具体的方法介绍可以参考:Progress in Gene Functional Enrichment
      Analysis这篇文章。大体上富集分析有四类算法:ORA、FCS、PT、NT

      富集分析Enrich Me!
      富集分析四类算法

      1. 【最常用】ORA(Over Representation Analysis):过表达分析

      首先这个名字很奇怪,但是既然人家取了这个名字,就一定有原因。

      这个部分很重要,需要重点理解,采用“理论联系实际”的方法

      理论:

      什么是ORA方法?
      它是检验某类功能在一个数据子集中是否表现过度。又称为“2X2方法”,像上图一样,做一个列联表。上图中的ORA中,蓝圈内是感兴趣基因(8个),绿圈内是某个通路的基因(5个);灰点是既不感兴趣又不在通路内的(6个),蓝点是感兴趣但不在通路内的(5个),绿点是在通路内但不感兴趣的(2个),红点是既感兴趣又在通路内的(3个),于是就能做出来2X2列联表。再利用fisher精确检验或超几何分布得到p值。

      简而言之,需要4类数据:总共的基因数(作为背景基因)、总共属于某分类的基因数、样本包含的基因数(也就是用的差异表达基因)、样本中属于某分类的基因数

      优点:出现的最早,最常用,有完善的统计学理论基础,结果比较可靠;

      缺点:

      • 仅仅使用了基因的数目,但是基因的不同表达水平没有考虑,为了得到差异基因,需要人为设置阈值,没有一个设置规定,因此结果因人而异;

      • 适用于差异最显著的基因,而差异不显著的基因就会被忽略,检测灵敏度会降低

      • ORA利用统计学假设每个基因相互独立,但是就生物体本身而言,忽略了内部的复杂的相互作用,并且每个基因在不同的生物学过程中发挥的作用大小不一样,同等看待结果可能会不准确

      实际:

      实际上就是把我们感兴趣的基因和背景基因做一个交集。

      感兴趣的基因也就是差异基因了,包括上调、下调表达的(利用原始表达矩阵中p值和logFC进行筛选),一般人类芯片数据会有几百个

      背景基因就是在KEGG等数据库中有注释的基因【人类基因组有2万个左右基因,现在总共有已知功能的是7000左右,随着研究的不断深入,背景基因数量会越来越多,结果也会越来越全面】

      富集分析Enrich Me!
      enrichKEGG结果

      举个例子,KEGG通路hsa05206指的是MicroRNAs in Cancer,包括150个基因,背景基因使用了6517个;GSE17708芯片得到的差异基因数是547个,在KEGG能注释上的有80个,其中就有10个是MicroRNA通路的,概率高达12.5%(enrichKEGG方法都是用能在KEGG注释上的基因,比如这里用80而不是547),那么这个通路是不是在下调基因中被显著改变?需要把全部的80个下调基因,在KEGG的530个通路中注释一遍,再一个一个进行超几何分布检验,得到p值。hsa05206通路在背景基因中查到的概率是150/6517=2.3%,是显著低于12.5%的

      超几何分布属于统计学上一种离散概率分布。它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的个数(不归还)。n=1,超几何分布还原为伯努利分布;n接近∞,超几何分布可视为二项分布

      2. FCS(Functional Class Scoring) 功能集打分法

      它比ORA的进步就是基本假设做了改变,考虑的更加全面。它认为尽管单个基因的改变会造成显著性影响,但是和它类似的微效基因叠加在一起也能行。也就是说,FCS不再像ORA一样,强调个人英雄主义,而是把目光转向人民,“星星之火,可以燎原”

      Ten Years of Pathway Analysis: Current Approaches and Outstanding Challenges这篇文章有详细的描述。

      操作方法:

      要求的输入是一个排序的基因列表和一个基因集合,不需要设置阈值

      1. 计算单个基因表达水平的统计值,采用如衡量差异基因的ANOVA、Q-statistic、t检验、Z-score、信噪比,进行打分或排序,或者直接使用排序好的基因表达谱

      2. 同一通路上所有基因的表达水平统计值进行整合,汇集成单个通路水平的分数或统计值,采用基因水平统计的和、均值或中位数,Wilcoxon rank sum, Maxmean statistic, Kolmogorov-Smirnov statistic

      3. 对通路水平的显著性进行评估:利用重抽样(bootstrap)的统计学方法

      优点:

      考虑了基因表达值的个体差异化信息,更加全面

      缺点:

      FCS仍然和ORA一样,只能独立分析每一条通路,但是同一个基因可能设计多个通路,不能分析这种情况;它只是根据特定的通路为差异基因进行排序,比如按基因A、B的一条通路检测得到他们的表达量分别改变3倍、10倍,但是换其他通路,可能排名就发生改变,不会一直保持B>A

      3. PT(Pathway Topology)通路拓扑学

      理想很丰满,现实很骨感的一个体系

      在通路的富集分析中,一般上游基因的表达水平改变要显著大于下游基因对整个通路的影响。PT方法就是把基因在通路中的位置,和其他基因的互作和调控关系结合在一起,评估每个基因对通路的贡献并算出权重,然后把权重整合到富集分析。
      方法虽好,但是通路拓扑结构存在依赖性,而目前的GO等数据库中没有任何拓扑结构信息,因此限制发展

      4. NT(Network topology)网络拓扑学

      利用现有的全基因组范围的生物网络,提取数据库的基因相互作用关系(如:基因连接度、基因在网络中的距离),把基因的生物学属性整合到功能分析。利用网络拓扑结构来计算基因对特定生物通路的重要性并给予相应的权重,再利用传统的ORA 或 FCS 方法来评估特定生物通路的富集程度,如GANPA 和 LEGO。缺点就是算法太复杂,计算速度慢


      点击底部的“阅读原文”,获得更好的阅读体验哦😻

      初学生信,很荣幸带你迈出第一步。

      我们是生信星球,一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言、联系微信或发送邮件到Bioplanet520@outlook.com

      富集分析Enrich Me!

      测试结尾

      请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!

      • 分享:
      作者头像
      weinfoeditor

      上一篇文章

      【ggplot2】R语言:ggplot2包
      2018年9月22日

      下一篇文章

      概率分布让我又恨又爱
      2018年9月23日

      你可能也喜欢

      8-1651673488
      生信零基础入门学习小组长期报名中(2022仍继续)
      7 4月, 2022
      2-1651673738
      简化版的ROC曲线
      21 2月, 2022
      8-1651674718
      支持向量机模型
      19 11月, 2021

      搜索

      分类

      • R语言
      • TCGA数据挖掘
      • 单细胞RNA-seq测序
      • 在线会议直播预告与回放
      • 数据分析那些事儿分类
      • 未分类
      • 生信星球
      • 老俊俊的生信笔记

      投稿培训

      免费

      alphafold2培训

      免费

      群晖配置培训

      免费

      最新博文

      Nature | 单细胞技术揭示衰老细胞与肌肉再生
      301月2023
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      301月2023
      如何快速批量修改 Git 提交记录中的用户信息
      261月2023
      logo-eduma-the-best-lms-wordpress-theme

      (00) 123 456 789

      weinfoadmin@weinformatics.cn

      恒诺新知

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      链接

      • 课程
      • 事件
      • 展示
      • 问答

      支持

      • 文档
      • 论坛
      • 语言包
      • 发行状态

      推荐

      • iHub汉语代码托管
      • iLAB耗材管理
      • WooCommerce
      • 丁香园论坛

      weinformatics 即 恒诺新知。ICP备案号:粤ICP备19129767号

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      要成为一名讲师吗?

      加入数以千计的演讲者获得100%课时费!

      现在开始

      用你的站点账户登录

      忘记密码?

      还不是会员? 现在注册

      注册新帐户

      已经拥有注册账户? 现在登录

      close
      会员购买 你还没有登录,请先登录
      • ¥99 VIP-1个月
      • ¥199 VIP-半年
      • ¥299 VIP-1年
      在线支付 激活码

      立即支付
      支付宝
      微信支付
      请使用 支付宝 或 微信 扫码支付
      登录
      注册|忘记密码?