• 主页
  • 课程

    关于课程

    • 课程归档
    • 成为一名讲师
    • 讲师信息
    教学以及管理操作教程

    教学以及管理操作教程

    ¥1,000.00 ¥100.00
    阅读更多
  • 特色
    • 展示
    • 关于我们
    • 问答
  • 事件
  • 个性化
  • 博客
  • 联系
  • 站点资源
    有任何问题吗?
    (00) 123 456 789
    weinfoadmin@weinformatics.cn
    注册登录
    恒诺新知
    • 主页
    • 课程

      关于课程

      • 课程归档
      • 成为一名讲师
      • 讲师信息
      教学以及管理操作教程

      教学以及管理操作教程

      ¥1,000.00 ¥100.00
      阅读更多
    • 特色
      • 展示
      • 关于我们
      • 问答
    • 事件
    • 个性化
    • 博客
    • 联系
    • 站点资源

      生信星球

      • 首页
      • 博客
      • 生信星球
      • R plus 生物~Bioconductor

      R plus 生物~Bioconductor

      • 发布者 weinfoeditor
      • 分类 生信星球
      • 日期 2018年9月7日
      测试开头

      今天是生信星球陪你的第120天


         你想找辆共享单车,发现满街都是别家车,没有一辆你能骑。

         你想学点生信,搜了“初学者教程”,满眼尽是高大上,没有一句能看懂。

         终于你跨越茫茫宇宙,来到生信星球,发现了初学者的新大陆



      豆豆写于18.9.7 晚

      各行各业数据呈爆炸式增长,大量的数据等待被处理,R语言就是一个利器,可以说是做数据分析必备的编程语言。当强大的R与包罗万象的生物结合,再一次刺激了R的迅猛发展。随着NGS测序的普及,R语言的生信专业社区Bioconductor诞生,开启了生物信息的R语言时代。
      好工具,用起来,首先要了解生物数据与R之间的关联


      . 生物知识回顾

      • 基因有三类:第一类编码序列,编码蛋白【转录+翻译功能】;第二类只有转录没有翻译功能【tRNA+rRNA】;第三类不转录基因,调控基因表达【启动子、操纵子】

      • 基因组:单倍体细胞中包含编码序列和非编码序列的全部DNA【核基因组+线粒体基因组+叶绿体基因组】

      • 狭义转录组:mRNA,代表样本整体基因表达水平,一般称为“表达谱”【真正的表达谱是蛋白质组信息,研究手段是质谱】。通常用基因芯片、RNA-seq

      • 广义转录组:

      • 非编码ncRNA:有三类【按长度划分】

        • 小于50nt的small RNA【长度单位:单链叫nt,双链叫bp】:miRNA、siRNA、piRNA【small RNA序列短,同源性高,一般采用二代测序检测】

        • 50-500nt:rRNA、tRNA、snRNA、snoRNA

        • 大于500nt:mRNA-like ncRNA、不带polyA尾的ncRNA

      • microRNA:也叫miRNAs,20-25nt,初级转录物-》核酸酶剪切加工-〉组装进RNA诱导的沉默复合体-》互补配对识别靶mRNA-〉根据互补程度不同指导沉默复合体降解靶mRNA或者阻遏mRNA翻译

      • DNA、蛋白互作:Chromatin immuopre-cipitation, ChIP,主要应用于:DNA序列转录因子结合位点(Binding sites)识别 ,如启动子、增强子等顺式作用文件(Cis-acting element)的识别;DNA甲基化、组蛋白修饰、核小体定位

      • DNA甲基化:甲基化DNA免疫共沉淀测序(Methylated DNA immunoprecipitation sequencing, MeDIP-seq)、甲基化DNA(蛋白)结合域测序(Methylated DNA binding domain sequencing, MBD-seq)和亚硫酸氢盐测序(Bisulfite sequencing, BS-seq)

      . 基因表达分析

      基因表达检测方法

      • 实时荧光定量PCR(Quantitative real time PCR, qRT-PCR)

      • 基因(表达谱)芯片(Microarray)

      • 表达序列标签(Expressed Sequence Tag, EST)

      • 基因表达系列分析(Serial Analysis of Gene Expression, SAGE)

      • 转录组测序

      PCR技术应用最为成熟,灵敏度高,特异性强,但其缺点是通量较小;基因芯片方便快捷,适合临床诊断及个体基因组分析;基因测序技术通量高,但周期长、成本高

      基因芯片是什么

      基因芯片又称DNA微阵列,按照检测物的不同,可分为DNA芯片、RNA芯片等,其中DNA芯片又可分为单核苷酸多肽性(SNP)芯片、比较基因组杂交(CGH)芯片等。

      原理:基于A、T;C、G互补理论,将已知序列的核酸探针与未知序列的核酸序列进行杂交检测DNA,并且DNA探针以显微打印的方式大规模集成于芯片(类似于计算机的硅芯片)表面。杂交后通过计算机对杂交信号的检测分析,得出样品的遗传信息(基因序列及表达的信息)。分析单核苷酸变异多态性性价比较高。

      R plus 生物~Bioconductor
      基因芯片原理


      主流寡聚核苷酸芯片主要有:Affymetric、Agilen、Illumina公司


      基因表达数据

      矩阵表示:行名代表一个基因不同条件/样本的表达,列名代表某个条件/样本的所有基因表达。数据代表表达水平。那么一般分析什么?

      • 不同样本/处理中哪些基因表达有显著差异?

      • 基因之间有什么共有的功能,或者参与哪些共同代谢途径?

      • 不同的处理中,哪些基因变化一致,它们受到上游哪些基因的调节,或者它们控制下游哪些基因的表达?

      • 哪些基因表达存在样本特异性,也就是说通过他们的表达可以判断样本的状态(如:细胞的增殖、分化、凋亡、应激、癌变等)

      主要的分析

      主要有差异显著性分析和时间序列分析,后者主要是测定基因多个时间点的表达量,然后聚类+主成分分析寻找共调控基因

      表达显著性分析就是为了找差异基因(DEG)。那么怎样判断基因间是有差异的呢?常用的有3种算法:一是倍数分析(无统计假设),计算每个基因在不同条件/样本的比值,再与阈值比较;二是用统计模型T检验等方法,计算差异表达的置信度p值,以0.05或者0.01作为阈值;三是机器学习方法,利用贝叶斯模型、随机森林等。分析的结果从来不用担心没有差异基因,而是要考虑差异基因可能存在很多,从几十个到上百个不等,那么如何展示他们呢,一张简单粗暴的大表格吗?肯定是不行的!

      需要把上游的这些差异基因再进行注释、分组,一个类别就相当于一个GO term,然后看这几大类的区别,肯定比看几十甚至上百个基因或蛋白的差异要更加直观,这就是富集分析,包括GO分析,KEGG分析,GSEA分析等。其中重点研究的基因集叫做前景基因,需要比对的所有基因集叫背景基因,前景是背景的子集。例如转录组数据中的对照组和处理组,处理与对照之间的差异基因就是前景基因,两组所有的表达基因就是背景基因。富集分析的目的就是根据不同功能,把各个分子进行分类,然后使用超几何分布检验进行分析。当然使用不同工具,得到的结果不同,现在clusterProfiler要比DAVID的结果更多。

      GO分析(Gene Ontology)

      包括GO terms(标签)+GO annotations(注释)。

      • GO terms存在于由基因本体联合会(Gene Ontology Consortium)建立的数据库中,对基因和蛋白功能进行限定和描述,每个注释信息都有一个GO ID。它由两部分构成,第一部分都是GO,第二部分是以0开头的7位数字,例如GO:0016021 。

        GO是一个情报员,他负责调查:包括基因的分子功能:“干啥的”(molecular function,MF),指分子所执行的任务【如与碳水化合物结合或ATP水解酶活性等】、细胞组分:“活动区域”即产物发挥作用的位置(cellular component,CC)【如核仁、端粒和识别起始的复合物】、参与的生物过程:“近期有什么动静”(biological process,BP)【嘌呤代谢、有丝分裂等】GO调查完就给被查对象贴标签term

      • GO annotations即GO注释,是针对基因产物的而不是基因,表示某些基因的产物是是非编码RNA、蛋白质还是大分子等。这里GO就相当于一个中间媒介,它对基因进行定义GO term,然后其他各个数据库使用GO的定义方法,对它们的基因产物进行标注,例如一个数据库的EntrezID或SYMBOL与GO数据库进行ID对应,或者用一个数据库的序列与GO term进行对应。

      在一个GO注释中,例如,一个基因的产物是细胞色素c(cytochrome c),那么这个基因的产物就会被一个分子功能术语(Molecular Function)描述为氧化还原酶活性(oxidoreductase activity ),被生物过程(Biological Process)描述为氧化磷酸化(oxidative phosphorylation ),被细胞成分(Cellular Component )描述为线性体基质(mitochondrial matrix )和线粒体内膜(mitochondrial inner membrane )~引用自“读研笔记”

      pathway代谢通路

      GO负责分门别类,而pathway负责把每一类对应到具体的代谢网络中。研究pathway的原因是:生物学问题中设定一个“蝴蝶效应”假设:1个Pathway上游基因的改变,会导致下游相关基因改变,从而改变通路中大量基因的表达。现在常用是KEGG,但是它收录的都是是已有的研究结果,而这些信息,还没有完善

      . 熟悉一下Bioconductor

      Bioconductor拥有上千个扩展包,主要有实验数据包、软件包、注释数据包三大类,例如白血病的ALL包就是利用Affymetrix进行芯片分析的数据包;但最重要的当属软件包

      软件包:

      1 . 注释:GO、Pathway等

      2 . 微阵列板块(Assay Domains):处理芯片数据,Bioconductor支持主流的Affymetrix的商业化单色寡聚核苷酸芯片,也支持用户定制的双色cDNA芯片。芯片数据一般流程:数据预处理、差异表达基因筛选、聚类分析。这里的包有以下几部分:

      • 比较基因组杂交(Comparative Genomic Hybridization, CGH)

      • 细胞水平检测(Cell Based Assays)

      • 染色质免疫共沉淀芯片(ChIPchip)

      • 拷贝数变异(Copy Number Variants)

      • CpG岛(CpGIsland)

      • 差异表达(Differential Expression)

      • DNA甲基化(DNA Methylation)

      • 外显子检测(Exon Assay)

      • 基因表达(Gene Expression)

      • 遗传变异性(Genetic Variability)

      • 单核苷酸多态性(SNP)

      • 转录

      3 . 测序技术(Assay techs)

      • 芯片技术(Microassay)

      • 微孔板检测(Microtitre Plate Assayå)

      • 质谱(Mass Spectrometry)

      • 基因表达系列分析(SAGE)

      • 流式细胞仪(Flow Cytometry)

      • NGS

      4 . 数据处理:基因芯片数据预处理(背景矫正、归一化、质控)、芯片分析、基因间关系、样本间关系、识别差异基因

      聚类分析(Clustering)、分类(Classification)、富集分析(Enrichment)、多组比较(Multiple Comparison)、预处理(Preprocessing)、质控、序列匹配、时间序列分析(Time Course)、可视化、网络分析


      点击底部的“阅读原文”,获得更好的阅读体验哦😻

      初学生信,很荣幸带你迈出第一步。

      我们是生信星球,一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言、联系微信或发送邮件到Bioplanet520@outlook.com

      R plus 生物~Bioconductor

      测试结尾

      请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!

      • 分享:
      作者头像
      weinfoeditor

      上一篇文章

      干货贴 | 如何做一张漂亮的poster?
      2018年9月7日

      下一篇文章

      【R Tip】使用vtreat包进行数据准备
      2018年9月11日

      你可能也喜欢

      8-1651673488
      生信零基础入门学习小组长期报名中(2022仍继续)
      7 4月, 2022
      2-1651673738
      简化版的ROC曲线
      21 2月, 2022
      8-1651674718
      支持向量机模型
      19 11月, 2021

      搜索

      分类

      • R语言
      • TCGA数据挖掘
      • 单细胞RNA-seq测序
      • 在线会议直播预告与回放
      • 数据分析那些事儿分类
      • 未分类
      • 生信星球
      • 老俊俊的生信笔记

      投稿培训

      免费

      alphafold2培训

      免费

      群晖配置培训

      免费

      最新博文

      Nature | 单细胞技术揭示衰老细胞与肌肉再生
      301月2023
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      301月2023
      如何快速批量修改 Git 提交记录中的用户信息
      261月2023
      logo-eduma-the-best-lms-wordpress-theme

      (00) 123 456 789

      weinfoadmin@weinformatics.cn

      恒诺新知

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      链接

      • 课程
      • 事件
      • 展示
      • 问答

      支持

      • 文档
      • 论坛
      • 语言包
      • 发行状态

      推荐

      • iHub汉语代码托管
      • iLAB耗材管理
      • WooCommerce
      • 丁香园论坛

      weinformatics 即 恒诺新知。ICP备案号:粤ICP备19129767号

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      要成为一名讲师吗?

      加入数以千计的演讲者获得100%课时费!

      现在开始

      用你的站点账户登录

      忘记密码?

      还不是会员? 现在注册

      注册新帐户

      已经拥有注册账户? 现在登录

      close
      会员购买 你还没有登录,请先登录
      • ¥99 VIP-1个月
      • ¥199 VIP-半年
      • ¥299 VIP-1年
      在线支付 激活码

      立即支付
      支付宝
      微信支付
      请使用 支付宝 或 微信 扫码支付
      登录
      注册|忘记密码?