• 主页
  • 课程

    关于课程

    • 课程归档
    • 成为一名讲师
    • 讲师信息
    同等学历教学

    同等学历教学

    免费
    阅读更多
  • 特色
    • 展示
    • 关于我们
    • 问答
  • 事件
  • 个性化
  • 博客
  • 联系
  • 站点资源
    有任何问题吗?
    (00) 123 456 789
    weinfoadmin@weinformatics.cn
    注册登录
    恒诺新知
    • 主页
    • 课程

      关于课程

      • 课程归档
      • 成为一名讲师
      • 讲师信息
      同等学历教学

      同等学历教学

      免费
      阅读更多
    • 特色
      • 展示
      • 关于我们
      • 问答
    • 事件
    • 个性化
    • 博客
    • 联系
    • 站点资源

      未分类

      • 首页
      • 博客
      • 未分类
      • (未测试)R语言之生信,TCGA生存分析第三节

      (未测试)R语言之生信,TCGA生存分析第三节

      • 发布者 一览
      • 分类 未分类
      • 日期 2020年2月6日
      • 评论 0评论

      参考链接 https://www.jianshu.com/p/81378f4cb739

      TCGA
      癌症基因组图谱(TCGA)是国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)之间的合作,收集了33种癌症类型的大量临床和基因组数据。 整个TCGA数据集的基因表达超过2PB,数据类型包括CNV分析,SNP基因分型,DNA甲基化,miRNA分析,外显子组测序和其他类型的数据。 可以在cancergenome.nih.gov上了解有关TCGA的更多信息。 数据现在位于Genomic Data Commons Portal。 有很多方法可以访问TCGA数据而无需实际下载和解析来自GDC的数据。 我们将在下面介绍更多这些内容。 但首先,让我们看一个R包,它提供方便,直接的TCGA数据访问。

      # Try http:// if https:// doesn't work.
      source("https://bioconductor.org/biocLite.R")
      # Install the main RTCGA package
      biocLite("RTCGA")
      # Install the clinical and mRNA gene expression data packages
      biocLite("RTCGA.clinical")
      biocLite("RTCGA.mRNA")
      

      让我们加载RTCGA包,并使用infoTCGA()函数获取有关每种癌症类型可用数据类型的一些信息。

      library(RTCGA)
      infoTCGA()
      

      RTCGA临床数据的生存分析
      接下来,让我们加载RTCGA.clinical软件包,并获得一些有关可用内容的帮助。

      library(RTCGA.clinical)
      ?clinical
      

      这告诉我们所有可用于每种癌症类型的临床数据集。 如果我们只关注乳腺癌,请查看数据有多大! 仅此数据中有1098行乘3703列。 我们来看一些变量名。 这里要小心使用View(),数据太大,使用view会可能卡。

      我们将使用RTCGA包中的survivalTCGA()函数从临床数据中提取生存信息。 它通过查看生命状态(死亡或活着)并创建一个时间变量来实现这一点,该变量既可以是死亡天数,也可以是随访天数。 查看有关生存TCGA的帮助以获取更多信息。 您可以为其提供一个临床数据集列表,以及要提取的变量的字符向量。 让我们来看看乳腺癌,卵巢癌和多形性胶质母细胞瘤。 我们只是提取癌症类型(admin.disease_code)。

      # Create the clinical data
      clin <- survivalTCGA(BRCA.clinical, OV.clinical, GBM.clinical, 
                           extract.cols="admin.disease_code")
      # Show the first few lines
      head(clin)
      > head(clin)
        times bcr_patient_barcode patient.vital_status admin.disease_code
      1  3767        TCGA-3C-AAAU                    0               brca
      2  3801        TCGA-3C-AALI                    0               brca
      3  1228        TCGA-3C-AALJ                    0               brca
      4  1217        TCGA-3C-AALK                    0               brca
      5   158        TCGA-4H-AAAK                    0               brca
      6  1477        TCGA-5L-AAT0                    0               brca
      

      > # How many samples of each type?
      > table(clin$admin.disease_code)
      
      brca  gbm   ov 
      1098  595  576 
      

      # Tabulate by outcome
      xtabs(~admin.disease_code+patient.vital_status, data=clin) %>% addmargins()
      
                        patient.vital_status
      admin.disease_code    0    1  Sum
                    brca  994  104 1098
                    gbm   149  446  595
                    ov    279  297  576
                    Sum  1422  847 2269
      

      现在让我们针对疾病代码运行Cox PH模型。 默认情况下,它会将乳腺癌作为基线,因为按字母顺序排在第一位。 但是如果你想使用因子(),你可以重新排序。

      > coxph(Surv(times, patient.vital_status)~admin.disease_code, data=clin)
      Call:
      coxph(formula = Surv(times, patient.vital_status) ~ admin.disease_code, 
          data = clin)
      
                              coef exp(coef) se(coef)    z      p
      admin.disease_codegbm  2.887    17.948    0.113 25.6 <2e-16
      admin.disease_codeov   1.547     4.697    0.115 13.4 <2e-16
      
      Likelihood ratio test=904  on 2 df, p=0
      n= 2269, number of events= 847 
      

      这告诉我们,与基线brca组相比,GBM患者的危害增加了约18倍,卵巢癌患者的生存率降低了约5倍。 让我们创建一个生存曲线,用Kaplan-Meier图显示它,并显示前5年存活率的表格。

      
      sfit <- survfit(Surv(times, patient.vital_status)~admin.disease_code, data=clin)
      summary(sfit, times=seq(0,365*5,365))
      
      Call: survfit(formula = Surv(times, patient.vital_status) ~ admin.disease_code, 
          data = clin)
      
                      admin.disease_code=brca 
       time n.risk n.event survival std.err lower 95% CI upper 95% CI
          0   1096       0    1.000 0.00000        1.000        1.000
        365    588      13    0.981 0.00516        0.971        0.992
        730    413      11    0.958 0.00851        0.942        0.975
       1095    304      20    0.905 0.01413        0.878        0.933
       1460    207       9    0.873 0.01719        0.840        0.908
       1825    136      14    0.799 0.02474        0.752        0.849
      
                      admin.disease_code=gbm 
       time n.risk n.event survival std.err lower 95% CI upper 95% CI
          0    595       2   0.9966 0.00237       0.9920       1.0000
        365    224     257   0.5110 0.02229       0.4692       0.5567
        730     75     127   0.1998 0.01955       0.1649       0.2420
       1095     39      31   0.1135 0.01617       0.0858       0.1500
       1460     27       9   0.0854 0.01463       0.0610       0.1195
       1825     12       9   0.0534 0.01259       0.0336       0.0847
      
                      admin.disease_code=ov 
       time n.risk n.event survival std.err lower 95% CI upper 95% CI
          0    576       0    1.000  0.0000        1.000        1.000
        365    411      59    0.888  0.0139        0.861        0.915
        730    314      55    0.761  0.0198        0.724        0.801
       1095    210      59    0.602  0.0243        0.556        0.651
       1460    133      49    0.451  0.0261        0.402        0.505
       1825     78      39    0.310  0.0260        0.263        0.365
      

      ggsurvplot(sfit, conf.int=TRUE, pval=TRUE)
      

      从上面图可以看出,不同数据集的生存曲线明显存在差异。最好的乳腺癌,其次胶质母细胞瘤,最差的是卵巢癌。

      请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!

      • 分享:
      作者头像
      一览

      上一篇文章

      (未测试)R语言之生信,TCGA生存分析第二节
      2020年2月6日

      下一篇文章

      (未测试)R语言运行相关性分析
      2020年2月6日

      你可能也喜欢

      2-1675088548
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      30 1月, 2023
      9-1675131201
      如何快速批量修改 Git 提交记录中的用户信息
      26 1月, 2023
      8-1678501786
      肿瘤细胞通过改变CD8+ T细胞中的丙酮酸利用和琥珀酸信号来调控抗肿瘤免疫应答。
      7 12月, 2022

      留言 取消回复

      要发表评论,您必须先登录。

      搜索

      分类

      • R语言
      • TCGA数据挖掘
      • 单细胞RNA-seq测序
      • 在线会议直播预告与回放
      • 数据分析那些事儿分类
      • 未分类
      • 生信星球
      • 老俊俊的生信笔记

      投稿培训

      免费

      alphafold2培训

      免费

      群晖配置培训

      免费

      最新博文

      Nature | 单细胞技术揭示衰老细胞与肌肉再生
      301月2023
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      301月2023
      如何快速批量修改 Git 提交记录中的用户信息
      261月2023
      logo-eduma-the-best-lms-wordpress-theme

      (00) 123 456 789

      weinfoadmin@weinformatics.cn

      恒诺新知

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      链接

      • 课程
      • 事件
      • 展示
      • 问答

      支持

      • 文档
      • 论坛
      • 语言包
      • 发行状态

      推荐

      • iHub汉语代码托管
      • iLAB耗材管理
      • WooCommerce
      • 丁香园论坛

      weinformatics 即 恒诺新知。ICP备案号:粤ICP备19129767号

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      要成为一名讲师吗?

      加入数以千计的演讲者获得100%课时费!

      现在开始

      用你的站点账户登录

      忘记密码?

      还不是会员? 现在注册

      注册新帐户

      已经拥有注册账户? 现在登录

      close
      会员购买 你还没有登录,请先登录
      • ¥99 VIP-1个月
      • ¥199 VIP-半年
      • ¥299 VIP-1年
      在线支付 激活码

      立即支付
      支付宝
      微信支付
      请使用 支付宝 或 微信 扫码支付
      登录
      注册|忘记密码?