• 主页
  • 课程

    关于课程

    • 课程归档
    • 成为一名讲师
    • 讲师信息
    同等学历教学

    同等学历教学

    免费
    阅读更多
  • 特色
    • 展示
    • 关于我们
    • 问答
  • 事件
  • 个性化
  • 博客
  • 联系
  • 站点资源
    有任何问题吗?
    (00) 123 456 789
    weinfoadmin@weinformatics.cn
    注册登录
    恒诺新知
    • 主页
    • 课程

      关于课程

      • 课程归档
      • 成为一名讲师
      • 讲师信息
      同等学历教学

      同等学历教学

      免费
      阅读更多
    • 特色
      • 展示
      • 关于我们
      • 问答
    • 事件
    • 个性化
    • 博客
    • 联系
    • 站点资源

      未分类

      • 首页
      • 博客
      • 未分类
      • (未测试)TCGA 拷贝数变异(CNV)分析

      (未测试)TCGA 拷贝数变异(CNV)分析

      • 发布者 weinfoauthor
      • 分类 未分类
      • 日期 2020年2月10日
      • 评论 0评论

      参考网址:https://www.jianshu.com/p/4312a453b4a4?clicktime=1577968864

      背景

      查看某些基因在特定癌症里是不是发生了拷贝数变异。

      最简单的方法

      直接去一些分析网站上查看,当然也有一些弊端,例如数据更新滞后,没有给出明确的分析方法和判断标准等,心中不踏实。

      • TCGA Copy Number Portal(http://portals.broadinstitute.org/tcga/home)这个网站直接可以查找特定癌症里某些基因是发生了扩增(Amplifications) 还是删除 Deletions,以及q值和突变频率。

      CbioPortal( https://www.cbioportal.org/) 这个网站中也能找到TCGA某个癌症中某个基因的扩增和删除以及频率。但是查看所有数据后会发现一个基因是在不同个体中是可以扩增也可以是删除的,合理但是也会困惑。同时这个网站也没办法告诉你扩增和删除的程度是多少。所以如果只是初步查看是可以的,但实际来分析数据做出漂亮的图是不行的。

      TCGA 基本流程和文件

      • TCGA CNV pipeline . TCGA的CNV数据都是来自于 Affymetrix SNP 6.0 array。首先是使用 DNAcopy 进行了处理(暂时没时间,还不清楚方法和原理,也觉得没必要从头开始,除非是处理最原始的数据),得到一个基因区间和此区间的拷贝数的表(Copy Number Segmentation),如下共6列。最后一列Segment_Mean值就是 log2(copy_number/ 2), 正常来说人是二倍体生物则此value值为0,如果拷贝数小于2(删除)则小于0,拷贝数大于2(扩增)则大于0.

      此数据可以通过多种途径下载,但是还是要注意一些坑的。1) 最好的方法是直接去TCGA下载,更新的快,但看到443个病例有918个拷贝数变异数据。。。因为里边基本有一半是正常样本的数据不是肿瘤组织数据。2) 其次可以去 https://xenabrowser.net/ 下载将多个样本合并好的数据,但是少了Num_probes这一列,对后续分析还是有一定影响的。 3) 使用http://gdac.broadinstitute.org/ 下载整合好的数据,但是数据很古老停留在了2016年,而且参考基因组是hg19,前面两个网站使用的是hg38。

      • 另一个相似的数据是 Masked Copy Number Segment, 此表是在上面数据上过滤掉了一些与生殖和性染色体相关的数据。
      • 最后一个相关的表是 Copy Number Estimation ,是将序列区间聚焦到了基因上并评估基因是否是扩增或者缺失的。此数据是使用软件 GISTIC2 对  Masked Copy Number Segment进行处理后结果文件focal_data_by_genes.txt 的进一步加工,小于-0.3的值记作-1,大于0.3记作1,-0.3~0.3记作0.
      • 在GDC中此表格叫做 Gene Level Copy Number Scores,并且是汇总好的。

      拷贝数变异显著性检验

      处理CNV数据的一个挑战是我们不知道某个基因或者片段的拷贝数改变是随机的还是在特定表型(癌症)中重复出现,需要一些统计方法来检验显著性,当然样本越多越好。如果感兴趣可以查看相关的文章:

      • Detecting independent and recurrent copy number aberrationsusing interval graphs

      GISTIC2.0 facilitates sensitive and confident localization of the targets of focal somatic copy-number alteration in human cancers

      • Mutational Landscape of the Essential Autophagy Gene BECN1 in Human Cancers

      总结下,分别使用了RAIG、GAIA、GISTIC2、Fisher exact test 方法,大概只有第四种最简单了吧。。但好像也是依赖于GISTIC处理的。

      我们就使用TCGA官方使用的GISTIC2.0 软件吧,虽然官方也用这个软件做了处理给出了我们一个阉割版的focal_data_by_genes.txt 文件,GISTIC2结果文件是很多的,在使用 R包 **vaftools **进行作图的时候需要多个结果文件作为输入。

      GISTIC2使用

      我没有下载安装这个软件,所以不介绍安装方法。但是有更好的解决方法,在 Genepattern(https://cloud.genepattern.org/) 云分析平台中有GISTIC2模块,可以直接注册使用,缺点是上传数据有点慢。详细使用方法请查看 ftp://ftp.broadinstitute.org/pub/GISTIC2.0/GISTICDocumentation_standalone.htm

      输入文件需要:

      • Segmentation File,这个前面已经介绍过,使用TCGA Masked Copy Number Segment 文件。使用R语言下载整理例子如下,主要是选择”Masked Copy Number Segment”并只保留肿瘤样本(”01A”)。
      library(dplyr)
      library(TCGAbiolinks)
      query <- GDCquery(project = "TCGA-STAD", 
                        data.category = "Copy Number Variation", 
                        data.type = "Masked Copy Number Segment")
      
      GDCdownload(query, method = "api", files.per.chunk = 100)
      segment_dat <- GDCprepare(query = query)
      
      segment_dat$Sample <- substring(segment_dat$Sample,1,16)
      segment_dat <- grep("01A$",segment_dat$Sample) %>% 
        segment_dat[.,]
      segment_dat[,1] <- segment_dat$Sample
      segment_dat <- segment_dat[,-7]
      
      write.table(segment_dat,"MaskedCopyNumberSegment.txt",sep="\t",
                  quote = F,col.names = F,row.names = F)
      • Markers File,下载地址 https://gdc.cancer.gov/about-data/data-harmonization-and-generation/gdc-reference-files,选择文件 SNP6 GRCh38 Remapped Probeset File for Copy Number Variation Analysis,并注意提示 If you are using Masked Copy Number Segment for GISTIC analysis, please only keep probesets with freqcnv = FALSE ,所以只保留 freqcnv = FALSE 的行和前三列。
      • Reference Genome File,此文件云平台中直接有,但要选择好是hg19还是hg38。

      来自TCGA官方的参数:

      gistic2 
      -b <base_directory> 
      -seg <segmentation_file> 
      -mk <marker_file> 
      -refgene <reference_gene_file> 
      -ta 0.1 
      -armpeel 1 
      -brlen 0.7 
      -cap 1.5 
      -conf 0.99 
      -td 0.1 
      -genegistic 1 
      -gcm extreme 
      -js 4 
      -maxseg 2000 
      -qvt 0.25 
      -rx 0 
      -savegene 1 
      (-broad 1)
      

      输出文件:

      del_qplot.png
      all_data_by_genes.txt
      focal_data_by_genes.txt
      all_lesions.conf_95.txt
      gistic_inputs.mat
      all_thresholded.by_genes.txt
      raw_copy_number.pdf
      amp_genes.conf_95.txt
      raw_copy_number.png
      amp_qplot.pdf
      regions_track.conf_95.bed
      amp_qplot.png
      sample_cutoffs.txt
      broad_data_by_genes.txt
      sample_seg_counts.txt
      del_genes.conf_95.txt
      scores.gistic
      del_qplot.pdf
      

      结果文件作为 maftool 包输入,根据需要可以做多个图,如下

      当然你也可以根据自己需要使用RCircos包可视化等。

      请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!

      • 分享:
      weinfoauthor
      weinfoauthor

      1233

      上一篇文章

      一天21篇nature,PCAWG火力全开,数据分析进入下一个时代
      2020年2月10日

      下一篇文章

      EbioMedicince:疾病和肿瘤联合的纯生信分析套路
      2020年2月11日

      你可能也喜欢

      2-1675088548
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      30 1月, 2023
      9-1675131201
      如何快速批量修改 Git 提交记录中的用户信息
      26 1月, 2023
      8-1678501786
      肿瘤细胞通过改变CD8+ T细胞中的丙酮酸利用和琥珀酸信号来调控抗肿瘤免疫应答。
      7 12月, 2022

      留言 取消回复

      要发表评论,您必须先登录。

      搜索

      分类

      • R语言
      • TCGA数据挖掘
      • 单细胞RNA-seq测序
      • 在线会议直播预告与回放
      • 数据分析那些事儿分类
      • 未分类
      • 生信星球
      • 老俊俊的生信笔记

      投稿培训

      免费

      alphafold2培训

      免费

      群晖配置培训

      免费

      最新博文

      Nature | 单细胞技术揭示衰老细胞与肌肉再生
      301月2023
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      301月2023
      如何快速批量修改 Git 提交记录中的用户信息
      261月2023
      logo-eduma-the-best-lms-wordpress-theme

      (00) 123 456 789

      weinfoadmin@weinformatics.cn

      恒诺新知

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      链接

      • 课程
      • 事件
      • 展示
      • 问答

      支持

      • 文档
      • 论坛
      • 语言包
      • 发行状态

      推荐

      • iHub汉语代码托管
      • iLAB耗材管理
      • WooCommerce
      • 丁香园论坛

      weinformatics 即 恒诺新知。ICP备案号:粤ICP备19129767号

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      要成为一名讲师吗?

      加入数以千计的演讲者获得100%课时费!

      现在开始

      用你的站点账户登录

      忘记密码?

      还不是会员? 现在注册

      注册新帐户

      已经拥有注册账户? 现在登录

      close
      会员购买 你还没有登录,请先登录
      • ¥99 VIP-1个月
      • ¥199 VIP-半年
      • ¥299 VIP-1年
      在线支付 激活码

      立即支付
      支付宝
      微信支付
      请使用 支付宝 或 微信 扫码支付
      登录
      注册|忘记密码?