• 主页
  • 课程

    关于课程

    • 课程归档
    • 成为一名讲师
    • 讲师信息
    同等学历教学

    同等学历教学

    免费
    阅读更多
  • 特色
    • 展示
    • 关于我们
    • 问答
  • 事件
  • 个性化
  • 博客
  • 联系
  • 站点资源
    有任何问题吗?
    (00) 123 456 789
    weinfoadmin@weinformatics.cn
    注册登录
    恒诺新知
    • 主页
    • 课程

      关于课程

      • 课程归档
      • 成为一名讲师
      • 讲师信息
      同等学历教学

      同等学历教学

      免费
      阅读更多
    • 特色
      • 展示
      • 关于我们
      • 问答
    • 事件
    • 个性化
    • 博客
    • 联系
    • 站点资源

      未分类

      • 首页
      • 博客
      • 未分类
      • 转录组入门系列:3,了解参考基因组及基因注释

      转录组入门系列:3,了解参考基因组及基因注释

      • 发布者 一览
      • 分类 未分类
      • 日期 2020年3月4日
      • 评论 0评论

      转自: https://www.jianshu.com/p/3e545b9a3c68

      转录组入门(4):了解参考基因组及基因注释
      在UCSC下载hg19参考基因组,我博客有详细说明,从gencode数据库下载基因注释文件,并且用IGV去查看你感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。
      作业,截图几个基因的IGV可视化结构!还可以下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构。了解IGV常识

      准备工作

      参考基因组

      测序得到的是几百bp的短read, 相当于把拼图打散了给你。如果没有参考基因组,从头(de novo)组装等于是重走人类基因组计划的老路,也就是打散了拼图,却不告诉你原来是什么样子,那么任务将会及其艰巨。
      还好人类基因组已经组装好了,我们只需要把我们测得序列回贴(mapping)回去,毕竟人与人之间的差距只有不到1%差异, 允许mismatch就行。

      因此第一步就是要去UCSC(http://genome.ucsc.edu/index.html)下载hg19参考基因组(文献要求)

      不同文件的所包含的数据在该页面有介绍,其中

      chromFa.tar.gz – The assembly sequence in one file per chromosome.Repeats from RepeatMasker and Tandem Repeats Finder (with period of 12 or less) are shown in lower case; non-repeating sequence is shown in upper case.

      我将数据存放在Windows的F盘的Data文件夹下,用于后续操作

      cd /mnt/f/Data
      mkdir reference && cd reference
      mkdir -p genome/hg19 && cd genome/hg19
      nohup wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
      tar -zvf chromFa.tar.gz
      cat *.fa > hg19.fa
      rm chr*

      下面的内容是Jimmy在【直播】我的基因组(五):测试数据及参考基因组的准备关于参考基因组的介绍

      这个对新手来说,是一个很大的坑,hg19、GRCH37、 ensembl 75这3种基因组版本应该是大家见得比较多的了,国际通用的人类参考基因组,其实他们储存的是同样的fasta序列,只是分别对应着三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC及ENSEMBL各自发布的基因组信息而已。有一些参考基因组比较小众,存储的序列也不一样,比如BGI做的炎黄基因组,还有DNA双螺旋结构提出者沃森(Watson)的基因组,还有2016年发表在nature上面的号称最完善的韩国人做的基因组。前期我们先不考虑这些小众基因组,主要就下载hg19和hg38,都是UCSC提供的,虽然hg38相比hg19来说,做了很多改进,优点也不少,但因为目前为止很多注释信息都是针对于hg19的坐标系统来的,我们就都下载了,正好自己探究一下。也顺便下载一个小鼠的最新版参考基因组吧,反正比对也就是睡个觉的功夫,顺便分析一下结果,看看比对率是不是很低。

      吐槽: Jimmy大神的博客排版真的是非常考验我们对知识的渴望,每当看到他的排版的时候,我必须得忍住不去点击浏览器右上角。为了求知,我忍了。

      注释信息

      然而参考基因组是一部无字天书,要想解读书中的内容,需要额外的注释信息协助。
      因此第二步,就是去gencode数据库(http://www.gencodegenes.org/)下载基因组注释文件。

      看了下面这个图,我才明白Jimmy为什么会吐槽基因组各种版本对应关系了。

      又到了GTF还是GFF3的抉择时刻,简单介绍了一下他们的格式

      GTF(General Transfer Format)其实就是GFF2,以Tab分割,分为如下几列

      1. seqname – name of the chromosome or scaffold; chromosome names can be given with or without the ‘chr’ prefix. Important note: the seqname must be one used within Ensembl, i.e. a standard chromosome name or an Ensembl identifier such as a scaffold ID, without any additional content such as species or assembly. See the example GFF output below.
      2. source – name of the program that generated this feature, or the data source (database or project name)
      3. feature – feature type name, e.g. Gene, Variation, Similarity
      4. start – Start position of the feature, with sequence numbering starting at 1.
      5. end – End position of the feature, with sequence numbering starting at 1.
      6. score – A floating point value.
      7. strand – defined as + (forward) or – (reverse).
      8. frame – One of ‘0’, ‘1’ or ‘2’. ‘0’ indicates that the first base of the feature is the first base of a codon, ‘1’ that the second base is the first base of a codon, and so on..
      9. attribute – A semicolon-separated list of tag-value pairs, providing additional information about each feature.

      而GFF3(General Feature Format)的格式如下

      1. seqid – name of the chromosome or scaffold; chromosome names can be given with or without the ‘chr’ prefix. Important note: the seq ID must be one used within Ensembl, i.e. a standard chromosome name or an Ensembl identifier such as a scaffold ID, without any additional content such as species or assembly. See the example GFF output below.
      2. source – name of the program that generated this feature, or the data source (database or project name)
      3. type – type of feature. Must be a term or accession from the SOFA sequence ontology
      4. start – Start position of the feature, with sequence numbering starting at 1.
      5. end – End position of the feature, with sequence numbering starting at 1.
      6. score – A floating point value.
      7. strand – defined as + (forward) or – (reverse).
      8. phase – One of ‘0’, ‘1’ or ‘2’. ‘0’ indicates that the first base of the feature is the first base of a codon, ‘1’ that the second base is the first base of a codon, and so on..
      9. attributes – A semicolon-separated list of tag-value pairs, providing additional information about each feature. Some of these tags are predefined, e.g. ID, Name, Alias, Parent – see the GFF documentation for more details.

      看不出来有啥区别,不想纠结就全下载好了。

      nohup wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gtf.gz &
      nohuop wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gff3.gz &

      我们对文字的理解能力远远小于图片,所以下一步需要下载基因组浏览器

      IGV, Integrative Genomics Viewer

      下载地址为: http://software.broadinstitute.org/software/igv/download
      Windows下载如下版本, 会自带一个java运行环境

      双击igv.bat, 就会出现运行界面。

      通过genome -> Load Genome From Files加载之前得到基因组文件。

      进一步,还需要加载gff基因注释文件,File -> Load From Files

      显示未排序出错,可以使用Tool -> Run igvtools,进行排序。

      之后就可以重新加载排序后的gtf文件进行操作。生信宝典写过一篇文章介绍测序数据可视化(http://mp.weixin.qq.com/s/Q7pqycmQH58xU6hw_LECWA) 我也在看文档摸索中,先放上基因截图

      下面这张图是来自于几个月前Jimmy对高通量测序的理解,提供数据的截图

      请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!

      • 分享:
      作者头像
      一览

      上一篇文章

      转录组入门系列:2,质量控制
      2020年3月4日

      下一篇文章

      转录组入门系列:4, 序列比对
      2020年3月4日

      你可能也喜欢

      2-1675088548
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      30 1月, 2023
      9-1675131201
      如何快速批量修改 Git 提交记录中的用户信息
      26 1月, 2023
      8-1678501786
      肿瘤细胞通过改变CD8+ T细胞中的丙酮酸利用和琥珀酸信号来调控抗肿瘤免疫应答。
      7 12月, 2022

      留言 取消回复

      要发表评论,您必须先登录。

      搜索

      分类

      • R语言
      • TCGA数据挖掘
      • 单细胞RNA-seq测序
      • 在线会议直播预告与回放
      • 数据分析那些事儿分类
      • 未分类
      • 生信星球
      • 老俊俊的生信笔记

      投稿培训

      免费

      alphafold2培训

      免费

      群晖配置培训

      免费

      最新博文

      Nature | 单细胞技术揭示衰老细胞与肌肉再生
      301月2023
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      301月2023
      如何快速批量修改 Git 提交记录中的用户信息
      261月2023
      logo-eduma-the-best-lms-wordpress-theme

      (00) 123 456 789

      weinfoadmin@weinformatics.cn

      恒诺新知

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      链接

      • 课程
      • 事件
      • 展示
      • 问答

      支持

      • 文档
      • 论坛
      • 语言包
      • 发行状态

      推荐

      • iHub汉语代码托管
      • iLAB耗材管理
      • WooCommerce
      • 丁香园论坛

      weinformatics 即 恒诺新知。ICP备案号:粤ICP备19129767号

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      要成为一名讲师吗?

      加入数以千计的演讲者获得100%课时费!

      现在开始

      用你的站点账户登录

      忘记密码?

      还不是会员? 现在注册

      注册新帐户

      已经拥有注册账户? 现在登录

      close
      会员购买 你还没有登录,请先登录
      • ¥99 VIP-1个月
      • ¥199 VIP-半年
      • ¥299 VIP-1年
      在线支付 激活码

      立即支付
      支付宝
      微信支付
      请使用 支付宝 或 微信 扫码支付
      登录
      注册|忘记密码?