• 主页
  • 课程

    关于课程

    • 课程归档
    • 成为一名讲师
    • 讲师信息
    alphafold2培训

    alphafold2培训

    免费
    阅读更多
  • 特色
    • 展示
    • 关于我们
    • 问答
  • 事件
  • 个性化
  • 博客
  • 联系
  • 站点资源
    有任何问题吗?
    (00) 123 456 789
    weinfoadmin@weinformatics.cn
    注册登录
    恒诺新知
    • 主页
    • 课程

      关于课程

      • 课程归档
      • 成为一名讲师
      • 讲师信息
      alphafold2培训

      alphafold2培训

      免费
      阅读更多
    • 特色
      • 展示
      • 关于我们
      • 问答
    • 事件
    • 个性化
    • 博客
    • 联系
    • 站点资源

      老俊俊的生信笔记

      • 首页
      • 博客
      • 老俊俊的生信笔记
      • python 学习之提取 GTF 文件转录本序列

      python 学习之提取 GTF 文件转录本序列

      • 发布者 weinfoadmin
      • 分类 老俊俊的生信笔记
      • 日期 2021年12月30日
      测试开头

      学而时习之,不亦说乎

      python 学习之提取 GTF 文件转录本序列

      1引言

      我们之前根据 GTF 文件筛选并 导出了最长转录本对应的 gtf 文件, 我们可以进一步利用这个文件,结合下载的 基因组序列文件 来 提取最长转录本的序列信息 。

      当然也可以提取所有 gtf 文件里的转录本的序列。

      2加入狗窝

      欢迎加入我的狗窝, 更多资料, 知识, 代码, 技能 等你发现:

      python 学习之提取 GTF 文件转录本序列

      3读取基因组文件

      我们知道对于 人和小鼠等基因组文件是很大的, 我们利用一般 逐行读取储存为字典 的方法操作 效率很慢 :

      # 将基因组读取为字典
      genome = {}

      with open('GRCm39.primary_assembly.genome.fa','r') as genoemefa:
          for line in genoemefa:
              if line.startswith('>'):
                  name = line.replace('n','')
                  key = name[1:]
                  genome[key] = ''
              else:
                  genome[key] += line.replace('n','')

      上面要等好长一段时间,我们前几期介绍了 pyfastx 软件,可以快速读取进来:

      import pyfastx

      # 读取基因组
      genome = pyfastx.Fasta('Mus_musculus.GRCm39.dna.primary_assembly.fa.gz')

      # 提取序列
      genome.fetch('1',(1,10))

      'NNNNNNNNNN'

      4提取序列

      基本思路是根据 exon 来识别, 正链则根据位置从基因组来提取 exon 序列,多个就连接起来, 负链则取反向互补序列进行连接储存,最终保存在字典里:

      测试结尾

      请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!

      • 分享:
      作者头像
      weinfoadmin

      上一篇文章

      python 学习之 提取 Ensembl,Gencode 和 Ucsc 基因 TSS 位点
      2021年12月30日

      下一篇文章

      3天,我把数据可视化Python、Tableau、Excel 透视表撸干净了!
      2021年12月31日

      你可能也喜欢

      8-1651542331
      跟着Nature学绘图(2) 箱线图-累积分布曲线图
      2 5月, 2022
      9-1651542322
      Julia 笔记之字符串
      2 5月, 2022
      0-1651542343
      Julia 笔记之数学运算和初等函数
      1 5月, 2022

      搜索

      分类

      • R语言
      • TCGA数据挖掘
      • 单细胞RNA-seq测序
      • 在线会议直播预告与回放
      • 数据分析那些事儿分类
      • 未分类
      • 生信星球
      • 老俊俊的生信笔记

      投稿培训

      免费

      alphafold2培训

      免费

      群晖配置培训

      免费

      最新博文

      白介素-17受体信号的自主激活,维持炎症并促进疾病进展
      048月2023
      MCT4依赖的乳酸分泌抑制LKB1缺陷肺腺癌的抗肿瘤免疫
      187月2023
      Nature | 单细胞技术揭示衰老细胞与肌肉再生
      301月2023
      logo-eduma-the-best-lms-wordpress-theme

      (00) 123 456 789

      weinfoadmin@weinformatics.cn

      恒诺新知

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      链接

      • 课程
      • 事件
      • 展示
      • 问答

      支持

      • 文档
      • 论坛
      • 语言包
      • 发行状态

      推荐

      • iHub汉语代码托管
      • iLAB耗材管理
      • WooCommerce
      • 丁香园论坛

      weinformatics 即 恒诺新知。ICP备案号:粤ICP备19129767号

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      要成为一名讲师吗?

      加入数以千计的演讲者获得100%课时费!

      现在开始

      用你的站点账户登录

      忘记密码?

      还不是会员? 现在注册

      注册新帐户

      已经拥有注册账户? 现在登录

      close
      会员购买 你还没有登录,请先登录
      • ¥99 VIP-1个月
      • ¥199 VIP-半年
      • ¥299 VIP-1年
      在线支付 激活码

      立即支付
      支付宝
      微信支付
      请使用 支付宝 或 微信 扫码支付
      登录
      注册|忘记密码?