基于 GTF 文件提取 CDS 最长转录本序列
测试开头

1引言
测试结尾
happy new year!

1引言
前面讲到从 gencode
数据框直接下载蛋白编码的序列 来筛选 CDS 最长的转录本,因为每个转录本序列的 ID 官方已经整理好了,比如转录本长度
,CDS 区起始位置和终止位置
,5'UTR 区域和 3'UTR 区域位置
等信息。
此外这个数据库只有人和小鼠物种的,如果是其它物种就办不了这样的事情了,于是我想了如何从 GTF 文件去整理这样的信息,然后再去提取 CDS 最长的转录本,这样对于其它物种也可以使用了。
困难:
直接拿 GTF 文件去整理还是有一定难度的,大体思路如下:
计算所有转录本长度 计算蛋白编码基因的 CDS 区域长度 计算蛋白编码基因的 CDS 起始位置和终止位置 提取最长 CDS 区域转录本 id 根据 id 提取对应的序列
接下来跟随我的脚本探索这个过程具体是怎样实现的吧。
GTF 文件为 ensembl 数据库下载的!
2提取 exon,cds,5’utr 长度信息
首先我们建立三个字典来保存每个转录本的 外显子长度, cds 长度, 5’utr 长度 信息:
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!