基于 featureCounts 原理提取基因非冗余外显子长度
测试开头

测试结尾
灵魂归处便是家

1引言
前面我们探索了 featureCounts 软件是如果整合计算一个基因的不同转录本外显子长度的原理。就是非冗余外显子长度的总和长度
。
我们经常会遇到手里 只有 counts 表达矩阵, 却没有基因长度信息, 如果想要计算 FPKM/RPKM/TPM
的话都需要 基因长度信息。
基于此,我可以利用 featureCounts 软件的原理计算 GTF 文件的 基因非冗余外显子的长度信息
导出保存。我研究了一天,分别写了 R 脚本 和 python 脚本 都可以提取。
R 代码提取原理是基于 gtf 数据框格式,对外显子取并集。而 python 代码则是对元素进行去重达到取并集的效果。此外, python 提取速度会比 R 里面快很多,毕竟有 60000 + 个基因!
2R 语言提取代码
我们拿 200 个基因进行测试:
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!