IGV 导入本地基因组及注释文件
感谢老俊俊的大力支持。我们会每日跟新,欢迎您关注老俊俊的生信笔记。
点击上方关注“公众号”

思考
IGV 软件有 自带的基因组文件
和注释文件
,使用自带的还是方便一些。但是,其使用的注释文件和基因组文件可能与我们数据分析时的不一致,这时候我们可视化bigwig
文件或者bam
文件时可能就有问题了。其次, 基因组更新是比较慢 的,但是 注释文件更新的很快
,越来越多的新基因被鉴定出来,添加到注释文件里,注释文件就会有越来越多的新版本。推荐使用对应基因组版本的最新注释文件,这样得到的信息会更全一些。
有时候你用自己下载的 GTF 文件去定量后,在 IGV 里却找不到这个基因,这就是注释文件差异的问题。IGV 使用的注释文件好像时 UCSC 数据库的,所以载入自己的 GTF 文件才会准确一点。
今天就来总结一下 如何用 IGV 载入自己的基因组和注释文件
。

1、下载基因组和注释文件
我们去 ensembl
数据库下载:

左侧下载基因组,右边下载注释文件:

进去下载:Mus_musculus.GRCm39.dna.primary_assembly.fa.gz
和 Mus_musculus.GRCm39.104.gtf.gz
然后解压:



2、给基因组建索引
我们需要给下载的基因组建立索引,打开 IGV 软件,使用 igvtools 小工具:

选择 Index
,然后导入基因组文件,点击 run
就行了:

然后文件夹就会多一个 fai 结尾 的索引文件:


3、给注释文件排序、建索引
注释文件同样也需要建索引,不过在此之前需要 先排一下序,点击 igvtools 的 sort,导入注释文件点击 run 即可:

文件夹会产生一个 .sorted.gtf 后缀的排序好的 gtf 文件,我们再导入这个进行建索引:


4、导入文件
上面准备工作做完了,我们接下来在 IGV 里导入基因组文件
和排序好的 GTF 文件
,记得先导入基因组文件! :

再导入 GTF 文件:

随便查看几个基因结构:

可以看到每个基因都会有一条深蓝色的条形结构
,其实只是 gtf 文件每个基因的结构,即:该基因的起始位置一直到终止位置
。而下面的才是真正的转录本结构。

如果你有强迫症,不想让它们显示,可以在 linux 里把这些含 gene 对的行给去掉,再重新导入就没有了,记得重新建索引 :
$ less -S Mus_musculus.GRCm39.104.sorted.gtf | grep -w -v "gene" > no.gene.gtf
建完索引后再导入:

这样就没有了,我们看看序列,挑个起始密码子:


5、导出基因名和位置信息
如果我们使用 IGV 自带的注释文件,我们是可以根据基因名进行搜索的,但是加载自己的注释文件则不可以,只能根据位置进行查找,所以做一个含有基因名和位置信息的文件方便我们查找:

查看有多少个基因:
$ less -S Mus_musculus.GRCm39.104.sorted.gtf | grep -w "gene" |wc -l
55416
差不多 5 万多个基因,我们把位置信息
和基因名
提取出来:
$ less -S Mus_musculus.GRCm39.104.sorted.gtf
| grep -w "gene"
|awk '{print "chr"$1"t"$4"t"$5"t"$14}'
|sed 's/["|;]//g'
> gene.info.xls
结果:

我们直接在 excel 里搜到感兴趣基因,然后复制前 3 列到 IGV 里直接查找回车就行了:

查找结果:


6、另一种办法
其实不同数据库的基因组版本基本是一样
的,我们关注的主要是注释文件的差异
,所以我们 默认使用 IGV 软件自带的基因组和注释文件 ,然后导入自己的 GTF 注释文件就行了:

输入基因名可以自动检测:

导入注释文件:

更多的基因:

欢迎加入生信交流群。加我微信我也拉你进 微信群聊 老俊俊生信交流群
哦,代码已上传至QQ群文件夹。
群二维码:

老俊俊微信:
知识星球:
所以今天你学习了吗?
欢迎小伙伴留言评论!
今天的分享就到这里了,敬请期待下一篇!
最后欢迎大家分享转发,您的点赞是对我的鼓励和肯定!
如果觉得对您帮助很大,赏杯快乐水喝喝吧!
往期回顾
◀ComplexHeatmap 之 Legends 续(二)
◀ComplexHeatmap 之 Legends 续(一)
◀…
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!