当年被excel搞乱的基因名,得救了
测试开头

今天是生信星球陪你的第812天
大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~
就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~
这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!

测试结尾



excel 乱改基因名,早有记载
遥想当年,我们还在全国巡讲的路上。。。这个坑就浮出水面了:听说Excel表格动了你的基因名?

好好的SEPT10,因为在excel打开过,基因名被搞成了10-Sep这样的日期格式。很多大佬踩过这个坑啦。
除了excel的坑,其实还有可能因为手打基因名或者使用别名,大小写等原因,导致基因名混乱不堪。今天豆豆发现了一个宝藏R包,填坑专用。
宝藏R包HGNChelper
这种切实解决问题,而且安装简单、使用方便的R包,简直没有理由拒绝。
注意:仅支持人类和小鼠哦。
作者把使用教程写进了vinettes里面https://cran.r-project.org/web/packages/HGNChelper/vignettes/index.html
人类
library(HGNChelper)
human = c("FN1", "tp53", "UNKNOWNGENE","7-Sep", "9/7", "1-Mar", "Oct4", "4-Oct",
"OCT4-PG4", "C19ORF71", "C19orf71")
checkGeneSymbols(human)
#> Maps last updated on: Thu Oct 24 12:31:05 2019
#> Warning in checkGeneSymbols(human): Human gene symbols should be all upper-
#> case except for the 'orf' in open reading frames. The case of some letters
#> was corrected.
#> Warning in checkGeneSymbols(human): x contains non-approved gene symbols
#> x Approved Suggested.Symbol
#> 1 FN1 TRUE FN1
#> 2 tp53 FALSE TP53
#> 3 UNKNOWNGENE FALSE <NA>
#> 4 7-Sep FALSE SEPTIN7
#> 5 9/7 FALSE SEPTIN7
#> 6 1-Mar FALSE MTARC1 /// MARCHF1
#> 7 Oct4 FALSE POU5F1
#> 8 4-Oct FALSE POU5F1
#> 9 OCT4-PG4 FALSE POU5F1P4
#> 10 C19ORF71 FALSE C19orf71
#> 11 C19orf71 TRUE C19orf71
小鼠
checkGeneSymbols(c("1-Feb", "Pzp", "A2m"), species="mouse")
#> Maps last updated on: Thu Oct 24 12:31:05 2019
#> Warning in checkGeneSymbols(c("1-Feb", "Pzp", "A2m"), species = "mouse"): x
#> contains non-approved gene symbols
#> x Approved Suggested.Symbol
#> 1 1-Feb FALSE Feb1
#> 2 Pzp FALSE <NA>
#> 3 A2m FALSE AI893533
总结
-
规范的基因名不动;
-
不规范但确实存在的基因名会被修正;
-
不存在的基因名填充NA(缺失值)
我的个人文章从简书全部迁移到了语雀,搜小洁忘了怎么分身即可找到,点击阅读原文可以跳转。如果因为不会R语言导致代码完全看不懂,可以看看下面的几个课程⏬都是滚动开班的。
插个小广告! 生信零基础入门学习小组 生信入门班(四周线上直播课,长期开班) 数据挖掘班(医生/医学生首选,三周线上直播课,长期开班) 21年5月起,数据挖掘线下重启(广州/成都/长沙),欢迎咨询 一起来学单细胞吗? 生信星球答疑公告
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!