[资源]hgnc给出的人类基因的超全信息文件
今天是生信星球陪你的第229天
大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~
就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~
这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!
我有一个超萌的师妹,送了我一个小白兔帽,一捏两个耳朵会动的那种。昨晚她还送来小苹果,只有她让我感受到是有节日氛围的,年轻真好,祝大家圣诞快乐啦
https://www.genenames.org/download/statistics-and-files/
这里有一个链接的地址:
ftp://ftp.ebi.ac.uk/pub/databases/genenames/new/tsv/hgnc_complete_set.txt
找到这个,是因为一个需求,找到基因与基因家族之间的对应关系。结果发现这个表格真的是好全,得到的远远比想要的多。
首先看一下日期:
(今天是12.25)更新于四天前
表格太大,所以看下他的统计信息。。。
把这个表格下载到工作目录,在R斯丢丢中用read.csv()读取后,用我神奇的dumd函数来看就好
dumd <- function(x){
colname <- vector("character")
count <- vector("integer")
for(i in 1:ncol(x)){
colname[i] = colnames(x)[[i]]
count[i]=nrow(x[!duplicated(x[,i]),])
}
df <- tibble(colname,count) %>%
arrange(desc(count))
print(df)
}
dumd(hgnc)
表格给出了各列的列名及非重复值数。
各种id,还有基因名/类型/基因家族等等各种信息,既然他成了数据框,下一步当然是任我宰割,只因为不知道他的存在才费了好多功夫!实战中得到的教训,多查少造轮子。
![[资源]hgnc给出的人类基因的超全信息文件 [资源]hgnc给出的人类基因的超全信息文件](http://www.weinformatics.cn/wp-content/uploads/2022/05/9-1651731613.jpg)
隔壁生信技能树公益视频合辑(学习顺序是linux,r,软件安装,geo,小技巧,ngs组学!)
国内看B站,教学视频链接:https://m.bilibili.com/space/338686099
国外看YouTube,教学视频链接:https://m.youtube.com/channel/UC67sImqK7V8tSWHMG8azIVA/playlists友情链接:
点击底部的“阅读原文”,获得更好的阅读体验哦😻
初学生信,很荣幸带你迈出第一步。
我们是生信星球,一个不拽术语、通俗易懂的生信知识平台。由于是2018年新号,竟然没有留言功能。需要帮助或提出意见请后台留言、联系微信或发送邮件到Bioplanet520@outlook.com,每一条都会看到的哦~
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!