生信小白第4天-变身数据库小达人
今天是生信星球陪你的第4天
你想找辆共享单车,发现满街都是别家车,没有一辆你能骑。
你想学点生信,搜了“初学者教程”,满眼尽是高大上,没有一句能看懂。
终于你跨越茫茫宇宙,来到生信星球,发现了初学者的新大陆!
生信人的日常是分析数据,那么数据从哪里来的?当然是从数据库里搜的啦!今天就来认识一下今天的主题boss吧~
1.数据库database什么鬼?
官方解释:生物数据库是被组织起来的大量生物数据,这些数据通过计算机可被方便的访问、管理及更新。
花花的解释:生信专用的谷歌啊~
2.数据库肿么分类?
两种方法:
1.一级数据库、二级数据库
2.核酸数据库、蛋白质数据库、专用数据库
3.业界有哪些牛X的数据库?
本文仅做出大纲,挑干的讲,具体用法及解析日后分解。
3.1 文献数据库Pubmed
pubmed是一个生物医学文献数据库,坐拥生命科学领域文献、学术杂志以及在线专业书籍,大多数提供下载链接。
当然啦,想随便查点中文文献的话,中国知网、万方数据、百度学术都能搞定。如果想高大上一点,Google scholar、pubmed了解一下啊?不要问我Google scholar为什么打不开,我拒绝回答。
3.2 核酸数据库
3.2.1一级核酸数据库
主要包括三大核酸数据库和基因组数据库。
(1)三大核酸数据库
包括NCBI 的Genbank,EMBL 的ENA 和NIJ的DDBJ,它们共同构成国际核酸序列数据库合作联盟INSDC。
(花花注解:用Genebank就行,因为这仨数据库里面的数据基本是一样的,NCBI网站里就有genebank的链接。)
(2)基因组数据库Ensemble
(3)微生物宏基因组数据库JCVI
附注(瞅瞅这些大牛数据库是那些机构搞的):
genebank:美国国家生物技术信息中心NCBI,NCBI 隶属于美国国立卫生研究院NIH。
ENA:欧洲分子生物学研究室EMBL
DDBJ:日本国立遗传学研究所NIG
Ensemble:欧洲生物信息学研究所EBI 和英国桑格研究院
JCVI 克莱格反特研究所(与数据库同名)
3.2.2 二级核酸数据库
RefSeq https://www.ncbi.nlm.nih.gov/refseq/
dbEST https://www.ncbi.nlm.nih.gov/dbEST/
Gene https://www.ncbi.nlm.nih.gov/gene
ncRNA http://biobases.ibch.poznan.pl/ncRNA
microRNA http://www.mirbase.org/
RefSeq 数据库,也叫参考序列数据库,是通过自动及人工精选出的非冗余数据库,包括基因组序列、转录序列和蛋白质序列。
dbEST 数据库,也就是表达序列标签数据库,存储的是不同物种的表达序列标签。
Gene 数据库以基因为记录对象为用户提供基因序列注释和检索服务,收录了来自5300 多个物种的430 万条基因记录。
ncRNA(非编码RNA 数据库)提供非编码RNA 的序列和功能信息。
microRNA 数据库主要存放已发表的microRNA 序列和注释。可以分microRNA 在基因组中的定位和挖掘microRNA 序列间的关系。
3.3蛋白质数据库
3.3.1.蛋白质一级数据库
(1)序列数据库:UniProt
包含三大蛋白质序列数据库,Swiss-Prot,TrEMBL 和PIR,分为三个层次:
第一层是UniParc,收录了所有UniProt 数据库子库中的蛋白质序列,量大,粗糙。第二层是UniRef,他归纳了UniProt 几个主要数据库并且是将重复序列去除后的数据库。第三层是UniProtKB,他有详细注释并与其他数据库有链接,分为Swiss-Prot(最有用的)和TrEMBL。
(2)结构数据库PDB
PDB存储生物大分子3D 结构。这些生物大分子除了蛋白质以外还包括核酸以及核酸和蛋白质的复合物。只有通过实验方法获得的3D 结构才会被收入其中。PDB文件是一堆数字字母,那是每个原子的坐标,一般用用可视化软件VMD打开,免费的,这里不作具体说明。
3.3.2. 蛋白质二级数据库
(1)结构域家族Pfam数据库
Pfam 主页上的搜索工具可以查找某条序列上有哪些结构域。
(2)结构分类数据库CATH
CATH是四种结构分类层次的首字母。
根据PDB编号搜索,可以获得各层次具体的结构分类信息以及各种结构相关分析信息、聚类分析。
(3)结构分类数据库SCOP2
在搜集、整理、分析PDB数据中已知的蛋白质三维结构的基础上,详细描述了一直结构的蛋白质在结构、进化事件与功能类型三个方面的关系,主要依赖人工验证。
3.4 专用数据库
(1)京都基因与基因组百科全书KEGG
关于基因、蛋白质、生化反应以及通路的综合生物信息数据库。
(2)人类孟德尔遗传在线OMIM
关于人类基因和遗传疾病的综合性数据库。
好啦,对数据库已经有一定的认识啦,你离大神又近了一步~
初学生信,很荣幸带你迈出第一步~
我们是生信星球,一个不拽术语、说人话的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com~
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!