高效发表SCI: 公共数据挖掘|利用GWAS和GEO expression数据揭示心血管疾病和二型糖尿病分子调控网络(第25期)
摘 要
本期要介绍的文章于2017年9月发表在《Plos Genetics》上,主要利用的数据包括GWAS**统计结果,GTEx、ENCODE等SNP相关的调控数据和多种组织基因芯片表达数据**。采用自己团队开发的两个算法(有现成R包,小编测试过,十分好用),揭示心血管疾病(CVD)和二型糖尿病(T2D)共有的分子调控机制。
1背景简介
流行病学研究表明心血管疾病和二型糖尿病具有一定的关联性,但其内部分子机制尚不明确。近年来,GWAS研究分别在二种疾病中找到潜在的易感位点,然而,在SNP水平上二者并没有太多交集。因此,需要整合多组学数据,全方位系统性的探究两种疾病分子调控网络。
临床研究表明CVD和T2D的发病在一些组织中有较高相关性,如脂肪组织,肝组织等。由于某种组织中具有共表达模式的基因集往往具有相似的功能,如果与疾病显著相关的基因富集在这样的共表达集合中,那么就建立起疾病和共表达基因集的关系,再结合具有拓扑结构的分子网络,即可构建疾病相关分子网络。下面,小编简要介绍作者具体是如何操作的。
2鉴定CVD和T2D相关联co-expression modules
研究人员首先探究来自CVD和T2D的GWAS risk variants**是否富集在某些具有一定功能的基因集合内。本文中研究的功能性基因集合是特定组织中具有共表达关系**的基因集合。因此,作者首先收集GEO中与CVD和T2D发病有关组织的转录组数据,并用WGCNA方法构建共表达网络,如表一。
表一:用于构建共表达网络的数据来源
然后,再用自己团队开发的marker set enrichment analysis (MSEA)方法分别对CVD和T2D的GWAS结果进行富集分析。MSEA方法分为两步:首先将基因集合中的基因映射到SNP上,该方法支持多种不同的gene-marker映射方法,如临近位置法,eQTL,ENCODE表观调控等;然后利用permutation算法计算某一基因集合对应的SNP的P值是否显著低于随机取样。
综上,作者分别找到79,54个module显著关联与CVD以及T2D,其中有2个module是两种疾病所共有的,如图一。对共有的module进行功能注释发现基因富集在碳水化合物和糖类代谢分子通路中。
图一:疾病相关共表达网络分布
3构建疾病调控网络,并鉴定核心基因
位于同一共表达网络中的基因在功能上可能具有相关性,但无法得到具有拓扑结构的调控网络,更不能找到连接多个基因的核心基因(key drivers, KD)。作者认为核心基因是在一个局部分子调控网络中,相邻边基因富集在与疾病相关联共表达网络中。基于weighted key driver analysis (wKDA)方法,研究人员利用来自25个CVD和T2D相关组织的GIANT network和Bayesian network寻找核心致病基因。作者首先将上一步中与疾病显著相关的共表达网络中的基因在network中标注出来,然后找出network中连接的基因数量排名前25%的基因,作为潜在的hub genes。一旦找出hub genes,算法就提取出与该基因相连的全部基因作为一个“子网络(subnetworks)”,最后,计算疾病相关基因集是否富集在子网络中,若富集,则该hub gene即可被认为是一个核心基因。通过以上算法,作者一共找到**162个CVD和T2D共有的核心基因。**
4总结
综上所述,作者想到了一个很新颖的idea,把GWAS和co-expression结合起来,完全依赖于网上数据库的资源分析出一个很好的故事。我们再次提醒各位读者,生物大数据的产出已经十分庞大,学习利用这些数据并融入自己的构想,然后分析解决生物学问题将会是以后的关键。
参考文献
Shu L, Chan K H K, Zhang G, et al. Shared genetic regulatory networks for cardiovascular disease and type 2 diabetes in multiple populations of diverse ethnicities in the United States[J]. Plos Genetics, 2017, 13(9):e1007040.
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!