R 主成分方法实用指南,帮助你用主成分方法做数据处理与分析
专题介绍:R是一种广泛用于数据分析和统计计算的强大语言,于上世纪90年代开始发展起来。得益于全世界众多 爱好者的无尽努力,大家继而开发出了一种基于R但优于R基本文本编辑器的R Studio(用户的界面体验更好)。也正是由于全世界越来越多的数据科学社区和用户对R包的慷慨贡献,让R语言在全球范围内越来越流行。其中一些R包,例如MASS,SparkR, ggplot2,使数据操作,可视化和计算功能越来越强大。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX、Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R的学术性开发比较早,适合生物学和医学等学术学科的科研人员使用。
【R语言】已开通R语言群,五湖四海,天南地北,各行各业,有缘相聚,共享R事,雕刻数据,求解问题,以创价值。喜乐入群者,请加微信号luqin360,或扫描文末二维码,添加为好友,同时附上R-入群。有朋自远方来,不亦乐乎,并诚邀入群,以达相互学习和进步之美好心愿。
亲爱的朋友们。
谈及主成分方法,你会想到那些方法呢?请思考一分钟,留言或者加群讨论。
我们熟知的主成分分析(PCA)就是一种典型和常用的主成分方法,并且在各行各业都能够发挥作用。我和很多做生物信息的朋友聊天,他们说经常使用PCA做降维,观察主成分的特性,以帮助他们更好去分析、理解和解读数据;我也和做宏观经济或者微观经济的朋友们聊天,发现他们也用PCA方法,利用这个方法找到主成分后,并且对成分做重新的解读,以衍生出新的表示或者定义,来帮助他们说明和解释某中经济现象。当然,我自己在实际工作中,也会使用主成分分析做一些数据项目,比方说,通过主成分分析的手段对多变量聚类的结果做可视化分析,从直观上面来理解和解读聚类的效果;又或者,通过PCA的方法衍生出一些新的特征,用于做特征工程的事情等等。关于PCA相关的内容,可以进一步阅读这些文章:
1 一文了解R语言数据分析-主成分分析
除了PCA以外,大家使用过其它主成分方法吗?比方说,CA或者MCA(对应分析或者多重对应分析),FA(因子分析),HCPC(基于主成分的层次聚类)这些方法。CA是对PCA的拓展,它是分析两个类别变量或者分类数据的列联表,MCA又是CA拓展,它是分析多个类别变量的列联表。FA是指从研究指标相关矩阵内部的依赖关系出发,把一些信息重叠、具有错综复杂关系的变量归结为少数几个不相关的综合因子的一种多元统计分析方法。HCPC,一种基于主成分的层次聚类方法和工具。这些主成分方法的关系和应用,可以用下图来表示。
我们如何掌握和使用R语言来实现这些主成分方法,并且把这些方法迁移和应用到我们手头的数据。我们可以阅读《R主成分方法实用指南》这本小册子。当你认真阅读完,并且把里面的代码编写和运行好后,会对这些主成分方法有着深刻地认知,不仅是理论层面,还有实践应用层面。若是需要更深入地了解这些方法的原理,可以自己找一些相关文献阅读(方法的文献和方法在自己行业应用的文献)。这本小册子,目录结构如下图所示:
更详细的内容,请阅读这本小册子。你在阅读的过程中或者你在编写R语言代码,有任何问题,请添加我的微信,我们一起讨论和交流。
这本小册子的获取方式,和往常一样。识别下方二维码,进入R语言公众号,回复“20210203”,就可以获得资源领取的方式。
朋友们,可以扫描我的微信号,备注“R-入群”。我会邀请你加入R语言群,咱们一起讨论与学习。
R书籍推荐
公众号推荐
数据科学与人工智能
数据科学与人工智能公众号推广Python语言,数据科学与人工智能的知识和信息。扫码下方二维码关注我,一起学习Python语言和数据科学与人工智能。
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!