【数据分析】多元统计分析之因子分析及R实现
一、 因子分析的思想
因子分析可以说是主成分的推广,也是一种把多个变量化成少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。因子分析也是数据缩减的一种多变量分析方法,它是从研究相关矩阵之间的内部的依赖关系出发,它把众多的变量综合成为较少的几个公共指标,这些指标即因子。(推导主成分可自行查看参考书)
二、R语言实现
x=read.table(‘clipboard’,header=T) #载入源数据
cor(x) #计算相关系数阵
ibrary(mvstats) #调用程序包
fac=factpc(x,3) #用主成分法因子分析
fac
由结果可以看出,前三个因子所解释的方差占整个方差的86%以上,基本上能全面地反映六项财务指标的信息。所以我们取前三个因子作为公共因子。但各因子的经济含义不明显,还需要进一步进行因子旋转。
fa1=factanal(x,3,rot(‘varimax’)) # varimax法旋转因子分析
fac1=factanal(x,3,scores=’regression’)
fac1$scores #因子得分
factanal.rank(fac1,plot=T) #因子得分排名
从因子得分表中可以看出,(各变量代表的意思在源数据中与有显示)在盈利因子F1上得分高的是海螺水泥,福建水泥,冀东水泥和祁连山。在偿债因子F2上福建水泥,海螺水泥,四川金顶上得分较高。在发展因子F3上,西水股份,海螺水泥的得分远高于其他公司。也可通过信息重叠图来观察
biplot(fac1$scores,fac1$loading) #前两个因子的信息重叠图
数据人网作者:薛丽丹
暨南大学统计学研究生,数据人网编辑,热爱数据分析和数据科学。
严禁修改,可以转载,请注明出自数据人网和原文链接。
今日数据人网投稿精选:
《R + 数据库 = 非常完美》
《神经网络何去何从》
《大数据来袭,您先做什么职业?》
点击【阅读原文】,即可打开今日精选目录。
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!