R语言助你学习单变量、双变量和多变量统计
专题介绍:R是一种广泛用于数据分析和统计计算的强大语言,于上世纪90年代开始发展起来。得益于全世界众多 爱好者的无尽努力,大家继而开发出了一种基于R但优于R基本文本编辑器的R Studio(用户的界面体验更好)。也正是由于全世界越来越多的数据科学社区和用户对R包的慷慨贡献,让R语言在全球范围内越来越流行。其中一些R包,例如MASS,SparkR, ggplot2,使数据操作,可视化和计算功能越来越强大。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX、Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R的学术性开发比较早,适合生物学和医学等学术学科的科研人员使用。
【R语言】开通了R语言群,大家相互学习和交流,请扫描下方二维码,备注:R群,我会邀请你入群,一起进步和成长。
在实际数据分析工作时,我经常会用到统计学的知识与方法,比方说,一段时间内业务核心指标的均值、标准差和变异系数(标准差/均值);利用假设检验的方法对实验组和对照组的效果进行评价;探索指标之间的关系,线性相关或者非线性相关等。在做学术研究的时候,我同样会用到统计学知识,包括单变量的统计、双变量的统计以及多变量的统计。统计,是我们洞见数据的一把利器。统计的思想、方法、理论,可以帮助我们去认识数据、理解数据、挖掘数据以及应用数据。
R语言,天生就适合去学习和应用统计。一来,它是由两位统计学家基于S语言设计和开发的,并且在开源文化和精神下,不断成长和壮大起来;二来,利用R语言学习和应用统计学,可以让我们紧密地把理论与实践结合起来,在学中做、做中学的迭代过程里不断进步与成长;三来,R语言是一个活跃的生态和组织,一直处在不断更新和成长中,对于我们每个学习者,这是一件好事情,也有利我们的更新和上升。
关于单变量统计、双变量统计和多变量统计,朋友们,可以先自我思考下。
“它会有哪些内容呢?它会有哪些理论和方法呢?它可以解决那些问题呢?它可以服务于那些应用场景呢?”等等。
我们如何来认识一个单变量?有哪些方法和理论?我们可以通过可视化来观察,也可以通过数学化来理解;我们可以从描述性统计的角度来解读,也可以从推断性统计的角度来定论。推而广之,双变量,多变量,我们又怎么认识和应用?
写到这里,我更多是抛出了一系列问题。而这问题的求解和答案,大家可以去各抒己见。正如“八仙过海,各显神通”。我为了解决这些问题,会去查找资料,翻阅书籍,积极实践。一方面,大家可以结合自己的实况,去琢磨下这些问题;另一方面,这里有本书籍,或许可以提供一些帮助和启发。
作者是一位定量分析的专家,想必也是一位R语言和统计学高手。书中的内容,一定程度上可以解答我前面所谈到的问题集。至于对问题集的具体方法和知识,你若是感兴趣,可以获取这本电子书(PDF格式),看一看,同时,也写一写对应的R代码,理论和实践相辅相成,效果才更显著和上乘。
资源的获取方式,请识别下方二维码,进入R语言公众号,回复“20210313”,就可以获得资源领取的方式。
好书推荐
3 推断统计与数据科学,moderndive和tidyverse包
公众号推荐
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!