用RStudio做数据分析
专题介绍:R是一种广泛用于数据分析和统计计算的强大语言,于上世纪90年代开始发展起来。得益于全世界众多 爱好者的无尽努力,大家继而开发出了一种基于R但优于R基本文本编辑器的R Studio(用户的界面体验更好)。也正是由于全世界越来越多的数据科学社区和用户对R包的慷慨贡献,让R语言在全球范围内越来越流行。其中一些R包,例如MASS,SparkR, ggplot2,使数据操作,可视化和计算功能越来越强大。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX、Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R的学术性开发比较早,适合生物学和医学等学术学科的科研人员使用。
【R语言】已开通R语言群,五湖四海,天南地北,各行各业,有缘相聚,共享R事,雕刻数据,求解问题,以创价值。喜乐入群者,请加微信号luqin360,或扫描文末二维码,添加为好友,同时附上R-入群。有朋自远方来,不亦乐乎,并诚邀入群,以达相互学习和进步之美好心愿。
我们都知道“工欲善其事,必先利其器”。我们学习和应用R语言,RStudio就是我们需要掌握和熟操的利器。
RStudio是什么呢?我谈几点理解。
一、它是R语言的集成开发工具,对比在RGUI上面做R语言学习和实践,RStudio提供了R代码编辑器,R语言运行结果控制台,R结果输出窗口,R数据和文件管理窗口等,还有很多其它有趣的窗口与界面。我们可打开RStudio,整体感受一下。如下图所示:
二、我说下自己使用RStudio的做法。我喜欢通过RStudio构建项目,以项目管理的方式进行数据科学相关的系列工作。我会在项目下面创建原始数据集文件夹raw_data,加工数据集文件夹processed_data,图形文件夹figures,结果文件夹results。我也会在R代码编辑器窗口(上图的左上角窗口)新建R语言程式或者打开已存在的R语言代码,并且按着数据科学的工作流程和项目的工作内容,对R程式进行简洁的命名。如下图所示,创建好了一个My_Hello_DA的项目。
三、RStudio功能强大,能够提高我们使用R语言的效率,帮助我们更高效地做数据工作,这些优点,大家在使用它的过程中,都会深有体会。我在这里要补充三点内容。1)RStudio对于R语言的发展和推进,发挥重要作用,这个公司有非常多优秀的R语言专家和人才,并且积极地参与R语言生态的建设和贡献;2)RStudio的员工们贡献了很多好用的R包,比方说我们熟知的tidyverse包,一个R语言下的数据科学套件集合。这些包,让我们更好地玩乐数据。3)RStudio输出了很多有用的R学习和实践的资源,包括博客,书籍、视频等。这些资源都可以在官网上面找到,它可以帮助我们更好地学习和使用R语言。如下图所示。他们将在2021年1月21日举办一个全球的关于R的演讲和分享,精彩不容错过,大家可以关注下。也可加入R语言群,参与讨论。
四、基于RStudio编写的关于R语言方面以及数据分析的书籍,也有很多。我这边找到一本小册子,使用了通俗易懂的文字,总结了如何使用RStudio来做数据分析的工作(属于基础而必要的),包括这些常用的内容:1)R和RStudio介绍,2)使用RStudio做基础的数据分析,3)使用RStudio做数据描述性分析,4)使用RStudio做数据正态分布测试,5)使用RStudio做假设检验和线性回归模型。这些内容都很基础,也是做数据分析工作,需要掌握的知识。我读了这本书,感觉还可以,加之,页面数不多。朋友们,也可以读一下,需要讨论的法,直接进入R语言群。
这本小册子的获取方式,和往常一样。识别下方二维码,进入R语言公众号,回复“20210107”,就可以获得资源领取的方式。
我们学习和使用R语言,一定要利用好RStudio这个工具。荀子在《劝学》里面说到,“善假于物也”。我们要用好RStudio,让R语言更好地发挥作用。
朋友们,可以扫描我的微信号,备注“R-入群”。我会邀请你加入R语言群,咱们一起讨论与学习。
R书籍推荐
公众号推荐
数据科学与人工智能
数据科学与人工智能公众号推广Python语言,数据科学与人工智能的知识和信息。扫码下方二维码关注我,一起学习Python语言和数据科学与人工智能。
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!