众包式学用R语言
专题介绍:R是一种广泛用于数据分析和统计计算的强大语言,于上世纪90年代开始发展起来。得益于全世界众多 爱好者的无尽努力,大家继而开发出了一种基于R但优于R基本文本编辑器的R Studio(用户的界面体验更好)。也正是由于全世界越来越多的数据科学社区和用户对R包的慷慨贡献,让R语言在全球范围内越来越流行。其中一些R包,例如MASS,SparkR, ggplot2,使数据操作,可视化和计算功能越来越强大。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX、Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R的学术性开发比较早,适合生物学和医学等学术学科的科研人员使用。
经常有朋友,通过微信问我。
“我是R语言新手,如何学习R语言?”
我想说,学习是没有捷径的,但是,学习是有方法的。
我们所要做的,就是踏实地而循序渐进地学用R语言。
在此,我分享一下学用R语言的步骤,仅供参考。
首先,请学习R语言做数据可视化。请记住,数据可视化的目标就是数据的探索和数据的沟通。通过数据探索,发现数据背后的模式;通过数据沟通,传播数据隐藏的价值。R语言是擅长做数据可视化工作的,它有着丰富地函数和R包来支撑完成这个事情,并且可以让你生成高质量的图片,可以方便你讲解数据故事。
然后,请学习R语言做数据整理。请记住,数据整理的手段就是数据预处理和数据精加工,其结果就是为了后续的数据分析和数据建模。通过数据预处理,让数据得到清洗,对数据的缺失值问题,异常值问题,量纲不一致问题进行有效解决;通过数据精加工,让数据实现协同,对数据的多源异构问题,对数据类别不平衡问题,对数据的维数灾难问题进行恰当处理。R语言提供丰富地R包来高效率地完成数据整理工作,并且可以把这个过程做成流程化。
最后,请学习R语言做数据建模。请记住,数据建模的目标就是为了从数据中学习到模式,利用模式指导决策和行动。数据建模,可以是统计学里面的模型,也可以是机器学习里面的模型。R语言能够方便地做这些建模工作。但在数据建模之前,我们要做好数据整理工作。
我推荐你先学习和使用一个R包:tidyverse包。
当安装和加载这个包后,我们可以看到如下结果。
-
ggplot2包用于R语言做数据可视化工作,我在前面的文章分享了R语言做数据可视化4本电子书。这些书籍里面都有关于ggplot2包用法的总结。
-
readr包用于R语言做数据导入,我们做数据工作的第一步,就是正确地导入各种类型的数据。
-
tibble包用于R语言做数据结构处理,一种比R语言数据框更加高效的数据结构表示方式。
-
dplyr包,tidyr包,stringr包和forcats包,这些包可用于R语言做数据整理的事情。
-
purrr包用于R语言做函数化和向量化的编程。
关于这些R包学习和使用,
一方面,你可以看这个网站。
https://www.tidyverse.org/
另一方面,推荐你阅读下这本书籍。
前面介绍的那些R包,这本书里面都有介绍和示范。
学用R语言,有很多人在做这个事情,我提倡:
众包式学用R语言。
简而言之,就是大家抱团学习,相互交流,共同提升。
我创建了R语言圈子,我们的圈子是一个积极活跃的R语言交流和讨论社群,每天都有许多地讨论和碰撞。圈子里面的群友,在相互学习和帮助的过程,能够更好地用R语言解决各种实际问题。
若是你想加入我们R语言圈子,请扫码,添加我的微信,备注【姓名+专业+入群】,我会邀请你加入,让我们一起学用R语言。
往期推荐
我的视频号分享了一系列数据知识,包括大话人工智能系列,大数据A-Z系列,PDFMV框架系列,R语言小知识系列等主题,利用一分钟之内容时间,传播一个有用的数据知识。欢迎大家扫码进入我的微信视频号,和我一起学习数据知识。
我们一面要养成读书心细的习惯,一面要养成读书眼快的习惯。心不细则毫无所得,等于白读;眼不快则时候不够用,不能博搜资料。
——梁启超
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!