R语言做数据科学的学习路径
专题介绍:R是一种广泛用于数据分析和统计计算的强大语言,于上世纪90年代开始发展起来。得益于全世界众多 爱好者的无尽努力,大家继而开发出了一种基于R但优于R基本文本编辑器的R Studio(用户的界面体验更好)。也正是由于全世界越来越多的数据科学社区和用户对R包的慷慨贡献,让R语言在全球范围内越来越流行。其中一些R包,例如MASS,SparkR, ggplot2,使数据操作,可视化和计算功能越来越强大。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX、Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R的学术性开发比较早,适合生物学和医学等学术学科的科研人员使用。
“Think twice, code once.”
第一步:认识R语言和构建R工作环境
1 你可以去R官方网址(https://www.r-project.org/about.html)了解R语言是什么?
2 您在这个网址(https://cran.r-project.org/bin/windows/base/old/)查看R软件的所有版本,并且选择您所需要版本进行本地化安装。笔者目前使用的是R3.5.0版本。
3 R的集成开发工具推荐使用和学习RStudio软件,下载链接:(https://rstudio.com/products/rstudio/download/)
第二步:学习R语言基础
了解R语的帮助,R工作环境,R的数据类型和数据结构,R的包,R的程序设计方法(顺序,分支,循环,面向对象)等内容。
第三步:数据处理,数据可视化,机器学习
-
您需要学会思考如何解决问题。
-
您需要学习如何从数据中获得有用的见解。
鉴于此,您要学习:数据处理,数据可视化,机器学习。
1 数据处理
众所周知,数据科学工作者需要花费70%到80%甚至更多的时间与精力做数据准备工作。通常情况,您不得不花费大量的时间在数据的各种转换操作上。
2 数据可视化
-
数据可视化可以增强您的信息传递。
-
数据可视化可以为您提供更清晰的理解。
-
数据可视化可以辅助您做分析与决策。
总之,数据可视化既是一门技术,又是一门艺术。
3 机器学习
我认为大多数初学者不应该急于学习机器学习方法(首先学习如何进行探索性的数据分析要重要得多),但是这些方法的知识是非常重要的。当探索性数据分析不再带来新的有用信息时,您将需要更强大的工具。
第四步:构建自己的数据科学项目库
-
以问题和数据为驱动,设定目标,创建项目,并且使用R语言设计和实现它。
-
结合自身的专业知识和兴趣点,学习一些项目,了解他人的想法和做法,在消化和吸收的基础上,进行模型,重构和创新。
-
坚持项目管理的方法,对于所碰到的问题,都把它转化成一个个项目来做。
第五步:始终保持学习R语言和使用R语言
总结:R语言做数据科学的思考方向和工作流程。
思考题:
1 您使用过那些R语言做数据科学工作?
2 您最有趣的一个数据科学项目是什么?
想找数据工作或者要招数据人才的朋友,或者想了解数据人有趣事情的朋友,可以关注公众号【数据人才】。
想了解数据科学和人工智能的朋友,可以关注公众号【数据科学与人工智能】。
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!