R数据科学知识体系
专题介绍:R是一种广泛用于数据分析和统计计算的强大语言,于上世纪90年代开始发展起来。得益于全世界众多 爱好者的无尽努力,大家继而开发出了一种基于R但优于R基本文本编辑器的R Studio(用户的界面体验更好)。也正是由于全世界越来越多的数据科学社区和用户对R包的慷慨贡献,让R语言在全球范围内越来越流行。其中一些R包,例如MASS,SparkR, ggplot2,使数据操作,可视化和计算功能越来越强大。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX、Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R的学术性开发比较早,适合生物学和医学等学术学科的科研人员使用。
R数据科学知识体系。
1 熟悉R语言基础知识
1)R语言是什么?R语言能够做什么?为什么要使用R语言?R语言的优势和劣势?
2)R语言的工作环境构建,R语言的集成开发工具软件RStudio的熟悉和应用。
3)R语言扩展包的管理和使用。
2 熟悉数据科学基本知识和工作流程
1)数据科学的Why-How-What问题。
2)数据科学的工作流程。
3 掌握R语言做数据整理工作
1)R语言对数据做读和写的操作
2)R语言对缺失值,重复值,错误值,异常值的处理
3)R语言对数据变换和集成操作
4)R语言对数据的选择和加工处理
4 熟悉R语言做探索性数据分析(EDA)工作
1)理解EDA的方法论
2)掌握R语言做EDA的流程和常用包与函数
3)能够对EDA的结果进行分析与总结
5 熟悉R语言做数据可视化(DV)工作
1)掌握数据可视化技术
2)掌握R语言做数据可视化的常用包与函数
3)能够对数据可视化的结果进行分析与总结
4)能够生产和制造高质量的数据可视化图
6 熟悉R语言做数据建模的工作
1)掌握统计学,数据挖掘,机器学习的基本原理和知识
2)理解数据建模工作的流程
3)利用R语言设计和实现统计学,数据挖掘,机器学习的方法
4)掌握模型部署,监控,优化和迭代的方法
7 掌握R语言做自助式数据报告工作
1)掌握数据报告的撰写
2)能够利用R语言生成自助式数据报告
3)能够利用数据报告与利益相关者做沟通
8 掌握和积累领域知识
1)掌握至少一种领域知识,比方说:金融的风险控制,新零售的数据运营等。
2)学会跨界与合作,通过自学习和互学习,让R语言数据科学解决好更多有价值的数据问题。
为什么用R语言做数据科学?
1 很多数据科学家都用R语言做数据科学工作,学习和选择R语言数据科学,让我们站在前人的肩膀上研究与实践数据科学。
2 R语言数据科学是一个活跃的组织,一个总是在不断更新和迭代的群体,有许许多多的人参与进来并作出贡献,同时,无私地以R包的方式进行分享和传播。
3 R语言是一种开源的语言和平台,是免费的,是跨平台的,可以很好地完成数据科学工作流中各个环节的任务。
R数据科学,边学边做,边做边学,持续学习和实践,通过R语言,数据,特征和模型,从数据中学习到有意义的内容,从而创造价值。
想找数据工作或者要招数据人才的朋友,或者想了解数据人有趣事情的朋友,可以关注公众号【数据人才】。
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!