R语言学习:R语言做数据科学工作流
2022年第10周。
R语言学习,这一周记录如下。
本周看到了一副《R语言做数据科学工作流》的图片,如下所示。
关于上图,我解释如下。
01
准备工作
R语言做数据科学工作,准备工作如下。
第一步:安装R软件
第二步:安装RStudio集成开发工具
第三步:安装所需R包
数据科学工作流,在正确理解业务问题和目标定义后,接下来就需要做这些事情。
第一步:数据导入
第二步:数据整洁
第三步:数据变换
第四步:数据可视
第五步:数据模型
第六步:数据沟通
如上图所示,数据变换-数据可视-数据模型,形成一个闭环,相互影响,以达成最优解或者结果。
02
数据导入
根据业务问题对应的数据结构和数据存储方式,选择合适的数据导入技术。
R语言常用的数据导入包。
1 readr
2 readxl和writexl
3 RMySQL
4 RODBC
5 rvest
学习资料:
1https://readr.tidyverse.org/
2https://readxl.tidyverse.org/
3https://tutorials.methodsconsultants.com/posts/reading-and-writing-excel-files-with-r-using-readxl-and-writexl/
4https://cosx.org/2020/06/connect-mysql-from-r/
5https://rvest.tidyverse.org/
6http://blog.fens.me/r-rodbc/
03
数据整洁
Tidy Data就是要完成这个事情,如下图介绍。
R语言常用的数据整洁包。
1 tibble
2 tidyr
学习资料:
1https://cfss.uchicago.edu/notes/tidy-data/
2https://r4ds.had.co.nz/tidy-data.html
04
数据变换-数据可视-数据模型
R语言常用的数据变换包。
1 dplyr包
2 stringr包
3 lubridate包
4 forcats包
5 base包
R语言常用的数据可视化包。
1 ggplot2包
2 plotly包
R语言常用的数据模型包。
1 tidymodels包
学习资料:
1)https://dplyr.tidyverse.org/
2)https://stringr.tidyverse.org/
3)https://lubridate.tidyverse.org/
4)https://forcats.tidyverse.org/
5)https://ggplot2.tidyverse.org/
6)https://plotly.com/r/
7)https://geomoer.github.io/moer-base-r/cheatsheet.html
8)https://www.tidymodels.org/
9)https://www.tidyverse.org/
05
数据沟通
R语言常用的数据沟通包。
1 RMarkdown包
2 Shiny包
学习资料:
1)https://rmarkdown.rstudio.com/
2)https://shiny.rstudio.com/
如何高效掌握R语言做数据科学?
第一步:理解R语言做数据科学工作流
第二步:学习每个环节对应R包的使用,可以阅读每个环节提供的学习资料
第三步:结合自己的实际情况,利用R语言和数据科学思维完成一个个数据科学项目,在做项目的过程中持续学习和提升。
我用R语言做数据科学,我创建R语言群,你可以添加我微信,我邀请你进群,一起学习。
如果你想学习数据科学与人工智能,请关注下方公众号~
2021年R语言学习专辑:
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!