tidyverse包:数据科学工作流程
专题介绍:R是一种广泛用于数据分析和统计计算的强大语言,于上世纪90年代开始发展起来。得益于全世界众多 爱好者的无尽努力,大家继而开发出了一种基于R但优于R基本文本编辑器的R Studio(用户的界面体验更好)。也正是由于全世界越来越多的数据科学社区和用户对R包的慷慨贡献,让R语言在全球范围内越来越流行。其中一些R包,例如MASS,SparkR, ggplot2,使数据操作,可视化和计算功能越来越强大。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX、Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R的学术性开发比较早,适合生物学和医学等学术学科的科研人员使用。
tidyverse包是一个R包集合,在数据导入,数据整理和变换,数据可视化等领域提供了数据科学的解决方案。tidyverse包可以让数据科学家,统计学家和数据分析师等数据工作者更有效率地从事数据的研究和实践。tidyverse包是RStudio的首席科学家Hadley Wickham创建的。tidyverse包遵循数据科学工作流程,为使用者提供一个有效的,可以不断迭代和完善的工作方法和实践步骤。在做数据科学项目中,采用tidyverse包有很多优点,首先,它提供了数据科学工作流程的全套解决方案;其次,它提供了一致的功能、数据科学教育、以及提升了工作效率;最后,它可以帮助你做高效地数据分析。
Rstudio公司为tidyverse包的学习和应用提供了丰富的资源和材料,可以访问网站https://www.tidyverse.org/。tidyverse包是R语言数据科学的包集合,所有包符合统一的设计哲学,语法和数据结构,极大地方便了R语言完成数据科学工作。tidyverse包的系统化学习和使用,强烈推荐阅读【R for Data Science】这本书籍,它是由Hadley Wickham &Garrett Grolemund撰写的。阅读完这本书后,你的收获:1)数据整理,能够把你手头的数据转换为可用于分析的合适格式;2)数据探索,能够让你理解数据和假设验证;3)数据建模,提供了一些数据建模的方法和做法以及集成的方式;4)数据交流,通过RMarkdown实现文字,代码和结果的集成,并且生成一种合适的格式,便于更相关利益者进行交流和沟通。
这本书籍可供阅读的网址是:https://r4ds.had.co.nz/,点击阅读原文就可以访问。需要英文PDF电子书的朋友,请扫码,添加我微信,备注【姓名-专业或职业】,我会分享给你。需要加入R语言群的朋友,也可以扫码加我的微信。我也会邀请你加入R语言群,我们的R语言群专注于R语言的学习和实践。目前有2个R语言群,都很活跃。群友们来自各行各业,都在用R语言解决实际的数据问题。大家每天都会就R语言的使用进行交流和分享。你有R语言问题,可以在群里面进行咨询,很多情况,在大家的群策群力下,都可以解决。
tidyverse包值得投入时间去学习和应用。tidyverse包可以让你更方便更高效地探索,处理,分析和沟通数据,以帮助你发现和利用数据的价值。
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!