书籍|实战数据科学(R语言)
专题介绍:R是一种广泛用于数据分析和统计计算的强大语言,于上世纪90年代开始发展起来。得益于全世界众多 爱好者的无尽努力,大家继而开发出了一种基于R但优于R基本文本编辑器的R Studio(用户的界面体验更好)。也正是由于全世界越来越多的数据科学社区和用户对R包的慷慨贡献,让R语言在全球范围内越来越流行。其中一些R包,例如MASS,SparkR, ggplot2,使数据操作,可视化和计算功能越来越强大。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX、Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R的学术性开发比较早,适合生物学和医学等学术学科的科研人员使用。
这是我的第49篇原创文章,关于数据科学。
阅读完本文,你可以知道:
1 推荐书籍是什么?
2 为什么阅读这本书?
3 这本书的几点启示?
我今天给大家推荐一本书籍:《实战数据科学(R语言)第二版》。
我阅读这本书,有这些原因:
1 我曾经读过这本书的第一版,也向数据人推荐过。2020年这本书又推出了第二版,关于本书的介绍,也可以看一下这个网页(http://www.win-vector.com/blog/2019/11/practical-data-science-with-r-2nd-edition-introduction-video/),而且,这个博客网址(http://www.win-vector.com/blog/)坚持不断地总结和分享优质的数据科学的内容。
2 这本书具有很强的实用性,比较系统地介绍了数据科学的内容,并且利用R语言把数据科学工作流程各个环节做了简洁说明与测试。你可以直接把书本的内容,方法和代码片段应用到自己手头上面的数据工作。
3 这本书对于数据科学的一些重要问题做了回答,比方说:
-
数据科学是什么?
-
数据科学的工作流程是什么?
-
数据科学系统的角色有哪些?
-
数据科学各个环节基于R语言的实现技巧?
等等
4 作者的写书风格,我非常喜欢。一方面,内容组织结构循序渐进,富有启发;另一方面,虽然是英文书籍,但是读起来,很顺畅,具备大学英语四级的水平和一些数据工作的常识,就可以无障碍地做学习和实践了。
这本书的第二版,我正在阅读中。
在阅读的过程中,获得几点启示,分享如下:
1 关于数据科学是什么?本书的见解:
The statistician William S. Cleveland defined data science as an interdisciplinary field larger than statistics itself. We define data science as managing the process that can transform hypotheses and data into actionable predictions.
数据科学是对数据进行一系列科学转化,实现从数据到知识的转化,从知识到决策的转化的过程。
2 这本书从数据科学项目的角度来总结和认知数据科学,并且分享了数据科学项目中各种角色(项目发起人,数据科学家,数据工程师,客户)的关注点和所做的事情。
3 这本书提供了一些富有特色的内容,比方说:第11章的文档和部署;第12章的做有效地陈述和沟通,这些技能也属于数据科学家的核心技能内容。换句话说,你做好了模型,你需要知道模型的部署与监控;你做了数据科学项目,你要重视和跟踪整个项目的文档管理与维护;你发现了数据背后的知识与洞见,你不仅需要自己明白,还要让项目的利益相关者也清楚和理解,这个时候,有效地沟通和演讲就显得尤为重要了,甚至决定项目的成败。
英文电子书籍
链接:
https://pan.baidu.com/s/1eLcNCx10OJh6OzuDLiEfhg
提取码:c1rq
我推荐你也阅读这本书,阅读中,有什么疑问或想法,请留言。
需要深入交流和沟通,请加我的微信:luqin360。备注:实名+工作或者专业,否则不会通过。
数据思考与践行
文章推荐

请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!