R For Machine Learning,从经典机器学习算法入手
专题介绍:R是一种广泛用于数据分析和统计计算的强大语言,于上世纪90年代开始发展起来。得益于全世界众多 爱好者的无尽努力,大家继而开发出了一种基于R但优于R基本文本编辑器的R Studio(用户的界面体验更好)。也正是由于全世界越来越多的数据科学社区和用户对R包的慷慨贡献,让R语言在全球范围内越来越流行。其中一些R包,例如MASS,SparkR, ggplot2,使数据操作,可视化和计算功能越来越强大。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX、Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R的学术性开发比较早,适合生物学和医学等学术学科的科研人员使用。
【R语言】开通了R语言群,大家相互学习和交流,请扫描下方二维码,备注:R群,我会邀请你入群,一起进步和成长。
最近,一位R语言朋友,想学习和使用R语言来做机器学习,问了我一些相关的问题,诸如:如何学习机器学习?如何用R语言做机器学习?机器学习需要数据,这些数据去哪里找?机器学习算法这么多,类型也多样,需要优先学习那些算法?等等。这位朋友的问题,我曾经在学习R语言做机器学习的过程时,也会有类似的疑问,并且去寻找相关的解决方法。因此,我阅读了很多R语言与机器学习相关的书籍,也阅读了一些机器学习的经典书籍,还学习和模仿了一些R语言做机器学习的端到端项目。通过这样自我学习、摸索和实践,让自己掌握了R语言做机器学习的知识和技能。
在这里,我给大家说一下我喜欢的一本R语言与机器学习的书籍,书名是《Machine Learning Made Easy with R》。
这本书,我认真阅读了两遍,从中收获甚多。这本书,首先向大家介绍了机器学习的基础知识,比方说,什么是机器学习?然后详细地介绍了一系列经典的机器学习算法,包括决策树算法、K近邻算法、朴素贝叶斯算法、线性鉴别分析算法、线性回归算法、逻辑回归算法、支持向量机算法、随机森林算法和Boosting族集成算法,每种算法都从算法的理解、算法的实际应用、算法的案例、算法的局限性、算法的总结以及进一步阅读,这些方面来介绍算法,我非常喜欢作者的这种组织结构,可以让我们全面地从理论和实践、优势和劣势掌握和理解这些算法,最后,作者分享了算法性能提升和改善的一些小知识,包括:模型的简洁性原理、模型的特定场景原则、模型的偏差与方差的平衡、交叉验证的逻辑和应用等。
这本书,还有一个吸引我的地方,就是每个章节都提供了进一步学习和阅读的文献、书籍和网址,可以极大程度拓展视野和增加知识面。比方说,在第一章,介绍机器学习基础知识里面,作者建议进一步阅读这些文献。
-
Hooker, Giles, and Cliff Hooker. “Machine Learn-ing and the Future of Realism.” arXiv preprintarXiv:1704.04688 (2017).
-
Kavakiotis, Ioannis, et al. “Machine Learning and Data Mining Methods in Diabetes Research.” Com-putational and Structural Biotechnology Journal(2017).
-
Stanisavljevic, Darko, and Michael Spitzer. “A Review of Related Work on Machine Learning inSemiconductor Manufacturing and Assembly Lines.”(2016).
想进一步了解机器学习以及在各行各业的应用,上面这些文献,可以去阅读下,至少可以看一下文献里面的摘要、结论和引言部分等内容。
另外,这本书在讲解经典机器学习算法案例的时候,通常按着这样的步骤有序推进。1)收集和探索数据;2)准备数据;3)利用训练集训练模型;4)评价模型的性能;5)改善模型的性能。这个工作流,可以迁移到我们手头上面的数据建模。而这个工作流的具体任务怎么做?本书用R语言编写程序做了演示、测试和验证,非常具有借鉴性与实用性。
若是你想学习R语言做机器学习,我建议你从经典机器学习算法入手,因为这些算法是基础,同时,应用也广泛。本文说的这本书籍《Machine Learning Made Easy with R》值得你去品读和实践,我相信,你会有收获的。
我们提供了这本书的电子书,PDF格式,英文版。资源的获取方式,请识别下方二维码,进入R语言公众号,回复“20210307”,就可以获得资源领取的方式。
好书推荐
3 推断统计与数据科学,moderndive和tidyverse包
公众号推荐
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!