【R教程】R做你的第一个机器学习项目教程(一)
你是否想要用R做机器学习,但又苦恼于怎么开始做?
在这篇文章里你将会用R完成你的第一个机器学习项目。
在这个逐步教程里,你需要做:
1 下载和安装R并且获取用做机器学习非常有用的R包。
2 导入一个数据集并且用统计分析和数据可视化来理解它的结构。
3 创建5个机器学习模型,选择最好和建立精度是可靠的置信。
如果你是一个机器学习新手,而且还在找一个你最终会选择的方案来学习机器学习的话,这个教程就是针对你设计的。
让我们现在开始吧。
怎样用R开始你的机器学习?
学习机器学习最好的方法就是设计并实现一系列小项目。
初学R的时候你可能回觉得这有点可怕
R在编写脚本时所提供的语法结构是比较奇怪的。这里有几百个R包和几千个函数让你选择,给每个任务提供了多种解决方法,所以这会让你感到有点吃不消。
所以说,在R上开始机器学习最好的方法就是要完成一个项目。
1 这需要你安装并开始学习使用R(至少会一点点)。
2 它能给你更开阔的视角来理解如何一步步进行机器学习。
3 它会给你自信,来源于你完成一个小项目的成就感。
入门的人需要完成一个端对端的项目
光看书或课程会让你觉得很吃不消,它们给你提供的是一系列的解决方法和代码段,但是,你永远都不知道怎样把他们综合起来使用。
当你要把机器学习运用到你的数据集的时候,其实你就是在做一个项目。
一个机器学习项目可能不是线性的,但是,有些有用的方法你可以按顺序的遵循:
1 定义问题
2 准备好数据
3 评估算法
4 改良结果
5 展示最终结果
如果你想要了解更多关于机器学习的步骤,你可以查阅这一清单,这一清单对这个过程讲的更详细。
与一个新的平台或工具达成协议的最好方法就是完成端对端的机器学习项目,并按照之前给的步骤执行。也就是说,从载入数据开始,然后汇总你的数据,接下来评估你的算法,同时改良你的结果,并在最后作适当的展示。
如果你是这么做的话,你就会在你处理完数据以后,有了一个模板来对新的数据集进行研究。你甚至还可以通过数据展示和改良相关的结果来填补你先前做任务的时候留下来的空缺。一旦你这么做了,你就会有信心了。
机器学习的Hello World
利用新的工具进行小项目的最好方法就是首先从iris的分类数据集开始。
这是一个好的项目,因为它简单明了。
1 里面的属性是数字,所以,你会觉得导入和处理数据会非常上手。
2 这是一个分类问题,或许能允许你使用简单的监督学习算法进行练习。
3 这是一个多级分类问题(多含义),而它需要一些特别的方法来处理。
4 它只有4个属性和150行数据,说明这对于内存来说很小,而且处理起来很快(一张A4纸大小那样)。
5 所有的数字属性都在同一个单元,它们的规模也相同,它不需要转化成特别的形式或者使用特殊的定位。
在R中让我们开始您的Helloworld机器学习项目。
R中做机器学习:逐步学习的教程(在这里开始)
在这一部分的内容中,我们要完成一个小的端到端机器学习项目。
这里,我们浏览一下我们接下来要干什么:
1 安装R平台
2 载入数据
3 汇总数据集
4 对数据集进行可视化操作
5 评估一些算法
6 做一些相关预测
慢慢来,认真的落实好每一步。
你可以尝试自己写代码,或者从别的地方复制相关的代码来提高工作效率。
如果有什么问题,你可以在文章的最后的地方留言。
1 下载安装并开始使用R
如果你的系统还没有R平台,那就现在安装一个吧。
更新:这个教程是根据R 3.2.3版写的,所以,如果你的版本比较旧,那么,你就需要更新一下了。
我不想在这里讲太多的细节,其他文章已经讲的很清楚了。这已经讲的直接明了,尤其你是一名开发人员的时候。如果你需要求助,你可以在留言板写出你的问题。
这里,你要遵循几个步骤:
1 下载R
2 安装R
3 开始使用R
4 下载相关R包
1.1下载R
你可以从 The R Project webpage下载R。
当你点击这个下载链接时,你需要选择镜像。你可以根据你的操作系统选择R,如Windows、OSX或者Linux。
1.2安装R
安装R很容易的,而且我也相信你可以解决。这里没有其它特别的要求。如果你在安装R的时候遇到什么问题需要求助的话,你可以看一下 R Installation and Administration。
1.3开始使用R
你可以在操作系统上看到的选择任意菜单系统使用R。
对于我而已,我更喜欢命令行。
打开你的命令行,改变(或者创建)你的项目目录,并且在命令行输入以下代码:
R
您应该在一个新的窗口或者您的终端上看到一个像如下的屏幕截图:
1.4安装R包
安装我们今天要使用的R包。这些包是第三方附加组件或者可以在R使用的库。
install.packages("caret")
更新:我们也许需要其它包,但是caret会问到我们是否要安装它。如果你对于这些包有什么疑问的话,你可以先安装caret包,然后你可以输入下面的代码来看一下你需要什么包:
install.packages("caret",dependencies=c("Depends", "Suggests"))
现在,我们加载一下caret包,然后开始在我们的教程里使用这个包。
library(caret)
caret包给上百个机器学习算法提供了相应接口,并给数据可视化、数据采样、模型调整以模型比较这些功能提供了便利的方法。我们必须要在R里有进行机器学习的工具。
如果你想要了解更多关于caret这个R包的内容,查阅一下caret package homepage这篇文章。
英文链接:http://machinelearningmastery.com/machine-learning-in-r-step-by-step/
作者介绍:
品言译,陆勤审。
品言,热爱英语和数据科学。
陆勤,深圳数据挖掘师,热爱数据,专注从数据中学习。
严禁修改,可以转载,请注明出自数据人网和原文链接:http://www.shujuren.org/index.php/Article/update/aid/168
更多精彩内容,请点击阅读原文。
数据人网(http://shujuren.org),数据人学习、交流和分享的家园,专注于从数据中学习,努力发觉数据之洞见,积极利用数据之价值。为“让人懂数据、用数据”之使命坚持做点事情。大家可以来投稿,做分享和传播,可以给反馈。您有什么想法,请反馈给我们,谢谢。数据人网,我们共建和共享。
数据人网构建了数据人圈子,诚邀热爱数据和利用数据朋友入群。加小编微信:luqin360,注明入圈子。
数据人网官方公众号:数据科学自媒体,分享数据科学干货。
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!