【R微课】14天用R做机器学习第七天
编者按:数据预处理好后,就可以做数据建模了。所谓数据建模,就是根据特定的问题,采用合适的机器学习算法,机器学习算法一大把,如何选择和评估,就显得非常重要了。
第七天:机器学习算法评价机制——重采样方法
在这里小编要跟伙伴们说,我们做机器学习需要数据集,毋庸置疑。数据集可以划分为训练机器学习模型的数据集,即训练集;验证模型的数据集,即验证集;模型测试的数据集,即测试集或者新的数据集或者不可见数据集。
这个时候,我们似乎遇到了一个悖论,训练模型的数据集不能够用来评价模型的精度和效果,而构建模型的目的是为了应用模型到新的数据集,即测试集。如何解决这样的悖论呢?我们采用了统计学里面的【重采样】方法。即把历史数据集或者用来构建模型的数据集,通过重采样技术,划分为两个部分,一部分用来训练模型,一部分用来验证和评价模型,前者称为训练集,后者称为验证集。第七天的课程,实践的内容如下:
1 把一个训练数据集划分为训练集和验证集;
2 使用K-交叉验证评估算法的精度。
代码实现如下:
请伙伴们实践上述代码,并且理解结果的含义,同时思考如下问题:
1 如何划分数据集?有哪些方法?
2 如何保证实验的的可重复性操作?
3 朴素贝叶斯算法如何理解?有什么用?您使用了哪些机器学习算法?
4 如何评价算法的效果?
期待伙伴们的留言和见解。
第八天的内容,小编会继续来说。伙伴们,下回见。
伙伴们,数据人网发起了【猴年我要写100篇原创数据主题作品】活动,欢迎伙伴们积极参与进来。知识积累和共享,从数据人网(http://shujuren.org)启程。数据人网核心价值观:利他、真实、热爱、感恩。了解活动详情的伙伴们,请加小编微信,注明参与活动。您的地盘您做主,数据人网是您的后勤服务。当然了,小编已经在投入到这个活动了。2016年12月13日,让我们一起来总结!
更多精彩内容,请点击阅读原文。
数据人网(http://shujuren.org),数据人学习、交流和分享的平台,专注于从数据中学习,努力发觉数据之洞见,积极利用数据之价值。为“让人懂数据、用数据”之使命坚持做点事情。大家可以来投稿,做分享和传播,可以给反馈。您有什么想法,请反馈给我们,谢谢。数据人网,我们共建和共享。
数据人网平台构建了丰富的数据人圈,简要说明:
数据人圈是数据人网平台的综合微信群,主要讨论数据动态、数据应用和方法论的话题;
数据人圈R语言是数据人网平台的R语言微信群,讨论R语言及在数据应用的话题。
数据人圈Python语言是数据人网平台的Python语言微信群,讨论Python语言及在数据应用的话题。
诚邀伙伴们加入,小编微信:luqin360,请注明要加入那个圈子。
数据人网平台的QQ社群,欢迎伙伴们按需加入。
数据人网官方公众号:数据科学自媒体,分享数据科学干货。
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!