【R微课】14天用R做机器学习第六天
编者按:14天用R做机器学习的微课告诉伙伴们怎么做一个完整的机器学习项目,在做机器学项目的过程中如何思考,如何循序渐进地开展,这种方法论是非常有价值的,也是可以“以不变应万变的”。
第六天:干净、适用——建模之前的数据预处理
建模之前,对数据预处理是必要的,也是非常重要。我们所面对的原始数据集,会存在各种问题,比方说有缺失值、有异常值、各变量属性单位或者范围不一致、数据有错误等,对于这些问题,我们是不能直接把原始数据送入到“学习模型”,我们需要做数据的预处理。第六天的课程,需要实践caret包预处理preProcess()的应用,包括以下内容:
1 实践数据的标准化;
2 实践数据的归一化;
3 实践数据的Box-Cox转换。
举例说明如下,参考代码:
提示:请伙伴们在自己的电脑上进行运行,并且思考如下问题:
1 标准化和归一化怎么理解?有什么差异?如何用数学进行表示?
2 如何把iris数据集的前4个变量进行标准化处理?请写代码实现?
3 什么情况下要做标准化或者归一化处理?作用是什么?
4 preProcess()函数里面method参数可以去那些值,分别表示什么含义?请写代码理解。
期待伙伴们的留言和见解。
伙伴们,数据人网发起了【猴年我要写100篇原创数据主题作品】活动,欢迎伙伴们积极参与进来。知识积累和共享,从数据人网(http://shujuren.org)启程。数据人网核心价值观:利他、真实、热爱、感恩。了解活动详情的伙伴们,请加小编微信,注明参与活动。您的地盘您做主,数据人网是您的后勤服务。当然了,小编已经在投入到这个活动了。2016年12月13日,让我们一起来总结!
更多精彩内容,请点击阅读原文。
数据人网(http://shujuren.org),数据人学习、交流和分享的平台,专注于从数据中学习,努力发觉数据之洞见,积极利用数据之价值。为“让人懂数据、用数据”之使命坚持做点事情。大家可以来投稿,做分享和传播,可以给反馈。您有什么想法,请反馈给我们,谢谢。数据人网,我们共建和共享。
数据人网平台构建了丰富的数据人圈,简要说明:
数据人圈是数据人网平台的综合微信群,主要讨论数据动态、数据应用和方法论的话题;
数据人圈R语言是数据人网平台的R语言微信群,讨论R语言及在数据应用的话题。
数据人圈Python语言是数据人网平台的Python语言微信群,讨论Python语言及在数据应用的话题。
诚邀伙伴们加入,小编微信:luqin360,请注明要加入那个圈子。
数据人网平台的QQ社群,欢迎伙伴们按需加入。
数据人网官方公众号:数据科学自媒体,分享数据科学干货。
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!