【R Tip】使用vtreat包进行数据准备
笔者邀请您,先思考:
1 如何做数据准备?
如果您正在使用R做预测建模或机器学习,那么这个R提示将为您节省大部分时间并为您的结果带来最大的改进
R提示:使用vtreat软件包在预测分析和机器学习项目中进行数据准备。
尝试使用真实世界数据进行预测建模时,您会遇到超出机器学习课程中通常强调的困难:
-
缺少,无效或超出范围值。
-
具有大量可能级别的分类变量。
-
在测试,交叉验证或模型应用/部署期间发现的新分类级别。
-
大量的列被视为潜在的建模变量(统计上有害且耗时)。
-
嵌套模型偏差中毒导致复杂的数据处理流水线。
这些问题中的任何一个都会增加项目时间并降低机器学习项目的预测能力和可靠性。 许多现实世界的项目遇到所有这些问题,这些问题经常被忽略,导致生产性能下降。
vtreat以系统化,自动化,并行化和统计上合理的方式系统地,正确地处理所有上述问题。
vtreat可以比手动ad-hoc方法更可靠,更快地修复或缓解这些域独立问题。
这使数据科学家或分析师有更多时间研究和应用关键域依赖(或基于知识)的步骤和检查。
如果您在R中尝试高价值预测建模,则应尝试vtreat并考虑将其添加到工作流程中。
包:https://github.com/WinVector/vtreat
文章:https://arxiv.org/pdf/1611.09477.pdf
vtreat 1.0.3现在可以通过CRAN为R用户提供。
这个vtreat版本增加了一些并行的性能改进和新方法来跟踪和表征新的变量级别。
原文链接:http://www.win-vector.com/blog/2018/03/r-tip-use-the-vtreat-package-for-data-preparation/
版权声明:作者保留权利,严禁修改,转载请注明原文链接。
数据人网是数据人学习、交流和分享的平台http://shujuren.org 。专注于从数据中学习到有用知识。
平台的理念:人人投稿,知识共享;人人分析,洞见驱动;智慧聚合,普惠人人。
您在数据人网平台,可以1)学习数据知识;2)创建数据博客;3)认识数据朋友;4)寻找数据工作;5)找到其它与数据相关的干货。
我们努力坚持做原创,聚合和分享优质的省时的数据知识!
我们都是数据人,数据是有价值的,坚定不移地实现从数据到商业价值的转换!
点击阅读原文,进入数据人网。
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!