RForML之核心包:randomForest
概述:随机森林算法是一种常用的分类算法,它的学习原理和实际应用,都值得数据人熟练掌握。
本文介绍R语言做机器学习核心包:randomForest
一、randomForest包介绍
randomForest包实现了随机森林算法,随机森林算法可以解决分类和回归问题,是一种很有效的预测技术。
随机森林的核心思想:两个随机特性,随机地选择样本数和随机地选择特征数,两者组合,基于决策树的思想学习和生成“森林”里面的一颗颗决策树,然后基于每颗决策树进行预测,把所有的结果进行综合得到最终结果。这种学习思想,也是一种集成学习思想的典型应用。
二、randomForest包安装与加载
凡是应用R语言的扩展,都需要先安装,再加载和使用。
if(!suppressWarnings(require('randomForest')))
{
install.packages('randomForest')
require('randomForest')
}
三、randomForest包应用
选择party包里面带有的readingSkills数据集。
数据集的详细介绍
help("readingSkills", package = "party")
readingSkills的数据结构
str(readingSkills)
## 创建随机森林模型
output.forest <- randomForest(nativeSpeaker ~ age + shoeSize + score,
data = readingSkills)
print(output.forest)
随机森林模型结果
# 预测变量重要性分析
print(importance(output.forest,type = 2))
预测变量重要性结果
说明:参数type取值
either 1 or 2, specifying the type of importance measure (1=mean decrease in accuracy, 2=mean decrease in node impurity).
四、总结
从上面显示的随机森林,我们可以得出结论,shoesize和score是决定如果某人是母语者或不是母语的重要因素。 此外,该模型只有1%的误差,这意味着我们可以预测精度为99%。
参考资料
1 随机森林R包文档:https://cran.r-project.org/web/packages/randomForest/randomForest.pdf
2 随机森林算法原理:https://en.wikipedia.org/wiki/Random_forest
您在阅读中,有什么建议或者想法,请留言。
如果您觉得本文有收获,请小额赞赏,让我有动力继续写出高质量的文章。
数据人网是数据人学习、交流和分享的平台http://shujuren.org 。专注于从数据中学习。
平台的理念:人人投稿,知识共享;人人分析,洞见驱动;智慧聚合,普惠人人。
您在数据人网平台,可以1)学习数据知识;2)创建数据博客;3)认识数据朋友;4)寻找数据工作;5)找到其它与数据相关的干货。
我们努力坚持做原创,分享和传播有价值的数据知识!
我们都是数据人,数据是有价值的,坚定不移地利用数据价值创造价值!
点击【阅读原文】,进入【数据人网】,学习更多有价值的数据知识
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!