【数据挖掘】RWeka做分类任务-C4.5算法
问题描述
R语言做数据挖掘有很多工具和方法,你熟悉哪一种呢?
1)直接使用各种算法所对应的R包
2)使用数据挖掘GUI工具,比方说rattle包
3)caret包提供了数据挖掘模型
……
在此,R语言meet Weka,利用RWeka包做数据挖掘,以分类任务为例子,采用十大经典挖掘算法的C4.5算法,具体怎么做呢??请继续阅读和实践。
怎么做
Please follow the setups to use RWeka for classification in Data Mining.
第一步:获取数据集,利用自带iris数据集
data(iris)
View(iris)
str(iris)
dim(iris)
summary(iris)
第二步:加载RWeka包
library(RWeka)
第三步:使用C4.5决策树算法对iris数据集做分类
iris_j48 <- J48(Species ~ ., data = iris)
iris_j48
第四步:决策树模型摘要分析
summary(iris_j48)
第五步:模型的可视化
plot(iris_j48)
第六步:irsi全部数据训练决策树模型的交叉验证
eval_j48 <- evaluate_Weka_classifier(iris_j48, numFolds = 10, complexity = FALSE, seed = 1, class = TRUE)
eval_j48
第七步:Weka-control的了解
WOW("J48")
第八步:建立成本敏感决策树分类模型
csc <- CostSensitiveClassifier(Species ~ ., data = iris, control = Weka_control(`cost-matrix` = matrix(c(0, 10, 0, 0, 0, 0, 0, 10, 0), ncol = 3), W = "weka.classifiers.trees.J48", M = TRUE))
eval_csc <- evaluate_Weka_classifier(csc, numFolds = 10, complexity = FALSE, seed = 1, class = TRUE)
eval_csc
说明:C4.5算法的原理和代码运行的结果及分析,本文不做介绍。建议大家去实践,发现问题去检索相关资料。
请参阅
1 RWeka文档:https://cran.r-project.org/web/packages/RWeka/RWeka.pdf
2 http://www.r-bloggers.com/r-talks-to-weka-about-data-mining/
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!