【R每日一贴】数据集划分训练集和测试集
测试开头
测试结尾
问题描述
分类问题也好,回归问题也罢,面对一个原始数据集,为了能够有效地评估模型,通常是把数据集划分为训练集和测试集,如何处理呢?
怎么做
按着以下步骤处理
第一步:R导入数据集,采用C50包自带的电信客户流失数据集churn
library(C50)
data(churn)
str(churnTrain)
说明:数据集可以是R中自带的数据集,也可以是从不同数据源导入的数据集,在实际项目中,数据集来自于不同数据源。
第二步:R划分数据集
set.seed(2)
ind <- sample(2, nrow(churnTrain), replace = TRUE, prob=c(0.7, 0.3))
trainset <- churnTrain[ind == 1,]
testset <- churnTrain[ind == 2,]
说明:利用sample()函数,采用随机抽样的方法把数据集划分为训练集和测试集
第三步:观察划分后的数据集
dim(trainset)
str(trainset)
dim(testset)
str(testset)
请参阅
1 数据集 https://en.wikipedia.org/wiki/Data_set
2 R语言set.seed()函数和sample()函数【?set.seed和?sample】
3 可重复性系统 https://en.wikipedia.org/wiki/Reproductive_system
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!