随机抽样知识
测试开头
测试结尾
玩数据中,数据抽样是常用方法和重要手段,通过从总体数据中抽取一个子集。
最简单和常用的方法就是使用sample函数,它可以对一个向量做随机抽样。
函数形态:
sample(x, size, replace = FALSE, prob = NULL)
参数描述:
x-目标对象
size-抽样的数量
replace-是否放回抽样,默认值是FALSE,表示不放回抽样
prob-抽样的概率向量设置
举例说明:
x <- 1:10
## 不放回抽样
set.seed(100)
sample(x, 8)
## 有放回抽样
set.seed(100)
sample(x, 8, replace = TRUE)
结果
4 3 5 1 9 6 10 2
4 3 6 1 5 5 9 4
设置随机种子,保重实验的可重复性。
若是需要针对矩阵框,随机抽取一些样本,如何实现呢?
可以先随机获取这些样本行号,然后利用这些行号获取对应的样本。
举例说明
data(iris)
set.seed(100)
sample.row <- sample(1:nrow(iris), 10)
sample.row
sample.iris <- iris[sample.row, ]
View(sample.iris)
结果
至于更复杂的抽样,比方说分层抽样,整群抽样,最大熵抽样,可以在sampling包中找到相应方法实现。
阅读原文,更多精彩!
分享就是收获,传播就是价值!
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!