R语言做数据总结(Data Summarization)
测试开头
测试结尾
笔者邀请您,先思考:
1 从哪些角度做数据总结?如何让R语言实现?
2 什么是元数据分析?
R语言做数据总结(Data Summarization)。
一 目标变量分布
代码:
1# 加载iris数据
2data(iris)
3# 目标变量的分布
4y <- iris$Species
5cbind(freq=table(y), percentage = round(prop.table(table(y))*100,2))
结果:
二 查看变量的数据类型
代码:
1# R包
2library(mlbench)
3#加载数据集
4data("BostonHousing") # 波士顿房价数据集
5# 查看每个变量的数据类型
6sapply(BostonHousing, class)
结果:
三 查看数据集的维度
代码
1#R包
2library(mlbench)
3#加载数据集
4data("PimaIndiansDiabetes") # 皮马印第安人糖尿病
5#显示数据集的维度
6dim(PimaIndiansDiabetes)
结果
1768 9
四 查看原始数据集
代码:
1# 加载数据集
2data(iris)
3
4# 查看原始数据集
5head(iris)
6tail(iris)
结果:
五 计算变量之间的皮尔逊相关系数
代码
1# R包
2library(mlbench)
3#加载数据集
4data("PimaIndiansDiabetes")
5# 计算数值类型的两两变量间的皮尔逊相关系数,生成相关系数矩阵
6correlations <- cor(PimaIndiansDiabetes[,1:8])
7# 输出相关系数矩阵的结果
8print(correlations)
结果:
六 计算变量的均值和标准差
代码:
1#R包
2library(mlbench)
3#加载数据集
4data("PimaIndiansDiabetes")
5#计算数值类型变量的均值
6sapply(PimaIndiansDiabetes[,1:8], mean)
7#计算数值类型变量的标准差
8sapply(PimaIndiansDiabetes[,1:8], sd)
结果:
七 计算变量的偏度和峰度
代码:
1#R包
2library(e1071)
3#加载数据集
4data(iris)
5# 计算数值变量的偏度值
6apply(iris[,1:4], 2, skewness)
7# 计算数值变量的峰度值
8apply(iris[,1:4], 2, kurtosis)
结果:
八 数据集的摘要分析
代码:
1# 加载数据集
2data(iris)
3
4# 数据集摘要分析
5summary(iris)
结果:
公众号推荐:数据人才(ID:datarencai)
(一个帮助数据人才找工作的公众号,
也分享数据人才学习和生活的有趣事情。)
内容推荐
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!