R语言探索数据总结
专题介绍:R是一种广泛用于数据分析和统计计算的强大语言,于上世纪90年代开始发展起来。得益于全世界众多 爱好者的无尽努力,大家继而开发出了一种基于R但优于R基本文本编辑器的R Studio(用户的界面体验更好)。也正是由于全世界越来越多的数据科学社区和用户对R包的慷慨贡献,让R语言在全球范围内越来越流行。其中一些R包,例如MASS,SparkR, ggplot2,使数据操作,可视化和计算功能越来越强大。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX、Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R的学术性开发比较早,适合生物学和医学等学术学科的科研人员使用。
这是我的第2篇付费阅读文章,关于R语言探索数据总结。
阅读完本文,你可以获得:
1 数据结构分析
2 数据的检视
3 数据摘要描述
4 数据画像报告
我们做数据探索之前,需要先导入数据。关于R语言导入数据的知识,请阅读文章《R语言读入数据总结》,它介绍了利用R语言读取R语言数据格式文件,分割数据文件(csv,txt),Excel数据文件,SAS和SPSS软件数据格式文件,MySQL数据库的表文件以及Spark平台的数据。一旦数据读取成功后,接下来需要对数据做探索性工作,其目的是对数据有一个全面的理解和洞察,为后续的分析和建模工作提供指导。
1 数据结构分析
首先,我们了解数据的结构,包括数据有多少行?有多少列?(称之为样本数和变量数),变量的数据类型是什么?这些问题可以通过数据结构分析来解决,可以使用dplyr包里的glimpse函数做数据结构分析。
# 数据导入
library(readr)
df <- read_csv('raw_data/FinalData.csv', col_names = TRUE)
# 1 数据结构分析
library(dplyr)
glimpse(df)
数据集df有185个观察(样本数),17个变量。变量的类型包括数值型(双精度)和字符型。
2 数据的检视
数据集的各个变量取什么值,可以做数据的检视,使用dplyr包的sample_n函数或者sample_frac函数随机获取数据集的样本进行观察,前者是指定随机获取样本的个数,后者是指定随机获取总样本数的比例。
# 2 数据的检视
sample_n(df, 10) %>% View
sample_frac(df, 0.1) %>% View
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!