R语言读取数据总结
专题介绍:R是一种广泛用于数据分析和统计计算的强大语言,于上世纪90年代开始发展起来。得益于全世界众多 爱好者的无尽努力,大家继而开发出了一种基于R但优于R基本文本编辑器的R Studio(用户的界面体验更好)。也正是由于全世界越来越多的数据科学社区和用户对R包的慷慨贡献,让R语言在全球范围内越来越流行。其中一些R包,例如MASS,SparkR, ggplot2,使数据操作,可视化和计算功能越来越强大。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX、Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R的学术性开发比较早,适合生物学和医学等学术学科的科研人员使用。
这是我的第1篇付费阅读文章,关于R语言读取数据总结。
阅读完本文,你可以获得:
-
读取R语言数据格式文件
-
读取分割数据文件
-
读取Excel数据文件
-
读取SAS和SPSS软件的数据文件
-
读取MySQL的表数据,并且避免中文乱码
-
读取Spark平台的数据
你在用R语言做数据任务或者问题时,请先创建一个数据工程项目,根据所要做的事情,进行命名。如下图:
我创建了Read_Data的工程项目。
一 读取R语言数据格式文件
R语言数据格式文件包括.rda文件和.rds文件。
使用load()函数加载.rda文件,readRDS()函数加载.rds文件。
Ex1
# 加载rda文件
x <- pi
y <- exp(1:4)
save(list = ls(all = TRUE), file= "all.rda")
rm(list = ls())
load('all.rda')
# 加载rds文件
head(women)
saveRDS(women, 'women.RDS')
women <- readRDS('women.RDS')
二 读取分割数据文件
常用的3种分割方式,空格隔开,Tab键隔开,逗号隔开。
使用read.table()函数,参数sep控制隔开方式,参数header控制第一行是否当作标题,默认值是FALSE,参数stringsASFactors控制字符串的类型,默认是因子类型。
Ex2
# 读取分割数据文件
write.table(women, 'women.txt', sep = ' ', row.names = FALSE)
write.table(women, 'women.tab', sep = 't', row.names = FALSE)
write.table(women, 'women.csv', sep = ',', row.names = FALSE)
read.table('women.txt', header = TRUE, sep=' ')
read.table('women.tab', header = TRUE, sep='t')
read.table('women.csv', header = T
三 读取Excel文件
使用readxl包的read_excel()函数。
Ex3
if(!require(readxl)){
install.packages('readxl')
require(readxl)
}
# 采用readxl包自带的Excel数据格式文件
datasets <- readxl_example("datasets.xlsx")
read_excel(datasets, sheet = 'mtcars')
# read_excel更多使用方法,查看函数帮助文档
?read_excel
四 读取SAS软件的数据格式文件
银行机构喜欢使用SAS软件做数据分析工作,保存了一系列SAS软件的数据格式文件,以.xpt为后缀名。
R语言使用Hmisc包的sasxport.get()函数读取SAS的数据格式文件。
Ex4
if(!require(Hmisc)){
install.packages('Hmisc')
require(Hmisc)
}
w <- sasxport.get('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/Hmisc/test2.xpt')
w
# sasxport.get更多使用方法,查阅函数帮助文档
?sasxport.get
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!