排序和去重|数据处理
排序为了更好地理解数据,去重删掉重复的观察或者变量。
1 排序
排序,基于某一个变量或者一组变量的值进行有序排列,方便友好地理解数据。
代码示范:
# 加载R包
library(magrittr)
library(dplyr)
# 数据导入
data(iris)
iris.data <- iris
iris.data %>% head
# Sepal.Length 排序操作 默认是升序
dplyr::arrange(iris.data, Sepal.Length) %>% head(n = 10)
# Sepal.Length 降序操作
dplyr::arrange(iris.data, desc(Sepal.Length)) %>% head(n = 10)
# 双变量的排序操作
dplyr::arrange(iris.data, desc(Sepal.Length), Sepal.Width) %>% head(n = 10)
总结:利用dplyr包的arrange()函数,默认是升序,若是要降序,对变量使用desc()函数。
2 去重
去重,去掉重复的行。
代码示范:
# 加载R包
library(magrittr)
library(dplyr)
# 模拟数据
data1 <- data.frame(
id = c(1, 2, 1, 3, 4),
name = c("A", "B", "A", "C", "D")
)
data1 %>% print
# 去掉重复的行
data1 %>%
group_by(id, name) %>%
filter(row_number() == 1)
# 或者
data1 %>% unique
总结:利用dplyr包的group_by()和filter()函数进行去重操作或者使用base包的unique()函数去重。
您在阅读中,关于排序和去重,有什么见解,请评论。
阅读R系列文章,请阅读原文。
想加入数据人圈子,请加微信luqin360。
文章推荐:
数据处理系列
2 数据选择行或者列
公众号推荐:
1 数据科学与人工智能,分享数据科学和人工智能的内容。
2 好又乐书屋,分享王阳明|曾国藩|毛泽东的思想,健康、教育的内容,传播正能量。
阅读原文,更多精彩!
分享是收获,传播是价值!
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!