• 主页
  • 课程

    关于课程

    • 课程归档
    • 成为一名讲师
    • 讲师信息
    同等学历教学

    同等学历教学

    免费
    阅读更多
  • 特色
    • 展示
    • 关于我们
    • 问答
  • 事件
  • 个性化
  • 博客
  • 联系
  • 站点资源
    有任何问题吗?
    (00) 123 456 789
    weinfoadmin@weinformatics.cn
    注册登录
    恒诺新知
    • 主页
    • 课程

      关于课程

      • 课程归档
      • 成为一名讲师
      • 讲师信息
      同等学历教学

      同等学历教学

      免费
      阅读更多
    • 特色
      • 展示
      • 关于我们
      • 问答
    • 事件
    • 个性化
    • 博客
    • 联系
    • 站点资源

      R语言

      • 首页
      • 博客
      • R语言
      • 【DV】R中你应该学习7种可视化

      【DV】R中你应该学习7种可视化

      • 发布者 weinfoadmin
      • 分类 R语言
      • 日期 2018年10月21日
      测试开头

      【DV】R中你应该学习7种可视化


      笔者邀请您,先思考:

      1 如何用R做数据可视化?

      2 相关图何时使用?

      数据可视化,让你的数据讲故事。

      【DV】R中你应该学习7种可视化

      随着数据量的不断增加,如果没有可视化,就不可能讲故事。数据可视化是一门如何将数字转化为有用知识的艺术。

      R编程通过提供一组用来构建可视化和表示数据的内置函数和库,让您学习这种艺术。在可视化技术实现之前,让我们先看看如何选择正确的图表类型。

      选择正确的图表类型

      有四种基本的表示类型:

      • 对比

      • 组合

      • 分布

      • 关系

      要确定哪些最适合您的数据,我建议您回答几个问题,比如

      • 您想在一个图表中显示多少个变量?

      • 您将为每个变量显示多少个数据点?

      • 您会在一段时间内,或在项目或组中显示值吗?

      以下是Andrew Abela博士选择正确图表类型的一个很好的解释。

      【DV】R中你应该学习7种可视化


      在您的日常活动中,您会在大多数时间遇到下面列出的7个图表。

      • 散点图

      • 直方图

      • 条形图和堆栈条形图

      • 箱形图

      • 面积图

      • 热图

      • 相关图

      我们将使用如下所示的“Big Mart数据”示例来了解如何在R中创建可视化。您可以从此处下载完整数据集。

      【DV】R中你应该学习7种可视化

      现在让我们看看如何在R中使用这些可视化

      1.散点图

      何时使用:Scatter Plot用于查看两个连续变量之间的关系。

      在我们上面的Mart数据集中,如果我们想要根据成本数据来显示项目,那么我们可以使用散点图来使用两个连续变量,即Item_Visibility和Item_MRP,如下所示。

      【DV】R中你应该学习7种可视化

      这是使用函数ggplot()和geom_point()的简单散点图的R代码。

      1library(ggplot2)          
      2ggplot(train, aes(Item_Visibility, Item_MRP)) + geom_point() + scale_x_continuous("Item Visibility", breaks = seq(0,0.35,0.05))+ scale_y_continuous("Item MRP", breaks = seq(0,270,by = 30))+ theme_bw()

      现在,我们可以在同一个图表中查看第三个变量,比如分类变量(Item_Type),它将给出每个数据集的特征(item_type)。 下图中的item_type以不同的颜色描绘了不同的类别。

      【DV】R中你应该学习7种可视化

      增加类别的R代码:

      1ggplot(train, aes(Item_Visibility, Item_MRP)) + geom_point(aes(color = Item_Type)) + 
      2  scale_x_continuous("Item Visibility", breaks = seq(0,0.35,0.05))+
      3  scale_y_continuous("Item MRP", breaks = seq(0,270,by = 30))+
      4  theme_bw() + labs(title="Scatterplot")

      我们甚至可以通过为每个单独的Item_Type创建单独的散点图来使其更清晰,如下所示。

      【DV】R中你应该学习7种可视化

      单独的类别分组图表的R代码:

      1ggplot(train, aes(Item_Visibility, Item_MRP)) + geom_point(aes(color = Item_Type)) + 
      2  scale_x_continuous("Item Visibility", breaks = seq(0,0.35,0.05))+
      3  scale_y_continuous("Item MRP", breaks = seq(0,270,by = 30))+ 
      4  theme_bw() + labs(title="Scatterplot") + facet_wrap( ~ Item_Type)

      在这里,facet_wrap工作精湛,并以矩形布局组装Item_Type。

      2.直方图

      何时使用:直方图用于绘制连续变量。 它将数据分成箱并显示这些箱的频率分布。 我们总是可以更改bin大小并查看它对可视化的影响。

      从我们的Smart数据集中,如果我们想要根据成本知道项目的数量,那么我们可以使用连续变量Item_MRP绘制直方图,如下所示。

      【DV】R中你应该学习7种可视化

      这是使用函数ggplot()和geom_histogram()的简单直方图的R代码。

      1ggplot(train, aes(Item_MRP)) + geom_histogram(binwidth = 2)+
      2  scale_x_continuous("Item MRP", breaks = seq(0,270,by = 30))+
      3  scale_y_continuous("Count", breaks = seq(0,200,by = 20))+
      4  labs(title = "Histogram")

      3.条形图和堆栈条形图

      何时使用:当您想要绘制分类变量或连续变量和分类变量的组合时,建议使用条形图。

      从我们的数据集中,如果我们想知道在特定年份建立的市场数量,那么条形图将是最合适的选项,使用变量Establishment Year如下所示。

      【DV】R中你应该学习7种可视化

      下面是使用函数ggplot()对单个连续变量进行简单条形图的R代码。

      1ggplot(train, aes(Outlet_Establishment_Year)) + geom_bar(fill = "red")+theme_bw()+
      2  scale_x_continuous("Establishment Year", breaks = seq(1985,2010)) + 
      3  scale_y_continuous("Count", breaks = seq(0,1500,150)) +
      4  coord_flip()+ labs(title = "Bar Chart") + theme_gray()

      垂直条形图:
      作为变体,您可以删除coord_flip()参数以垂直获取上面的条形图。

      【DV】R中你应该学习7种可视化

      要在单个条形图上了解基于出口类型(分类变量)的项目权重(连续变量),请使用以下代码:

      1ggplot(train, aes(Item_Type, Item_Weight)) + geom_bar(stat = "identity", fill = "darkblue") + scale_x_discrete("Outlet Type")+ scale_y_continuous("Item Weight", breaks = seq(0,15000, by = 500))+ theme(axis.text.x = element_text(angle = 90, vjust = 0.5)) + labs(title = "Bar Chart")

      堆积条形图:
      堆积条形图是条形图的高级版本,用于可视化分类变量的组合。

      从我们的数据集中,如果我们想要根据分类变量(如类型(出口类型)和位置(出口位置类型))知道出口数量,堆栈图表将以最有用的方式可视化方案。

      【DV】R中你应该学习7种可视化

      这是使用函数ggplot()的简单堆积条形图的R代码。

      1ggplot(train, aes(Outlet_Location_Type, fill = Outlet_Type)) + geom_bar()+
      2labs(title = "Stacked Bar Chart", x = "Outlet Location Type", y = "Count of Outlets")

      4.箱形图

      何时使用:Box Plots用于绘制分类和连续变量的组合。 该图对于可视化数据的传播和检测异常值非常有用。 它显示了五个统计上显着的数字 – 最小值,第25百分位数,中位数,第75百分位数和最大值。

      从我们的数据集中,如果我们想要识别每个商店的详细商品销售,包括最小,最大和中位数,箱形图可能会有所帮助。 此外,它还给出了每个商店的商品销售异常值,如下图所示。

      【DV】R中你应该学习7种可视化

      黑点是异常值。 异常检测和删除是成功进行数据探索的重要步骤。

      这是使用函数ggplot()和geom_boxplot的简单框图的R代码。

      1ggplot(train, aes(Outlet_Identifier, Item_Outlet_Sales)) + geom_boxplot(fill = "red")+
      2scale_y_continuous("Item Outlet Sales", breaks= seq(0,15000, by=500))+
      3labs(title = "Box Plot", x = "Outlet Identifier")

      5.面积图

      何时使用:面积图用于显示变量或数据集的连续性。 它与折线图非常相似,通常用于时间序列图。 或者,它也用于绘制连续变量并分析潜在趋势。

      从我们的数据集中,当我们想要分析商品销售额的趋势时,可以绘制面积图,如下所示。 它显示了基于销售额的网点数量。

      【DV】R中你应该学习7种可视化

      这是简单区域图表的R代码,显示使用函数ggplot()和geom_area的Item Outlet Sales的连续性。

      1ggplot(train, aes(Item_Outlet_Sales)) + geom_area(stat = "bin", bins = 30, fill = "steelblue") + scale_x_continuous(breaks = seq(0,11000,1000))+ labs(title = "Area Chart", x = "Item Outlet Sales", y = "Count")

      6.热图

      何时使用:热图使用颜色的强度(密度)来显示二维图像中两个或三个或多个变量之间的关系。 网站的热图分析允许您通过颜色强度探索两个维度作为轴和第三维度。

      从我们的数据集中,如果我们想知道每个出口处每个项目的成本,我们可以使用我们的集市数据集中的三个变量项目MRP, Outlet Identifier & Item Type来绘制热图,如下所示。

      【DV】R中你应该学习7种可视化

      暗部分表示物品MRP接近50.较亮部分表示物品MRP接近250。

      这是使用函数ggplot()的简单热图的R代码。

      1ggplot(train, aes(Outlet_Identifier, Item_Type))+
      2  geom_raster(aes(fill = Item_MRP))+
      3  labs(title ="Heat Map", x = "Outlet Identifier", y = "Item Type")+
      4  scale_fill_continuous(name = "Item MRP")

      7. 相关图

      何时使用:Correlogram用于测试数据集中可用变量之间的相互关系水平。 矩阵的单元格可以用阴影或彩色显示,以显示相关值。

      颜色越深,变量之间的相关性越高。 正相关关系以蓝色显示,负相关以红色显示。 颜色强度与共同关系值成比例。

      从我们的数据集中,让我们检查项目成本,重量,可见性以及出口建立年份和出口销售从下面的图表之间的相互关系。

      在我们的示例中,我们可以看到项目成本和出口销售正相关,而项目权重和可见性负相关。

      【DV】R中你应该学习7种可视化

      这是使用函数corrgram()的简单相关图的R代码。

      1install.packages("corrgram")
      2library(corrgram)
      3
      4corrgram(train, order=NULL, panel=panel.shade, text.panel=panel.txt,
      5           main="Correlogram")

      现在我想你应该很容易使用R编程中的ggplot2库来可视化数据。

      除了可视化之外,您还可以了解有关数据挖掘以及Combine Data from Analytics into R的过程的更多信息。

      如需了解更多或有关R编程的任何帮助,请将您的详细信息发给我们评论,我们将很乐意为您提供帮助!

      原文链接:
      https://www.tatvic.com/blog/7-visualizations-learn-r/

      版权声明:作者保留权利,严禁修改,转载请注明原文链接。

      数据人网是数据人学习、交流和分享的平台http://shujuren.org 。专注于从数据中学习到有用知识。
      平台的理念:人人投稿,知识共享;人人分析,洞见驱动;智慧聚合,普惠人人。
      您在数据人网平台,可以1)学习数据知识;2)创建数据博客;3)认识数据朋友;4)寻找数据工作;5)找到其它与数据相关的干货。
      我们努力坚持做原创,聚合和分享优质的省时的数据知识!
      我们都是数据人,数据是有价值的,坚定不移地实现从数据到商业价值的转换!


      测试结尾

      请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!

      • 分享:
      作者头像
      weinfoadmin

      上一篇文章

      标准化进行时第二部
      2018年10月21日

      下一篇文章

      一套limma、edgeR的实战【上】
      2018年10月26日

      你可能也喜欢

      3-1665801675
      R语言学习:重读《R数据科学(中文版)》书籍
      28 9月, 2022
      6-1652833487
      经典铁死亡,再出新思路
      16 5月, 2022
      1-1651501980
      R语言学习:阅读《R For Everyone 》(第二版)
      1 5月, 2022

      搜索

      分类

      • R语言
      • TCGA数据挖掘
      • 单细胞RNA-seq测序
      • 在线会议直播预告与回放
      • 数据分析那些事儿分类
      • 未分类
      • 生信星球
      • 老俊俊的生信笔记

      投稿培训

      免费

      alphafold2培训

      免费

      群晖配置培训

      免费

      最新博文

      Nature | 单细胞技术揭示衰老细胞与肌肉再生
      301月2023
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      301月2023
      如何快速批量修改 Git 提交记录中的用户信息
      261月2023
      logo-eduma-the-best-lms-wordpress-theme

      (00) 123 456 789

      weinfoadmin@weinformatics.cn

      恒诺新知

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      链接

      • 课程
      • 事件
      • 展示
      • 问答

      支持

      • 文档
      • 论坛
      • 语言包
      • 发行状态

      推荐

      • iHub汉语代码托管
      • iLAB耗材管理
      • WooCommerce
      • 丁香园论坛

      weinformatics 即 恒诺新知。ICP备案号:粤ICP备19129767号

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      要成为一名讲师吗?

      加入数以千计的演讲者获得100%课时费!

      现在开始

      用你的站点账户登录

      忘记密码?

      还不是会员? 现在注册

      注册新帐户

      已经拥有注册账户? 现在登录

      close
      会员购买 你还没有登录,请先登录
      • ¥99 VIP-1个月
      • ¥199 VIP-半年
      • ¥299 VIP-1年
      在线支付 激活码

      立即支付
      支付宝
      微信支付
      请使用 支付宝 或 微信 扫码支付
      登录
      注册|忘记密码?