【R微课】14天用R做机器学习第五天
编者按:14天用R做机器学习这个课程的根本目的是告诉伙伴们如何用R语言做一个机器学习项目。
第五天:从数据中找到有用的真相——数据理解之可视化
如何做数据理解?有两种方法,一种是第四天谈到的描述统计,一种是正要说的数据可视化。伙伴们,你对数据理解的越充分,你就能够更好地构建模型。第五天的课程里面,我们要实践这些内容。
1 实践单变量的数据可视化,例如直方图、柱状图、盒须图等;
2 实践双变量的数据可视化,例如散点图、矩阵散点图等。
R语言很擅长做数据可视化,基础包提供了画图的常用函数,也有一些扩展包(lattice/ggplot2)能够画出更加专业、高质量的图形。
“实践出真知”,我们以iris数据集为例,Coding学习一下。
实例代码
直方图
盒须图
矩阵散点图
最后,伙伴们请思考这些问题。
1 单变量的数据可视化,有哪些图形?怎么选择呢?
2 双变量的数据可视化,有哪些图形?怎么选择呢?
3 盒须图怎么绘制?它告诉我们那些信息?
4 你用过ggplot2这个包吗?若是没有用,请去尝试一下,若是用了,用它画了哪些图?
期待伙伴们的留言和见解。
第六天的内容,小编会继续来说。伙伴们,下回见。
伙伴们,数据人网发起了【猴年我要写100篇原创数据主题作品】活动,欢迎伙伴们积极参与进来。知识积累和共享,从数据人网(http://shujuren.org)启程。数据人网核心价值观:利他、真实、热爱、感恩。了解活动详情的伙伴们,请加小编微信,注明参与活动。您的地盘您做主,数据人网是您的后勤服务。当然了,小编已经在投入到这个活动了。2016年12月13日,让我们一起来总结!
更多精彩内容,请点击阅读原文。
数据人网(http://shujuren.org),数据人学习、交流和分享的平台,专注于从数据中学习,努力发觉数据之洞见,积极利用数据之价值。为“让人懂数据、用数据”之使命坚持做点事情。大家可以来投稿,做分享和传播,可以给反馈。您有什么想法,请反馈给我们,谢谢。数据人网,我们共建和共享。
数据人网平台构建了丰富的数据人圈,简要说明:
数据人圈是数据人网平台的综合微信群,主要讨论数据动态、数据应用和方法论的话题;
数据人圈R语言是数据人网平台的R语言微信群,讨论R语言及在数据应用的话题。
数据人圈Python语言是数据人网平台的Python语言微信群,讨论Python语言及在数据应用的话题。
诚邀伙伴们加入,小编微信:luqin360,请注明要加入那个圈子。
数据人网平台的QQ社群,欢迎伙伴们按需加入。
数据人网官方公众号:数据科学自媒体,分享数据科学干货。
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!