【数据故事】数据科学中的故事讲述艺术以及如何创建数据故事?
笔者邀请您,先思考:
1 什么是数据故事?
2 如何讲述数据故事?
简介
讲故事的想法很吸引人, 采取一个想法或事件,并把它变成一个故事。 它将这个想法带入生活并使其更有趣。 这发生在我们的日常生活中。 无论我们讲述一个有趣的事件还是我们的研究结果,故事一直是从听众和读者那里引起兴趣的“向导”。
例如; 当我们谈到我们的一个朋友被一位老师骂的时候,我们倾向于从一开始就叙述事件,以保持流畅。
我们来举例说明一下按性别分类的最常见的驾驶分心。 有两种方法可以说明这一点。
首先是我给你一些统计如下:
-
6%的男士认为发短信是一种分心,而4.2%的女士则相反。
-
汽车里的孩子们导致9.8%的男性分心,而26.3%的女性则分心。
kids4kars.org上提供的这种可视化方法可以重新创建类似的统计数据。
你认为哪一个可以讲述一个更好的故事?
目录
-
简介
-
讲故事的需要
-
如何创建故事?
-
1.以笔纸方式开始
-
2.深入研究以确定故事的唯一目的
-
3.使用强有力的标题
-
4.设计一个路线图
-
5.简明扼要
-
数据类型和适用图表
-
1.文本数据
-
2.混合数据
-
3.数字数据
-
4.股票
-
5.地理数据
-
在预测建模步骤中讲故事
-
1.数据探索
-
2.特征可视化
-
3.模型创建和比较
-
故事讲述的最佳实践
-
结束笔记
讲故事的需要
讲故事的艺术既简单而又复杂。 故事激发了思想并提出了以前无法理解或解释的见解。 在数据驱动的操作中经常被忽视,因为我们认为这是一项微不足道的任务。
我们不明白的是,没有呈现的最好故事最终会变得无用!
在几家公司中,分析任何事情的第一步是从数据故事开始。 像我们为什么要分析它? 我们可以做出什么样的决定? 有时候,数据本身会告诉我们这些视觉错综复杂的故事,我们不需要运行复杂的相关性来确认它。
需要故事和视觉材料来解释数据的最好例子是Anscombe的四重奏。 Anscombe的四重奏是一组四个数据集,它们的统计摘要非常相似,但在您将它们可视化时完全不同。
这些是Anscombe四重奏描述中使用的四个数据集。 如果我们只看单纯的数字,我们会发现他们的统计数据几乎完全相同。
当我们数据可视化时,让我们看看它们是如何出现的。
你有没有想过这四个四重奏数据集会有不同的视觉效果?
如何创建故事?
创造一个故事或图画是以一种强大脚步向前传达你的想法的第一步。大多数人不会思考他们的故事,也无法区别于平庸。 让我举一个例子,并引导您完成创建故事的步骤。
我们将探索一个数据集,其中包含来自纳斯达克100科技公司的每股价格的新闻标题和细节。 所选列如下。
1.以笔纸方式开始
视觉化会让您的演讲更加吸引人 ,但他们肯定需要更多的工作来投入。最好的演示文稿之一是在粗糙的页面和薄纸上创建的。
在开始构建故事之前,对想法和流程进行脚本编写对于最终产品非常重要。
您可以做的最重要的事情是大幅提升分析能力以实现有一个故事要讲。您可以生成的流程会对最终结果产生很大的影响。
亚里士多德经典的五点论有助于产生强大的影响:
-
发表引起观众兴趣的故事或陈述。
-
提出必须解决或回答的问题。
-
为您提出的问题提供解决方案。
-
描述采用解决方案中阐述的行动过程的具体好处。
-
发出行动号召。
我构建报告的方式是通过涉及可以让我更好地理解数据的图画。
我的第一个想法是,如何通过使用我拥有的数据做出更好的股票业务决策?
包含线图可以帮助我分析特定股票价格的趋势线。
正如我所看到的,2016年2月所有股票一直在下跌。 这将有助于我仅从这段时间内的新闻报道中找出造成这一下降的原因。 现在,我该如何选择哪些新闻来源?
通过确定哪些新闻来源报道了某一特定股票的最多信息,我们有理由相信这是特定股票的良好来源。
2.深入研究以确定故事的唯一目的
仔细确定,你的故事的想法是什么。 问自己,“我真的在给这个故事带来什么?”这绝不是故事本身,而是故事可以做得更好的决策。 您展示的是更好的决策制定或分析的想法。
开发个人“激情声明”。用一句话,告诉你的潜在客户,以及为什么你真的很高兴与他们合作。 你的激情声明将被记住很久。
3.使用强有力的标题
创建您的标题,为您的故事,视觉化或分析提供一句话陈述。 最有效的标题是简洁,具体,并提供个人利益。
请记住,您的标题是一个声明,为您的听众提供了一个更好理解的愿景。 这不关乎你,而是关乎他们的。
4.设计一个路线图
创建一个列表,让您的观众了解您的故事,视觉或分析的所有关键点。
对列表进行分类,直到只剩下三个主要消息点。 这三点将为你的故事提供口头路线图。
在你的三个关键信息中,添加支持证据以加强叙述。 这些可能包括以下部分或全部内容:个人故事,事实,例子,类比等。
5.简明扼要
现在你已经提出了你的故事的所有观点,你的结论应该是简短而强大的。 在我的报告中,我提到了小的3到4点的总结,以得出为什么要购买某种特定股票。
数据类型和适用图表
通过选择最适合的图表,让我们看看我们遇到的常见类型的数据以及如何从中讲述故事。
常遇到的数据类型:
1.文本数据
当以这种形式找到数据时,通常可以发现单词的使用频率或文本的情感。 使用这种形式的数据可以最好地讲述故事。
文本数据最适合的可视化之一是WordCloud。 wordcloud会将更频繁的词带到中心并放大,让我们清楚地了解文本的总体思路。
例如,上面显示的文章中的wordcloud提供了twitter数据集的表示形式。 它表明,爱是推文中使用最频繁的正面术语。
2.混合数据
当我们的数据由数字或其他各种格式组成时,我们需要知道哪些数据很重要,并从数据集中为我们提供更好的洞察力。
这类数据的首选视觉可能会有所不同,在这里我会告诉你如何对这些数据使用网格,我将使用泰坦尼克号乘客数据。
正如这张图所显示的,女性和一等座的乘客往往比一部分船员或者lower boarding等级座的男性有更高的生存机会。
那不是泰坦尼克号上发生过的事吗?
另一种可视化这种数据的方法是尝试多变量图。 此图使用的数据集是汽车性能和规格数据集。
在这里,我们可以看到搭载较重汽车的车辆比搭载较轻车身的车辆要慢。 有道理,对吗?
3.数字数据
当我们遇到这种数据时,我们通常会寻找描绘数字的趋势或线条。 最适合数字数据的视觉效果将是一条线或一个步骤图。
在这里,我们可以清楚地看到成人和儿童在当地景点的价格上涨。 看看每年的增长是多么容易?
4.股票
我们还遇到的其中一个数据集与股票有关。 股票市场数据主要是数值的时间序列数据,但作为交易者或投资者,我想了解每个日期并注意下跌。
这方面最具视觉冲击力的图表是Candlestick 图表。
在这里,我们以特斯拉的股票为例。 Candlestick 图表可用于在每个日期进行操纵,并单独查看股票的低点和高点。 这可以帮助我们根据当前或过去的市场趋势做出更好的投资决策。
如图所示,2016年2月是特斯拉股票的下跌。 我们现在可以使用这些信息来了解其他市场状况和经济状况,以便对其股票进行决策。
5.地理数据
当我们有关于特定地点和地区的数据时,我们使用地图为我们的分析增加清晰度和含义。
在这个例子中,我们可以看到各个国家在2002年世界杯之后的状态如何。 德国队进球数量最多,成为世界足坛最具统治力的球队之一。
在预测建模步骤中讲故事
通常,我们会质疑我们的故事和视觉效果在创建数学模型时如何工作或发挥作用。 在预测建模的所有阶段中,讲故事可能是分析的重要补充。
让我们了解从数据中创建模型的基本步骤,并通过讲述其中的故事。
1.数据探索
模型构建的第一步是理解你的数据。 我会为您提供实例并向您展示如何在不计算复杂统计数据的情况下探索数据。
我们来考虑一下Wine Quality的数据集。 这是数据集的结构如下
在这里,我们可以看到正在使用的数据集的关联汇总统计。
因此,如果我们需要了解酒精量与葡萄酒质量之间是否存在相关性,我们该如何做?
我们可以计算皮尔逊的’r’。 它会帮助我们建立一个模型,但不会帮助我们分析太多。
这表明酒精含量和葡萄酒质量之间有很强的相关性。 但它能告诉你其他什么吗?
理想情况下,它没有。 那么,什么呢?
让我们看看我们如何可视化这些并且告诉他们更多。
首先,我们将首先看到葡萄酒质量如何与酒精含量相关。
这将是观察酸影响的一种方法。 当小提琴图横向扩展时,它表明这些区域内有更多的数据点。
2.特征可视化
在生成特征后,您如何看待预测效果?
图表告诉我们我们的预测点离我们的拟合线有多远。
另一个我们可能需要将新创建的视觉效果可视化的例子是主成分分析。 如果你想深入了解PCA,你可以阅读这篇文章。
这是RStudio中的Iris数据集。
当我们在这个数据集上运行主成分分析时,我们可以找到这些统计数据。
虽然当我们绘制这个图时,我们发现由此产生的可视化信息比统计信息多得多。
3.模型创建和比较
进入模型创建阶段后,我们通常会发现需要了解我们的数据如何拟合。
根据道路坡度和颠簸程度,这是一个可以预测汽车行驶速度快还是慢的模型。
正如你所看到的,决策边界清楚地将大部分数据分类,但88.21%的准确性并不能说明这个故事。 在这里,我们甚至可以看到错误分类点距离决策边界有多远。
我们也可以通过查看他们的决策边界来比较某些算法和技术,就像我们上面做的那样。
下面显示了使用Iris数据集的另一个示例。
在这里,没有太多的信息来获取关于我们模型的有价值的见解。
要了解有关支持向量机的更多信息,可以阅读本文。
另一方面,这种图向我们展示了一个清晰的分类界线,物种彼此分开。
故事讲述的最佳实践
现在您知道了我们可以使用故事讲解来解释我们的观点的场景,但我会在您自行采取这些时提供一些实用提示。
-
始终标记你的坐标轴并给出你的图的标题。
-
必要时使用图例。
-
在视觉上或者比例上使用更浅的颜色。
-
避免将不必要的细节添加到可视化效果中,如背景或主题不允许良好的可读性。
-
根据水平和垂直位置,只能使用一个点同时编码两个定量值。
-
如果您正在进行时间序列编码,切勿使用点进行可视化。
结束笔记
讲故事不仅仅是它的用处。 它可以发现您以前可能错过的数据。 可以使用故事和图表显示数字无法清晰描绘的特征和数据之间的关系。
在这篇文章中,我们详细阐述了几乎所有途径中的故事如何更好地解释细节。 从在建模过程中如何使用它们开始,我们逐渐走向适合特定数据类型的图表。
希望你读了这篇文章的时候很愉快。 渴望听到您的数据故事!
原文链接:
https://www.analyticsvidhya.com/blog/2017/10/art-story-telling-data-science/
版权声明:作者保留权利,严禁修改,转载请注明原文链接。
您有什么见解,请留言。
加入数据圈子或者商务合作,请添加笔者微信。
数据人网是数据人学习、交流和分享的平台http://shujuren.org 。专注于从数据中学习到有用知识。
平台的理念:人人投稿,知识共享;人人分析,洞见驱动;智慧聚合,普惠人人。
您在数据人网平台,可以1)学习数据知识;2)创建数据博客;3)认识数据朋友;4)寻找数据工作;5)找到其它与数据相关的干货。
我们努力坚持做原创,聚合和分享优质的省时的数据知识!
我们都是数据人,数据是有价值的,坚定不移地实现从数据到商业价值的转换!
点击阅读原文,进入数据人网,获取数据知识。
公众号推荐:
区块链传达,专注于分享区块链内容。
脚印英语,专注于分享英语口语内容。
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!