【数据工作】你懂数据工作流程吗?
大家都明白,我们做数据的首要目的就是要做出一系列的数据产品。当然,数据产品可以一个某产品的推荐报告、一个数据图表、或者是帮领导做出明智决策的可行性报告。总之,,数据科学应该产生一些对现实有用的结果,而这些结果就是所说的数据产品。我们做出数据产品的过程一般是比较规范化的,通常称这个过程为:方法论、产品生命周期或者工作流程。
科克伯恩博士曾在文章《Raising the Standard in the Big Data Analytics Profession》.提出过关于数据产品流程精细化的想法。数据科学流程的精细化确实是需要我们去努力的,但最终数据产品的实现依然是我们的重中之重。
数据科学不是软件工程
可能由于数据产品的实现过程中我们也需要编写代码,故通常很多人会把数据科学等同与软件工程,。当然,他们并不是一回事。数据科学中更侧重于多种数据处理方法,而不是开发类似瀑布模型之类的架构;更侧重与科学方法而不是工程项目设计。
数据科学工作流程
当然数据科学的工作也有很多选择,就像没有一套通用的开发软件工程一样,但我们会努力设计出一套尽可能适用的工作流程。
一、CRISP-DM(数据挖掘建模标准)
CRISP-DM是为大数据的信息挖掘设计的,在本质上这是标准对于软件工程来讲可能更适合数据科学。以下是CRISP-DM的6个步骤:
理解业务核心
理解数据关系
数据准备
建立模型模
评价优化
具体实施
二、数据科学项目生命周期
数据科学项目生命周期的理论更加工程化了CRISP-DM的过程。
它的步骤为:
数据采集
数据准备
假设和建模
评估和解释
部署
具体操作
循环优化
三、数据科学工作流程
在Philip Guo的博士论文《Data Science Workflow: Overview and Challenges》中,描述了数据科学的这一部分,它的步骤为:
数据准备
数据分析
结果反馈
方法传播
以上是3种不同的数据处理基本流程,当然,这些都不是固定不变的,我们可以根据自己的具体需要来进行选择。我们也很期待不断有更新更好的流程出现,同时我们也很乐意看到更实用更适用的具体方法流程。
这将是令人兴奋的看到新的数据科学工作流将在不久的将来创建。它也将是有趣的看到哪些是最有益的。
一个优秀的数据产品必须能够解决一个具体问题,有时候一个好问题比解决方法更重要。但是无论如何,我们都应该时刻记住我们数据人的核心注意力都应该在数据产品本身而不是软件工程。
英文链接:http://101.datascience.community/2015/01/12/the-goal-is-data-products-now-how-do-we-get-there/
今日数据人网投稿精选
《如何进行机器学习?》
《成为数据科学家的新规则》
点击【阅读原文】,立刻打开精选目录
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!