【广东大数据青年培养】数据挖掘流程
数据挖掘的一种典型流程是IBM-SPSS推出来的CRISP-DM(Cross-IndustryStandard Process for Data Minning)模型。
CRISP-DM模型如图所示。
上述模型对应于SPSSModeler软件模型管理器窗口,如下图所示。
CRISP-DM概述了数据挖掘的生命周期,每个阶段的目标是什么,需要做什么,简述如下。
商业理解:了解进行数据挖掘的业务原因和定义数据挖掘的目标。
数据理解:深入了解可用挖掘的数据。
数据准备:对待挖掘数据进行合并、汇总、排序、样本选取等操作。
建模:根据前期准备的数据选择合适的模型。
评估:使用在商业理解阶段设立的业务成功标准对模型进行评估。
部署:使用挖掘后的结果提升业务的过程。
数据挖掘流程除了IBM公司推出的CRISP-DM模型,SAS公司也有自己的数据挖掘流程,即SEMMA。关于SEMMA简述如下。
Sample——数据取样。
Explore——数据特征探索、分析和处理。
Modify——问题明确化、数据调整和技术选择。
Model——模型的研发、知识的发现。
Access——模型和知识的综合解释与评价。
不管是IBM的CRISP-DM,还是SAS的SEMMA,都可以看做一套完整的开展数据挖掘过程的方法论。关于这些方法论的具体怎么落实?一方面,可以参考这些公司提供的手册,另一方面,结合实际数据挖掘问题和解决方案来深化理解,在理解的基础上拓展和应用!
参考资料:
1 使用 IBM SPSS Modeler 进行数据挖掘之数据理解
(http://www.ibm.com/developerworks/cn/data/library/techarticle/dm-1209xuep/index.html)
2 SAS数据挖掘方法论——SEMMA
(http://blog.sina.com.cn/s/blog_4b62a6270100exd3.html)
【互动交流】
【中国数据人】社群:290937046,陆勤微信:luqin360,欢迎朋友们添加,一起交流。
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!