基于PDFMV框架的Titanic的生存率挖掘
专题介绍:R是一种广泛用于数据分析和统计计算的强大语言,于上世纪90年代开始发展起来。得益于全世界众多 爱好者的无尽努力,大家继而开发出了一种基于R但优于R基本文本编辑器的R Studio(用户的界面体验更好)。也正是由于全世界越来越多的数据科学社区和用户对R包的慷慨贡献,让R语言在全球范围内越来越流行。其中一些R包,例如MASS,SparkR, ggplot2,使数据操作,可视化和计算功能越来越强大。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX、Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R的学术性开发比较早,适合生物学和医学等学术学科的科研人员使用。
这是我的第69篇原创文章,关于PDFMV框架的应用。
阅读完本文,你可以知道:
1 PDFMV框架指导Titanic的生存率挖掘
“深度思考”
Kaggle数据竞赛平台提供了一份Titanic数据集,包括训练集和测试集,需要参赛者对训练集进行探索,分析和挖掘后,对测试集的客户的生存率(存活率)做出预测。这是一种典型的预测分析问题,是一种有监督的学习方式。
PDFMV框架是Problem-Data-Feature-Model-Value的首字母组合而成,是一种从数据中学习洞见以创造价值的系统性方法论和实践论。
基于PDFMV框架的Titanic的生存率挖掘,细分如下。
一 Problem阶段
俗话说,“救人一命胜造七级浮屠”。
对Titanic的生存率分析与预测,以发现那些特征对活下来重要和预测客户活着的概率。以史为鉴,降低死亡风险,提升援救效果。
二 Data 阶段
1 数据获得
我们获取数据集,了解数据的结构,规模和元数据,从而对数据有个宏观的认识。
2 探索性数据分析
对数据集的单一特征,多个特征,以及特征与标签之间的关系进行探索性分析,采用可视化分析(DVA)手段,总结和提炼出一系列特征。比方说,我们发现性别是一个重要的特征,女人的活着率远高于男人的活着率。
3 数据管理
对数据的缺失值进行分析和处理,根据变量的具体缺失情况,选择合适处理策略。比方说年龄,我们可以基于先验知识做分组计算年龄均值然后使用均值插补的处理方法。
数据的标准化处理,让数据的量纲落在同一范围。
三 Feature阶段
1 特征选择
依据探索性分析的结果,对特征的重要性进行分析和评价,以选择合适的特征。
四 Model阶段
1 模型构建和选择
这是一个分类问题,选择分类相关的模型,采用交叉验证的思想选择最佳模型。
2 模型评价
对于最佳模型在验证集上面进行预测和评估,以确定是否是最终模型,符合要求进入模型部署环节,若是无法满足期望,返回到数据阶段,特征阶段和模型构建和选择环节。
3 模型部署
把最终模型应用到测试集,用来预测客户的存活率
五 Value阶段
1 风险分析
做这个事情,可以降低死亡的分享,活着就是最大价值。
2 成本分析
根据客户的存活率,调配有限的资源,使得资源利用效果最大化。
我们清楚了为什么要做,怎么做以及做什么后,接下来的工作,就是选择合适的工具,把PDFMV框架所细化的各个阶段的任务完成,采用敏捷开发的模式和迭代优化的方式解决问题。
我是王路情,PDFMV框架创立者,数据思践公众号创作者,提供数据挖掘咨询与服务。我的个人微信:luqin360,欢迎添加。
PDFMV框架系列文章
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!