PDFMV框架的P
专题介绍:R是一种广泛用于数据分析和统计计算的强大语言,于上世纪90年代开始发展起来。得益于全世界众多 爱好者的无尽努力,大家继而开发出了一种基于R但优于R基本文本编辑器的R Studio(用户的界面体验更好)。也正是由于全世界越来越多的数据科学社区和用户对R包的慷慨贡献,让R语言在全球范围内越来越流行。其中一些R包,例如MASS,SparkR, ggplot2,使数据操作,可视化和计算功能越来越强大。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX、Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R的学术性开发比较早,适合生物学和医学等学术学科的科研人员使用。
这是我的第54篇原创文章,关于PDFMV框架。
阅读完本,你可以知道:
1 PDFMV框架的P是什么
PDFMV框架是“问题-数据-特征-模型-价值”英文字母的缩写,是一个闭环的系统,具有持续性迭代优化的功能。
PDFMV框架的P是“Problem”的缩写,表示“问题”。关于P的认知,如下图所示:
对于问题,我们首先要问“为什么”。
-
为什么要提出这个问题?
-
为什么要研究这个问题?
-
为什么要解决这个问题?
我们可以从问题的价值性来看待“Why-Problem”。我们可以进一步探讨:
-
问题有价值和意义吗?
-
问题的价值可以量化吗?
-
问题的受益者是谁?
-
问题的风险和回报分析是什么?
总体原则,我们是在有价值的问题导向下开启数据科学项目。
我们清楚问题为什么后,是时候考虑“What-Problem”了,简称为“问题的定义”。
关于问题的定义,我们需要:
1 具体化,问题描述越具体,说明对问题理解越透彻,意味着能够更有效地解决问题。
2 合理化,我们要清楚所提出问题的基准线是什么,期望值是什么,所出背景和现状是什么,立足当下,实现增进。
3 数字化,问题所涉及的关键指标采用数字量化。
我们怎么解决好问题,这是“How-Problem”需要回答的。
我们要做问题细化的工作,直到问题不能再分解。我把它称之为“分解的哲学”。老子说,“天下难事必作于易,天下大事必作于细。是以圣人终不为大,故能成其大。”
面对任何要解答的问题,我们首要是做好充分细化后,就可以采用敏捷开发的模式和迭代优化的方式来快速响应问题和高效破解问题。
智慧金融领域的用户申请评分
1 Why-Problem
用户申请评分通过一个分数量化用户的违约风险概率,帮助做风险控制,提升信贷效率,显然这个问题是有价值的,解决好这个问题也是必要的。
2 What-Problem
对一款信贷产品的申请用户,进行信用评分,信用评分的可靠性指标KS不少于30%,稳定性指标PSI不超过0.05。
3 How-Problem
解决好这个问题,我们要做这些细化工作。
第一步:用户群的锁定,目标标签的界定,样例的收集
第二步:数据的探索和分析,变量的分箱,特征的选择
第三步:模型的构建和评价
第四步:违约概率到分数刻度的转换
做好细化工作后,我们选择合适的工具,就可以去解答这个问题了。在解答的过程中,我们采用敏捷开发的模式和迭代优化的方式,以让这个评分更加可靠和稳定。
关于PDFMV框架的P,您有什么疑问或者想法请留言。
需要深入交流和沟通,请加我的微信:luqin360。备注:实名+工作或者专业,否则不会通过。
数据思考与践行
PDFMV框架系列文章

请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!