PDFMV框架的D
专题介绍:R是一种广泛用于数据分析和统计计算的强大语言,于上世纪90年代开始发展起来。得益于全世界众多 爱好者的无尽努力,大家继而开发出了一种基于R但优于R基本文本编辑器的R Studio(用户的界面体验更好)。也正是由于全世界越来越多的数据科学社区和用户对R包的慷慨贡献,让R语言在全球范围内越来越流行。其中一些R包,例如MASS,SparkR, ggplot2,使数据操作,可视化和计算功能越来越强大。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX、Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R的学术性开发比较早,适合生物学和医学等学术学科的科研人员使用。
这是我的第56篇原创文章,关于PDFMV框架。
阅读完本,你可以知道:
1 PDFMV框架的D是什么
PDFMV框架是“问题-数据-特征-模型-价值”英文字母的缩写,是一个闭环的系统,具有持续性迭代优化的功能。
PDFMV框架的D是“Data”的缩写,表示“数据”。关于D的认知,如下图所示:
我们从数据中学习,获得洞见,以创造价值。这个数据,可以是小数据,也可以是大数据;可以是结构化的数据,也可以是非结构化的数据;可以是表格数据,也可以是图像、声音、视频数据;可以是离线数据,也可是在线数据。等等。
PDFMV框架的D环节,我们重点关注三方面的事情:
1 数据加载,获取与业务问题相关的数据集,以开启我们的数据工作。
2 数据探索,识别数据通用问题。
3 数据管理,处理数据中的问题集。
数据加载,如下图
数据探索,包括数据汇总和数据可视化。
数据汇总,如下图:
数据可视化,如下图:
数据管理,主要有数据清洗,数据转换和数据划分。
如下图:
温馨提示:
-
从不修改原始数据文件,总是在数据的副本上工作。
-
垃圾输入,垃圾输出,数据质量至关重要。
-
不同的业务问题有着不同的数据留痕。
-
为了用好数据,先要理解数据,做好数据画像工作。
关于PDFMV框架的D,您有什么想法请留言。
需要深入交流和沟通,请加我的微信:luqin360。备注:实名+工作或者专业,否则不会通过。
数据思考与践行
PDFMV框架系列文章

请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!