【广东大数据青年培养】数据质量分析
做数据挖掘的人,有一个黄金规则,都要铭记于心。那就是“脏数据、脏结果”。换句话说,输入什么样的数据,也就决定输出什么样的结果。
做数据挖掘,首要就是定义好挖掘目标,接下来就是采集与目标相一致的数据,如何保证这种一致性,这里就涉及到了数据的质量以及相应的数据质量分析。
数据质量分析是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。
数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。
脏数据通常包括:
缺失值
异常值
不一致的值
重复数据及含有特殊符号的数据
对于上述每一种类型的脏数据,我们都可以从其产生的原因,其带来的影响以及具体分析和相应处理入手。现以缺失值分析,举例说明如下。
数据缺失主要包括记录的缺失和记录中某个变量或者某些变量的缺失。
缺失值产生的原因
有些信息暂时无法获取
有些信息被遗漏了
属性值不存在
缺失值的影响
数据挖掘建模将丢失大量的有用信息
数据挖掘模型表现出的不确定性更加显著,模型中蕴含的规律更难把握
包含空值的数据会使建模过程陷入混乱,导致不可靠输出
缺失值分析
可以使用简单的统计分析,获知哪些记录变量含有缺失值,以及缺失值的个数和缺失率等信息。
缺失值处理
缺失值处理的方法有删除法、插补法和不处理法。
同理,对于其他脏数据类型,就不展开讨论了。在做数据挖掘,只有高质量的数据,才可能有好的价值。
【互动交流】
【中国数据人】社群:290937046,陆勤微信:luqin360,欢迎朋友们添加,一起交流。
【微信公众号号推荐】
数据科学自媒体,分享数据科学内容。
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!