01—为什么要举行质量评估可能许多小同伴,之前都没有关注过数据质量的事。但如果是经常和数据打交道的话,以下的场景应该不生疏:场景一:作为分析师,要统计一下近7天用户的购置情况,效果从数仓中统计完发现,许多数据发生了重复记载。场景二:业务看报表,发现某一天的成交gmv暴跌,经由排查发现,是当天的数据缺失。
以上就是随便举了两个例子。其实许多时候数据有问题,都属于数据质量的领域。数据质量差,会导致业务分析的效果禁绝确、导致决议失误、导致内部纷歧致等等情况。提升数据质量,是数据治理的必须,是数据发挥价值的基础。
没有质量的数据,还不如没有数据。关于如何提升数据质量,我们后面再来分享。
在这之前,首先要知道,我们说的数据质量好或者数据质量差,到底是幸亏哪、差在哪。这也就是数据质量的评估。
只有知道如何评估数据质量,才气有的放矢,有针对性的提升数据质量。02—如何举行质量评估那如何举行数据质量的评估呢?先来张总体的概览。
数据质量的评估,主要围绕着以下六个方面举行。(1)数据完整性这个其实比力好明白,通俗上来讲,就是我们常说的数据全不全嘛。
但如何用指标来权衡呢,通常看一份数据的总记载数是否正常。好比成交记载是1万条,但数据表只有9000条,这就是不完整的。固然了,再细一些,可以看到表中详细字段。好比总条数是1万,可是用户ID字段有2000是空的,这也是不完整的。
(2)数据唯一性唯一性也比力容易明白,就是没有重复的。这个其实和数据完整性是相对的。完整性看的是数据少没少,数据唯一性看的是数据多没多。
还是上面的例子,好比真实成交1万条,但数据表有3000重复了,成了1.3万条成交记载,这就不切合数据唯一性的评估。(3)数据有效性这个主要是看数据是否切合公司业务的真实情况。好比手机号字段,取值是32988,显着是脏数据。这里枚举了几个方面:代码值域约束:好比证件类型的代码值要包罗在数据尺度的公共代码中长度约束:好比约束身份证字段长度要即是18位取值规模约束:好比要求字段值不能是负数标志取值约束:好比要求字段取值只能是1、2、3通过以上方面,可以权衡数据内容的质量是否达标(4)数据一致性数据一致性的寄义,就是通过差别方式取出来的数据,不能是冲突的。
这里强调的是多个表或者泉源。只有多个对比,才有纷歧致的观点。这其实经常是我们交织验证时的内容,经常会说的一句话:“这数对不上啊!”通常分为以下三个方面:等值一致性:一个核验工具的数据取值必须与另外一个或多个核验工具在一定规则下相等。
好比,“收支口谋划权许可证号”长度13位,后9位应该与“组织机构代码证”一致存在一致性:一个核验工具的数据值必须在另一个核验工具满足某一条件时存在。好比,“登录状态”是已登录,“登录日期”不能为空逻辑一致性:一个核验工具上的数值必须与另一个核验工具的数据值满足某种逻辑关系。好比,“支票起号”小于即是“支票止号”(5)数据准确性多个表有纷歧致的观点,单个数据表呢?这就是数据准确性了。这个比力容易明白,好比用户的实际地址是青岛市,但数据表存的是烟台市。
一般原始数据禁绝的情况不多,都是统计表、汇总表容易泛起数据禁绝的情况。好比统计用户最近30天的成交金额泛起偏差。
另外值得注意的是,准确性强调数据是否与真实世界值一致。这个校验有时候不容易举行。(6)数据实时性这个也比力容易明白,主要是满足时效性的。
这里也划分到了数据质量的领域。好比一份数据是统计离线T-1日的,效果都是第二天下午甚至第三天才气统计完,这种数据的应用价值就会大打折扣了。作者:NK冬至 数据分析,数据产物,数据挖掘。
用数据科学的方法赋能业务,发挥数据价值,做业界最好的数据科学家。
本文来源:米乐M6官网首页-www.ylfsyy.com