首页
学习
活动
专区
圈层
工具
发布

数据质量问题分析及对应的解决办法

数据是企业最具价值的资产,但其价值需乘以质量系数。劣质数据会浪费时间和资源,甚至错失发展时机。

数据质量为何重要?

波音737MAX两起空难,根源正是“假信号”导致自动系统错误决策。这一悲剧警示我们:数据质量问题关乎生死。

数据质量问题的根源

1)源系统数据本身不可控;2)ETL程序对异常考虑不足。归根结底,都是人为因素导致。程序bug持续制造垃圾数据,且数据质量问题无法穷尽、无法根治,只能容忍。

OLAP系统必须容忍不良数据

BI、数仓、大数据系统的数据全部外部引入,抱怨源系统无济于事。容忍的前提是:事先知道存在哪些质量问题,并针对性地制定应对机制。

解决方案示例

自动维表维护:自动同步源系统代码表,补充新代码。

自描述维度:直接存储“全球通”、“男”等原文,不转码,避免因编码不一致导致统计错误。

新方法:自然维与去预处理

直接存储原始数据(如日期、地址),不做解析和预聚合。内存计算优于预聚合,更简单、快速、可靠。

某企业实践

通过人工+系统结合,包括自动维表维护、数据质量核查、元数据管理等。但每引入新数据仍需重复质量管控,投入大、周期长。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OGYedtI6gQCg8deIC8tfmgYw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券