如果你问十个做数据的人"数据治理是什么",你大概会得到十种不同的答案。有人说数据治理就是定标准,有人说数据治理就是做数据质量,有人说数据治理就是搞一套主数据管理平台。这些说法都不算错,但都只摸到了大象的一条腿。
本文试图从"是什么"到"怎么开展"做一次完整拆解,目标是让一个刚接触数据治理的人看完之后,能形成一个清晰的认知地图。
与其从定义出发,不如从问题出发。企业里以下场景,就是数据治理要解决的:
这些问题的共同根源是:数据在组织内部没有被当作一个需要统一管理的资产来对待。每个系统各自为政,每个部门各自定义,没有人对"数据"这件事负总责。
数据治理的本质,就是建立一套机制,让组织内的数据变得可信、可查、可用。 它不是某个工具,不是某个项目,而是一套持续运转的管理体系。
业界对数据治理的范围有不同划分方式,但落到实操层面,核心就是六件事:
定义"同一个东西在不同地方应该长什么样"。
不是技术层面的字段类型和长度,而是业务层面的统一定义。比如"客户"这个概念,在CRM里指"有签约记录的法人实体",在客服系统里指"提出过服务请求的个人或企业",在财务系统里指"有应收应付往来的主体"。这三个定义如果不统一,任何跨系统的数据分析都是建立在流沙上的。
核心产出:企业级数据字典、核心数据项的业务定义和计算口径、编码规范。
确保数据"符合使用目的"。
数据质量不是绝对的——同样的数据,对财务分析来说可能质量合格,对精准营销来说可能质量不够。所以数据质量管理的第一步不是定规则,而是定义"不同使用场景下的质量要求是什么"。
核心产出:质量度量标准(完整性、准确性、一致性、时效性、唯一性、有效性)、质量监控规则、问题闭环处理流程。
回答"我有什么数据、数据在哪、数据是什么意思、数据从哪来"。
元数据是"关于数据的数据"。技术元数据(表结构、字段、ETL逻辑)让IT团队能维护数据链路。业务元数据(字段含义、计算口径、数据来源)让业务团队能理解和使用数据。两者缺一不可。
核心产出:数据地图、数据血缘图谱、业务术语表。
管理企业最核心的共享数据实体——客户、供应商、产品、组织架构、科目等。
主数据的核心特征是"一处创建、多处引用"。客户主数据在CRM中创建,但ERP、客服系统、营销系统都需要使用。如果各系统各自维护一套客户数据,就会出现"同一个客户在CRM里叫张三,在ERP里叫张三有限公司"的情况。
核心产出:主数据唯一可信源、主数据创建和变更流程、主数据同步机制。
确保数据在"正确的人、正确的场景、正确的权限"下被访问。
包括数据分级分类(哪些是敏感数据、哪些是机密数据)、访问权限控制(谁能看到什么、谁能导出什么)、数据脱敏(在测试环境或非生产场景中保护敏感信息)。
核心产出:数据分级分类标准、访问控制策略、脱敏规则。
管理数据从创建到归档到销毁的完整生命周期。
不是所有数据都需要永久保存。三年前的日志数据、五年前的临时分析表,占着存储资源却几乎没有被访问过。数据生命周期管理的核心是制定归档和清理策略,让热数据保持高性能、冷数据低成本存储、无用数据及时清理。
核心产出:数据保留策略、归档规则、清理机制。
知道了"管什么",接下来的问题是"怎么开始"。以下是一个经过验证的、从零启动的落地路径。
目标:建立组织保障,明确治理范围,不急于动手。
关键动作:
这个阶段最容易犯的错误:一上来就选型工具。工具是手段不是目的,在组织没有就位、范围没有明确之前,选什么工具都是盲目的。
目标:完成试点域的数据资产盘点,建立数据地图基线。
关键动作:
这个阶段最容易犯的错误:追求完美,试图把所有字段都盘点清楚。实际上,先覆盖核心数据表的核心字段就够了,非核心字段可以在后续迭代中补充。
目标:制定核心标准,建立质量基线,解决最突出的数据问题。
关键动作:
这个阶段最容易犯的错误:标准定得太理想化,不考虑历史系统的改造成本。正确的做法是"新系统必须遵守,老系统制定迁移计划分阶段对齐"。
目标:将治理机制常态化,从试点域扩展到更多业务域。
关键动作:
这个阶段最容易犯的错误:试点成功后急于全面铺开,导致组织能力跟不上。治理范围的扩展应该是渐进的,每扩展一个域都需要确保前一域已经进入稳定运营状态。
失败模式一:纯IT驱动,业务不参与。 数据标准是IT定的,质量规则是IT配的,问题也是IT自己在修。业务部门觉得"这是你们数据团队的事"。结果是标准推不下去,问题反复出现。正确的做法是让业务部门担任数据Owner,IT提供技术支撑。
失败模式二:追求大而全,一步到位。 试图一次性治理所有数据、所有系统。结果是项目周期拉得很长,两年过去了还在"建设阶段",看不到任何业务价值,最终被砍预算。正确的做法是先在一个域做出效果,用效果争取更多资源。
失败模式三:工具先行,组织滞后。 花几百万买了数据治理平台,但没有相应的组织机制和流程配套。平台变成了IT团队自娱自乐的工具,业务部门根本不用。正确的做法是先建组织、定流程,再选工具。
失败模式四:只做"运动式治理",没有长效机制。 领导重视的时候搞一次"数据质量专项行动",查出一堆问题、修了一批数据,然后就没有然后了。三个月后问题全部反弹。正确的做法是把治理变成日常运营的一部分,而不是一次性的项目。
失败模式五:治理与业务脱节。 治理团队关起门来做标准、做质量,但做的方向跟业务真正需要的不一致。比如业务最痛的是报表数据不准,治理团队却在花大力气做数据模型规范化。正确的做法是始终从业务痛点出发,治理的优先级由业务价值决定。
数据治理不是一项技术工作,而是一项管理工作。技术是手段,组织机制才是核心。那些治理做得好的企业,不是因为他们买了更贵的工具,而是因为他们建立了一套能让数据责任落到人头上的机制。
如果你正准备启动数据治理,建议从这三个问题开始:
如果这三个问题都有答案,就可以开始干了。如果答案都不清晰,先解决这三个问题,比先选工具重要得多。
本文基于个人在数据治理领域的实践经验整理,欢迎交流讨论。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。