
做数据管理这么久,我发现80%的数据质量问题,都不是技术问题,是没讲清楚的问题。
没讲清楚什么叫“客户”,没讲清楚“销售额”含不含税,没讲清楚“活跃”的定义边界。
而这些不清楚,最终都会变成加班清洗数据、IT和业务部门对数扯皮的烂摊子。
本质上,这都是数据标准管理的问题。
今天就跟大家好好聊聊,数据标准管理到底管什么、怎么定、怎么落地。
数据标准,本质上是为了保证数据在企业内部使用、交换、理解时保持一致和准确的一套规范。简单来说,就是企业对业务对象、数据名称、定义、格式、编码、规则、口径等内容做出的统一约定。
它来自业务,然后通过标准化的方式,落实到系统、接口、数据库、报表和管理流程里。
比如客户编号怎么定义,产品名称怎么命名,订单状态有哪些取值,身份证号字段长度是多少,性别代码用1和2还是男和女,收入指标到底含不含税。
所以,数据标准管理是什么?就是围绕这些统一约定,建立制度、流程、职责和工具,形成一整套从制定、审核、发布、应用到维护的管理机制。
通常来说,组织的数据构成可以理解为三个层级:业务域、数据模型、数据实体。

业务域是企业业务活动的范围集合,里面包含业务术语、业务职能、业务流程、业务活动和活动参与者。也就是说,数据标准不是凭空产生的,它一定来源于业务场景。没有业务定义,后面的数据定义就容易失真。
数据模型是对业务对象的数据化表达,核心包括实体、属性、关系、主键、外键和数据元。到了这一层,业务语言开始转化为结构化语言,系统建设和数据库设计都会基于这一层展开。
数据实体就是业务实际运行中形成的数据记录,包括主数据、参考数据、事务数据和汇总数据。比如:
这四类数据往往分布在ERP、CRM、财务系统、自建数据库里,数据标准管理的第一步,其实是把分散的数据接进来、统起来。
结合企业数据构成,常见的数据标准一般分为七类。这七类不是随便分的,而是基本覆盖了从业务定义到数据应用的完整链条。

它解决的是业务层面的统一理解问题。什么叫客户,什么叫有效用户,什么叫存量产品,什么叫授信额度,这些术语必须有清晰定义、统一命名规则、使用范围和文档说明。没有术语标准,后面很多争论其实都没有基础。

数据元是最基础的数据描述单元。一个完整的数据元标准,至少要说清楚名称、定义、数据类型等内容。
数据模型标准关注的是模型设计规范,包括实体怎么命名、属性怎么定义、关系怎么表达、主键怎么选、约束怎么设、模型文档怎么写、变更怎么管。它的作用是保证不同系统、不同团队在建模层面遵循统一规则,具体来说:

主数据是企业跨系统共享的核心数据,比如客户、员工、机构、产品、供应商等。主数据标准不仅要规定字段和格式,还要规定编码、分类、共享要求、质量监控和管理责任。
事务数据对应业务过程记录,比如订单、理赔、支付、采购、报销、发货。事务数据标准重点是保证过程数据记录一致、字段定义一致、规则一致、交换方式一致,否则流程数据很难连起来。
参考数据是被广泛引用的基准数据,比如地区代码、行业分类、证件类型、币种代码、性别代码。很多企业低估了参考数据的重要性,结果不同系统各自维护一套字典,看起来是小问题,实际影响很大。

这类标准主要服务分析和决策。指标名称怎么定义,计算口径是什么,统计粒度是什么,数据来源是什么,清洗规则是什么,校验方式是什么,都属于汇总数据标准的范畴。
先收集现有制度、国家标准、行业标准、监管要求、业务流程文件、系统设计文档、历史数据字典、接口文档等材料。目的不是凑资料,而是搞清楚当前已有些什么、缺些什么、冲突在哪里。
要同时找业务和IT谈,而且要让核心岗位参与。因为标准不是谁单方面说了算,必须把真实使用场景、历史问题、业务约束、系统限制都摸清楚。很多隐性问题,只有访谈时才会暴露出来。

不是所有标准都要从零开始重建。能复用的就复用,能对齐外部标准的就尽量对齐,确实不满足业务需求的再新建。这样落地阻力最小,执行成本也更低。
在充分调研基础上,对不同类别的数据标准逐项定义清楚。包括名称、编码、业务含义、字段属性、规则要求、质量要求、责任归属等。
结合BOR(Business-Object-Relationship)法,从业务域、业务活动、数据对象、数据关系逐步梳理。这个方法的好处是不会只停留在字段层,而是从业务出发,逐层推导。
标准初稿出来后,一定不能急着发布。要做宣贯、收反馈、组织评审,把业务、管理、技术各方意见收集上来,特别是那些平时不太发声但实际要执行标准的部门,一定要拉进来。你想想,如果标准发布后大家说看不懂、用不了,那前面不都白做了吗?
经过审查通过后,由正式管理机构发布,并明确生效范围、适用对象、执行要求和过渡安排。对于存量系统,要做影响分析,不能一句立即执行就结束。

数据标准的落地是将发布的标准应用于信息建设和改造,消除数据不一致的过程,分为数据标准宣贯、数据标准实施、数据标准评价、数据标准改进四个关键阶段:
要让业务、IT、管理人员都知道标准是什么、为什么这样定、和自己工作有什么关系。文件传阅可以做,集中培训也要做,重点领域还要做专题培训。标准只有被理解,才有可能被执行。
业务部门要从源头使用标准,比如新产品、新客户、新流程设计时就按标准来。IT 部门则要把标准嵌入需求分析、设计开发、测试验收、上线运行全过程。
真正有效的做法,是把标准检查嵌入项目流程,而不是等系统建完再来补。相信做过落地的朋友都有体会,标准落地最难的,就是异构系统之间的标准对齐,老系统字段不规范、新系统要按新标准建、中间还要保证数据流通,靠人工线下同步不仅效率低,还容易出错。
标准用了没有,适不适用,要靠评价来判断。至少要看两类指标:
业务在变,系统在变,监管在变,标准当然也要变。所以必须建立持续维护机制,包括变更申请、影响评估、审批发布、版本管理、执行跟踪等。没有改进机制,标准很快就会变成历史资料。
数据标准管理最核心的价值是为了让企业在业务协同、系统建设、数据共享、分析决策这些事情上,减少混乱,建立共识,提高效率。数据标准管理做得好,企业内部对同一份数据的理解才会一致,系统之间才更容易协同,数据质量才有基础。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。