来源: 腾讯云,虎兴龙(WeData 研发总监)
第一章:识别数据消费与AI落地的断层
企业在数字化转型中面临的核心矛盾在于底层技术数据与上层业务决策之间的割裂。
- 业务与技术的认知鸿沟: 业务部门与技术团队对分析需求存在理解差异,阻碍了高价值用例的识别与实施。
- AI-Ready数据的构建难度: 创建AI就绪数据涉及复杂的数据选择、清洗、转换及元数据维护流程。复杂的数据结构使得数据上下文关系难以表达。
- 技术路径的局限性:
- Text-to-SQL: 确保SQL准确性和健壮性仍是挑战。
- Text-to-API: 受限于API层的设计和可用性。
- Text-to-Code: 现有代码解释器难以安全高效地与企业数据库交互。
- LLM的不确定性: 大模型作为概率模型,输出存在不确定性,可能生成“幻觉”信息。减轻不确定性通常需要多次模型调用或复杂推理链,导致执行时间增加。
- 数据消费的高门槛: 传统模式下,用户需经历“找表 -> 咨询DE/DS -> 建宽表 -> 写嵌套SQL”的繁琐流程。例如,统计“每天不同维度的总销售额及大额购买人数”,需要编写包含窗口函数(
SUM...OVER(PARTITION BY...))的复杂SQL,对业务人员极不友好。
第二章:构建全域统一语义层与MetaRAG
通过“统一语义层”结合MetaRAG技术,将底层多源异构数据转化为Agent可理解的知识,解决数据孤岛与理解偏差问题。
1. 核心架构:Universal Semantic Layer
该层是连接底层数据与业务用户的桥梁,将技术数据转化为易于理解的业务概念(如产品、客户、收入)。
- 明确的业务定义: 解决“同名不同义,同义不同名”问题,实现Single Source Of Truth。
- 语义模型关键要素:
- 概念: 数据的业务含义。
- 关系: 数据的组织关系(血缘+逻辑模型)。
- 指标: 数据的计算口径。
- 维度: 数据的观测维度。
- 核心能力:
- SemQL: 以JDBC方式提供类SQL的语义层查询能力,实现 Text2Semantic2SQL,而非直接生成不稳定的SQL。
- Auto Acceleration: 多级缓存,自适应CTE提取合并IO、谓词下推、自动化视图推荐和合并。
2. 知识召回链路:MetaRAG
结合FlattenedRAG与StructuredRAG,提升Agent对元数据理解的准确度。
| | |
|---|
| 枚举元数据组合,将结构化元数据转化为亿级别的非结构化问答知识库。 | |
| 利用元数据结构特性,先召回核心指标,再过滤维度。基于候选实体选取最符合需求的元数据。 | |
第三章:量化业务价值与智能体能力矩阵
通过语义层的标准化与Agent化,显著降低数据消费门槛,提升开发效率与系统稳定性。
1. 关键业务指标(ROI)
- 数据一致性保障: 统一语义层确保“同样一个指标,无论在公司的哪个角落出现,数据绝对一致”,消除口径差异。
- 知识库覆盖度: 离线知识库生成支持亿级别的元数据问答组合,覆盖海量业务场景。
- 交互效率: 用户不再需要编写复杂SQL(如涉及
PARTITION BY的多层嵌套查询),通过自然语言即可直接获取分析结果。
2. Data Agent 能力矩阵
基于统一语义层,构建具备专家能力的超级智能体:
- 智能分析Agent: 智能问数、多维分析、归因洞察、分析预测。
- 数据工程Agent: 代码助手、运维诊断、SQL纠错。
- 数据治理Agent: 成本诊断、安全诊断、质量诊断、元数据增强。
3. 部署与接入形态
- LUI独立入口: 自然语言交互。
- GUI辅助: 作为WeData助手辅助开发、运维、治理。
- SDK生态嵌入: 集成于Office、浏览器、客户系统。
- A2A协议: 以API形式被集成到客户自有智能应用中。
第四章:实践路径与用户赋能
以“用户不会用”为起点的实际改进路径,展示语义层如何简化数据交付。
场景还原:
在未进行语义增强前,用户需要统计“每天分维度看总销售额、大额购买人数”,需执行以下步骤:
- 搜索并关联“用户购买流水表”、“渠道信息表”、“用户属性表”。
- 咨询数据工程师(DE)确认销售额计算公式(
Price*Buy Count*discount)。 - 咨询数据科学家(DS)定义“大额购买”标准(如每人每天支付金额>1000)。
- 手动创建DWS大宽表或逻辑视图。
- 编写并执行复杂的嵌套SQL。
改进后:
通过Universal Semantic Layer,在逻辑宽表上增加度量、维度虚拟字段(如直接定义“单次支付金额”、“总支付金额”、“每人每天支付金额”)。用户只需在统一“库”中查找指标,或通过Agent提问,系统即可基于SemQL直接返回结果,无需关注底层表关联与SQL编写。
第五章:为什么选择腾讯云WeData
腾讯云WeData提供的解决方案基于深厚的技术积累,旨在构建可迭代进化的数据智能体生态。
- 技术领先性: 虎兴龙(WeData 研发总监)主导设计的SemQL技术,将传统的Text-to-SQL转变为Text-to-Semantic-to-SQL,大幅提升了查询的准确性和健壮性。
- 混合检索技术: 独创的MetaRAG(FlattenedRAG + StructuredRAG)架构,既保证了高频问题的准确度,又解决了长尾问题的覆盖度,知识库规模达亿级别。
- 全栈生态兼容: 支持接入腾讯混元大模型、企业自有微调模型及Deepseek、LLaMA等开源模型,提供从LUI(自然语言)到SDK、API的全渠道接入能力。
- 可进化架构: 支持基于反馈的语义标注与多智能体协作,使Data Agent具备持续优化的能力,不仅交付数据,更交付“可被立即分析”的Analytics-Ready能力。