
哈喽大家好,我是「老周聊架构」主理人老周,周末参加了Data For AI的活动,本来那天有龙虾的活动,想了几秒:我毅然还是选择了Data For AI的活动。为啥呢?“AI的燃料是数据,数据的燃料是元数据。” 如何?这个理由充分不,哈哈哈哈,我们话不多说直接进入正题。
第一个上场分享的是Datastrato创始人堵俊平老师,从ChatGPT引爆AI圈后,从LLM到RAG再到Agent再到今年的OpenClaw,大模型走到了今天这个时间点,不仅仅是能回答问题,而且是能去帮用户主动的解决问题,这是Agent跟之前的范式核心的变化之一。

软件架构正经历从传统的“以界面为中心”到“以智能体(Agent)为中心”的深刻变革。这一过程可以划分为三个关键阶段:

上面说完软件架构的变化,下面说下数据架构的五大核心转向:


随着 AI Agents 成为人类与数据交互的主要入口,架构重心正在向数据控制平面转移。这一架构不再要求 Agent 直接面对底层繁琐的计算引擎,而是通过一个高度抽象、语义化的中枢进行调度:
老周看了很多组件,很多组件都是慢慢在向这一方向在演进。
这种设计彻底解决了 Agent 在面对海量、异构数据源时的“迷茫”问题。它将复杂的基础设施逻辑封装在控制平面之下,让 Agent 能够专注在目标达成上,实现了逻辑上统一视图,物理上分布式执行的终极形态。
接下来由腾讯云TBDS技术负责人张帅老师带来的分享,有点像字节的LAS,反正都是数据湖的基础设施。

腾讯⼤数据套件 TBDS(Tencent Big Data Suite) 是腾讯云⾯向企业级场景的⼀站式⼤数据平台,集成存储、计算、治理与 AI 能⼒,提供从数据接⼊、湖仓存储(HDFS/Iceberg/Lance)、多引擎计算(Spark/Flink/Presto/StarRocks)到元数据管理(MetaService)、数据⾎缘与权限治理的全链路⼤数据解决⽅ 案,⽀持私有化部署、国产化芯⽚适配及⾦融/能源/互联⽹等⾏业场景落地。
传统数据湖在⾯对⼤规模多模态数据时,⾯临存储、计算、管理和治理上的诸多挑战。

TBDS 深度集成 Lance:实现多模态数据⾼效存储
当我看到腾讯也深度集成Lance的时候,我才反应过来,我之前以为是字节的产品,因为之前字节的数据湖分享的时候经常出现Lance。那老周这里就简单先介绍下Lance吧:
Lance 是由 LanceDB 这家初创公司开发并开源的。它的创始人包括 Chang She(曾是 Pandas 的核心作者之一)等。它被定义为一种专门为 AI 和多模态数据设计的现代列式数据格式。
Lance格式 为AI时代存储⽽⽣,使⽤存算分离架构,更易维护,在海量数据下有较⼤成本优势。

上面说完存储,我们下面说下计算:
TBDS集成增强Ray:多模态数据⾼效流转&AI计算资源弹性管理

除了上面的特性以外,⽀持混合调度多个k8s集群的CPU/GPU异构资源, ⽀持客户在AI时代的计算需求。
TBDS协同开发Gravitino: ⼀站式管理异构数据源
Gravitino:多模态数据资产的统⼀管理
从⽂件⽬录到 REST 接⼝,不同lance表元数据管理⽅案在集中管理、权限控制和扩展性上差距显著。

TBDS-Lakekeeper:完整 AI 数据湖治理⽅案
TBDS全新⼀代AI湖仓产品架构

我们从三个维度来看:
基于AI数据湖的知识库构建

接下来是来自OPPO⼤数据架构负责⼈David分享的《Gravitino&Curvine在OPPO多模态数据湖应⽤实践》,上面就有老师分享过Gravitino,现在Gravitino又出现了,看来Gravitino在元数据这块已经深入各个大厂的青睐了。
这里的Curvine可能大家不怎么熟悉,老周这里大概介绍下,Curvine是由OPPO开源的一款分布式缓存组件。
Curvine is a high-performance, concurrent distributed cache system written in Rust, designed for low-latency and high-throughput workloads. Name Origin The name "Curvine" is derived from the concatenation of the words "Curvature" and "Engine". It refers to an accelerator for spacecraft in the science fiction novel The Three-Body Problem, symbolizing extremely high performance.
Curvine 是一个用 Rust 编写的高性能并发分布式缓存系统,专为低延迟和高吞吐量工作负载而设计。
名称由来:Curvine 的名称源自“曲率”(Curvature)和“引擎”(Engine)两个词的组合。它指的是科幻小说《三体》中用于航天器的加速器,象征着极高的性能。
数据湖仓发展阶段

数据湖仓发展的发展基本上是这么一个方向,在AI时代必然是多模态的,无非抓住三个点:多模态数据怎么混合计算、怎么统一存储、怎么统一元数据管理。基本上是围绕这三个点进行的。
OPPO的多模态数据湖架构

存储层:结构化与非结构化的融合 (L1)
处理层:多模态算子与混合计算 (L2)
检索层:从关键词到语义搜索 (L2 右侧)
应用与管控层 (L3 及右侧)

其实技术架构基本大差不差,老周这里说下和以前不一样的地方:AI 原生设计,相比传统架构,它通过 Gravitino + LanceDB 的组合,将“向量数据”提升到了与“关系型数据”同等的战略地位。
Gravitino统⼀全模态元数据

上图展示了 Spark SQL 如何通过 Gravitino 同时调度两种截然不同的数据底座:
核心技术架构:双链路打通
三大能力成果
一句话总结:Gravitino 屏蔽了底层存储的差异性,通过构建统一的元数据层,让 Spark 具备了同时处理大数据分析(Big Data)与 AI 多模态数据(AI Data)的联邦计算能力。

我们再来看下Curvine在哪个位置,很明显在计算和存储之间。
那如何让Curvine加速多模态数据读写呢?

Curvine通过在底层对象存储(OSS)与上层计算框架(如 LanceDB 和 PyTorch)之间构建智能缓存层,显著消除了 AI 场景下的 I/O 瓶颈。它不仅通过缓存索引(Index)和元数据(Manifest)实现毫秒级的快速检索响应,还支持对频繁访问的图片、视频等热表数据进行预热,确保数据能够以“近计算端”的速度供给计算节点。此外,Curvine 还针对模型训练中的 Checkpoint 写入进行了专项加速,通过异步刷盘与分布式协同,保障了超大规模多模态数据在湖仓架构中的读写稳定性与高效流转。
AI Agent在访问数据方面面临的挑战
过去,数据治理的重心在于打破物理孤岛,即通过 ETL 手段将离散数据汇聚到数仓或数据湖,解决的是人查数据、看报表、做决策的需求。
而当下,数据的生产与消费主体正从‘人’转向‘模型与 Agent’。数据不再仅仅为了应用呈现,而是成为了模型燃料:一是为了模型微调与预训练,提供高质量的行业知识;二是为了嵌入 RAG 与 Agent 流程,通过实时索引与语义检索,将海量数据转化为直接解决业务问题的行动能力。这种转变要求我们从简单的‘数据汇聚’走向深度语义对齐。

我们经常往往会说需要哪些数据,但最容易忽略的是冰山水面底下的元数据,这些元数据其实是这些数据的基座。
这里千呼万唤始出来,Gravitino作为元数据组件开源了出来,打破数据孤岛且为应用提供可靠的方式来获取这些数据。作为面向AI+Data的数据目录产品,应该低代价、低成本、同时满足合规要求把这些数据管理在一起。

上层(计算与消费): 涵盖了大数据引擎(Trino、Spark、Flink)、OLAP 数据库(Doris、ClickHouse)以及 AI 框架(PyTorch、TensorFlow)。这意味着无论你是写 SQL 的开发者,还是训练模型的 AI 工程师,都通过同一个入口对接数据。
中层(Gravitino 统一元数据层): 这是核心。它通过 Built-in Catalog 兼容了多种元数据标准,包括:
底层(多源存储): 对接 Hadoop 数据湖、传统数仓、流式数据处理系统、非结构化存储以及机器学习专用存储。
Apache Gravitino Architecture

连接层 (Connection Layer):协议适配
这是最底层,负责与各种具体的存储实体建立物理连接。
对象模型核心 (Core with Object Model):多级分层抽象
这是 Gravitino 最核心的逻辑设计,采用了一种类似多租户目录的层级结构:
接口层 (Interface Layer):标准化通路
Gravitino 并没有发明一套完全封闭的协议,而是选择拥抱开放标准:
功能层 (Functionality Layer):价值转化
在这一层,统一后的元数据转化为实际的生产力:

上图揭示了 Gravitino 如何通过统一的设计哲学,消除结构化与非结构化数据之间的管理鸿沟。它将传统的表格数据与现代 AI 所需的非结构化文件,共同抽象为一套标准化的 API 操作与多层级元数据模型(Schema/Table/Fileset),使开发者既能像管理数据库表一样精细化治理文件资源,又能通过虚拟文件系统(GVFS)让 PyTorch、Ray 等 AI 框架实现对底层异构存储的无感访问。这种设计不仅保障了跨计算引擎的一致性,更通过“位置透明”的Fileset抽象,为模型训练与 Agent 检索提供了规范化、资产化的知识获取路径,真正实现了大数据分析与 AI 数据处理的逻辑归一。
最后一个出场分享的是tison,tison是Apache软件基金会的现任董事,中国区只有一位,我看了下我关注的几个Apache项目,群里也都有tison老师的身影。
Rigid Schema vs. Schemaless

上图对比了“刚性模式”(Rigid Schema)与“无模式”(Schemaless)在数据存储中的根本差异:左侧展示了传统关系型数据库在处理结构化数据时,虽然对符合定义的完美数据(Perfect Fit)表现出色,但在遇到字段缺失或新增字段(如 ctx_3)时会产生兼容性冲突(NULL值或无法映射);而右侧则描述了无模式架构(常见于数据湖或NoSQL),它虽然允许通过“盲写”(Blindly Write)灵活接纳各种变化、新增或临时性的数据结构,但随之而来的代价是数据结构在不断增长中变得混乱且难以维护,最终演变成一个难以治理的“未知数据湖”,也就是tison说的数据下水沟。
为了解决上述痛点,ScopeDB提出了一种新的数据存储模式——即时模式(Schema On The Fly)。

即时模式是一种解决数据结构多变性的有效策略,它不再强制要求所有写入数据遵循统一的严格列定义,而是通过将多变的属性或元数据打包进一个灵活的容器字段(如图中所示的 var 字段,通常采用 JSON 或键值对格式)来存入关系型或半结构化数据库。这种方法在处理如日志链路追踪、用户行为监测、A/B 测试参数或反欺诈特征等场景时极具优势,因为它允许系统在不变更底层物理存储模式的情况下,平滑地接纳不断演进的业务数据,从而在保持查询效率的同时兼顾了极高的灵活性与兼容性。
The Big Data Solution Is Not Cloud Native

上面这张图典型的“非云原生”大数据架构的复杂性,其核心痛点在于数据并非直接从源头流入分析平台,而是必须先通过应用写入关系型数据库,再通过变更数据捕获(CDC)机制(如 Fivetran 或 Kafka)进行二次搬运,从而形成了繁琐的链路。这种架构不仅引入了额外的延迟和维护成本,还被迫根据“实时”与否的需求分叉出两条完全不同的技术栈:一条是依赖 S3 和批处理文件的冷数据路径,另一条则是依赖 Flink 或 Dataflow 等流处理引擎的热数据路径,这种割裂的架构模式 往往会导致数据一致性校验困难、基础设施资源冗余以及极高的运维复杂度,与追求敏捷、统一、直接数据接入的现代云原生架构理念背道而驰。
Language Integrated Cabel API

展示了 ScopeDB Language Integrated Cabel API 如何通过在应用程序代码中直接嵌入声明式逻辑来实现实时数据摄取,这种设计巧妙地将数据处理逻辑(如 SQL 选择、类型转换与过滤)与业务逻辑代码紧密绑定,从而省去了中间件(如 Kafka 或 Fivetran)的二次搬运环节。通过这种方式,开发者能够直接在代码中定义数据结构并执行实时写入操作,数据经过处理后直接进入共享对象存储(如 S3 或 GCS),不仅极大地简化了数据管道架构,还避免了传统数据迁移方案中常见的延迟和一致性问题,体现了云原生环境下“数据即代码”的简洁性。
但老周针对这种处理方式有不一样的想法:如果底层数据存储逻辑发生巨大变动,或者需要跨业务复用一套复杂的清洗规则时,代码的维护成本会急剧上升。在这种场景下,架构设计的关键在于权衡:如果是为了应对超大规模、极速写入的实时指标监控,这种“强绑定”可能是一种为了性能与效率而接受的必要之恶;但对于逻辑极其复杂且变动频繁的业务数据流,引入一层数据抽象层或配置中心(例如将转换规则定义为可动态更新的 Schema 定义文件而非硬编码在函数中)或许是平衡灵活性与耦合度的折中方案。
ScopeDB Architecture

ScopeDB 如何通过计算与存储分离的架构,将不同类型的计算任务分配到专属的“工作组”中以实现资源隔离。系统明确划分了三个核心维度:负责实时写入的“摄取组”(Ingestion Group)、处理常规查询的“常规组”(Regular Group),以及针对复杂分析或大规模扫描任务的“临时组”(Temporary Group),所有这些算力节点都统一通过底层共享的对象存储(S3, GCS 等)进行数据交换。这种设计彻底摆脱了单体数据库中写入负载与复杂查询相互争抢内存和 CPU 资源的窘境,不仅确保了高并发实时入库的稳定性,还通过临时组实现了对大查询的弹性隔离,真正实现了分析负载与数据摄取负载的物理级解耦,从而在保障系统整体健壮性的同时,显著提升了资源调度的灵活性与利用率。
ScopeQL: A Fluent Query Language

ScopeQL 的几个核心设计亮点包括:
Fully Leverage Cloud Elasticity
一个下午的分享,老周也说说自己的一些想法。活动举办是在龙华,这也是我第一次去龙华参加活动,之前都是在南山,也是不一样的活动体验吧。
在 AI Agent 时代,数据领域正面临从“被动存储”向“主动即时决策”的范式转移,老周认为这也带来了诸多挑战:
好了,这次活动的全部内容都在这里了,期待下次的Data For AI活动再次来深圳,我们下期再见