“世界模型”到底是个啥？OpenWorldLib一锤定音：感知+交互+记忆，这才叫理解世界的AI！

AI生成未来

发布于 2026-04-15 18:45:51

作者：Bohan Zeng等

解读：AI生成未来

文章地址：https://arxiv.org/pdf/2604.04707
开源代码：https://github.com/OpenDCAI/OpenWorldLib

亮点直击

标准化定义：针对学术界对“世界模型”定义的模糊性，本文提出了一个清晰的定义：以感知为中心，具备交互和长期记忆能力，用于理解和预测复杂世界的模型或框架。
统一推理框架：开发了 OpenWorldLib，将交互式视频生成、3D 生成、多模态推理和视觉-语言-动作（VLA）等多种任务集成在统一的工程实现下。
能力系统化分类：系统地梳理了世界模型应具备的核心能力，并明确划分了哪些任务（如纯文本转视频）不应被归类为真正的世界模型研究。

解决的问题

目前世界模型研究虽然火热，但存在两个核心痛点：

定义不一：研究者对世界模型的边界缺乏共识，导致许多生成任务（如 Sora）被误认为完整的世界模拟器。
工程分散：不同类型的世界模型任务（感知、预测、动作）往往使用完全不同的底层架构和推理流程，难以协同工作。

提出的方案与应用技术

本工作提出了 OpenWorldLib 框架，其核心设计包含以下五个功能模块及一个调度中心：

Operator（算子模块）：负责多模态输入的标准化预处理与校验。
Synthesis（合成模块）：涵盖视觉（视频/图像）、音频以及物理信号（如 VLA 控制指令）的生成，实现模型的隐式表示。
Reasoning（推理模块）：包含通用多模态推理、空间推理及音频推理，使模型能理解复杂的物理规律。
Representation（表示模块）：支持 3D 重建和仿真环境接口，提供显式的物理世界结构信息。
Memory（记忆模块）：管理长期交互历史，支持上下文检索、压缩和状态更新。
Pipeline：作为顶层调度 entry，协调各模块完成单次或多轮流式交互任务。

达到的效果

OpenWorldLib 成功标准化的调用了包括 Cosmos、Hunyuan、VGGT 和在内的多种前沿模型，在交互式视频生成、3D 场景重建、复杂空间推理和具身智能（VLA）任务中实现了高效的协同推理。

背景与相关工作

世界模型通常由三个核心条件概率分布定义：

其中表示隐状态，其本质上整合了记忆存储，用以管理复杂任务的长程依赖；代表时刻的动作，来自于已被拓宽至涵盖多样化操作和特定任务输出（如生成和操纵）的动作空间；是感知观测（例如视觉、音频或本体感受）；而是通过动作与环境交互获得的奖励。

尽管这些公式被广泛使用，但许多任务在形式上虽然满足此类条件概率分布，却并未真正服务于世界模型的核心目的。这些任务往往与世界模型研究混为一谈，或被笼统地贴上其标签。因此，在本节中，本工作结合前人提出的定义以及本文倡导的观点，清晰地划定哪些任务属于真正的世界模型研究范畴，哪些则不然。

世界模型相关任务

交互式视频生成。下一帧预测被世界模型研究者视为最受认可的范式，确立了交互式视频生成作为该领域研究的主要重心。早期方法主要依赖基于回归的模型来预测后续帧。最近，该领域已转向利用扩散模型以实现更高质量的交互式视频生成，统一的多模态方法进一步提升了生成的保真度和可控性。随着扩散模型推理速度的加快，游戏视频生成和相机控制的视频生成已成为一个特别引人注目的领域。此外，视频预测范式已成功集成到视觉-语言-动作（VLA）模型和自动驾驶系统中。通过引入下一帧预测估计，这些模型在预测能力上的稳定性和鲁棒性得到了显著增强。然而，虽然交互式视频生成仍是当前世界模型研究的基石，但值得注意的是，下一帧预测并非唯一的实现范式。考虑到世界模型的终极目标是促进在复杂环境中的长期交互，探索替代或互补的表示范式同样至关重要。

多模态推理。世界模型的关键能力在于对复杂物理世界的深刻理解；因此，多模态推理是世界模型能力的关键体现。与世界模型紧密相关的多模态推理任务不仅涵盖空间推理和全能推理，还包括时间推理、因果推理。近期，除了传统的显式推理方法，利用隐式推理分析真实世界中的复杂动力学已成为一个显著的研究热点。通过摆脱大语言模型（LLMs）传统的以文本为中心的预训练范式，隐式推理机制使模型能够更有效地摄取和处理真实世界中固有的复杂、高维且连续的信息。

视觉-语言-动作。世界模型的最终目标是使智能体能够与物理世界交互，而具身设备是与复杂环境交互的主要代表。因此，视觉-语言-动作（VLA）已成为世界模型必须支持的一项关键能力。在机器人臂操纵领域，近期的研究主要遵循两条路径：利用多模态大语言模型（MLLMs）直接预测动作，或者将动作预测与视频生成相结合，通过未来帧预测来辅助动作规划。此外，这种 VLA 范式正被广泛应用于更复杂的具身场景，包括动力学极度复杂且难以控制的移动机器人，以及在极其广阔的环境中运行的自动驾驶系统，从而推进了模型在真实世界中的闭环交互能力。

3D与模拟器在世界模型中的作用

除了直接依赖可观测感知的任务外，世界模型的一个关键部分涉及处理虚拟环境。为了确保物理空间在长期交互过程中保持一致，研究人员经常使用模拟器让模型以结构化的方式学习。虽然交互式视频生成创造了对未来的视觉猜测，但 3D 表示提供了一个可以严格遵循物理规则的可验证环境。

在此背景下，3D 生成与重建对于维持稳定的世界状态至关重要。近期工作如 VGGT、InfiniteVGGT 和 OmniVGGT 使用视觉几何导向的 Transformer 将图像输入与真实的几何结构联系起来。为了处理来自真实世界的连续数据，一些模型现在维持着持久的 3D 状态，或利用混合记忆进行长上下文重建，确保即使在智能体移动时环境也保持不变。此外，度量 3D 重建、深度估计和广角视图合成中的新方法允许世界模型从任何相机角度恢复准确的物理空间。通过学习置换等变（permutation-equivariant）视觉几何，这些模型可以在不同类型的物理设置中更好地工作。

此外，模拟器充当了世界模型的“沙盒”，帮助它们从抽象思考转向真实的物理动作。为了使这些模拟器能够实时工作，快速的场景生成是必要的。例如，FlashWorld 和 Hunyuan 系列可以在极短的时间内创建高质量的 3D 场景或资产，为世界模型提供了一个即时测试其想法的场所。近期的调查还探索了在这些 3D 生成过程中进行强化学习的潜力。通过使用这些显式的 3D 表示和模拟工具，世界模型可以超越仅仅预测像素，真正理解真实世界的物理规律。

不被视为世界模型的方法

除了与世界模型相关的任务外，某些应用虽未真正反映世界模型的能力，却频繁出现在类似的讨论中。基于本文的公式和对世界模型的具体定义，本节明确了哪些任务不属于这一类别。

一个突出的误解例子是文本转视频生成。当 Sora 发布时，许多人将其标记为“世界模拟器”。然而，有观点认为 Sora 并不构成一个完整的世界模拟器。虽然下一帧预测经常与世界模型联系在一起，但本文的定义强调，关键不在于输出格式，而在于模型是否利用多模态输入来分析和识别环境。下一帧预测仅作为一种格式。真正重要的是模型是否准确地理解复杂的物理规律并与世界交互。文本转视频生成缺乏这种复杂的感知输入。尽管生成视频展示了对物理的一定理解，但它仍处于世界模型核心任务之外。

类似地，一些任务如代码生成或网页搜索，借用了世界模型的长期交互结构用于其他领域。然而，这些任务通常缺乏多模态输入，且不涉及理解物理世界。虽然将这种结构应用于新领域带来了有趣的机遇，但这些任务并不符合真正的世界模型标准。

即便是一些实际上涉及多模态和长期交互的应用，如化身（avatar）视频生成，也不一定符合定义。这些任务主要聚焦于娱乐，由于它们与探索或理解复杂的物理世界关系不大，因此不代表世界模型的主要关注点。

OpenWorldLib 框架设计

基于前面，世界模型需要具备以下能力：接收来自复杂物理世界的输入、理解物理世界、在交互过程中维持长期记忆，并支持多模态输出。尽管已有研究提出过统一世界模型框架的设计，但其缺乏具体的工程实现乃至统一的标准。本节详细介绍了 OpenWorldLib 框架的具体设计，如图 2 所示。

Operator（算子模块）

在 OpenWorldLib 框架中，Operator 模块充当了原始用户输入（或环境信号）与核心执行模块（合成、推理和表示）之间的关键桥梁。由于世界模型必须处理来自物理世界的复杂、多模态输入——如文本提示词、图像、连续控制动作和音频信号——Operator 旨在对这些多样的输入流进行标准化。

具体而言，当 Pipeline 被调用时，它会将原始输入通过 Operator 的 process() 方法进行路由。Operator 负责两项主要功能：

校验：确保输入数据的格式、形状和类型满足下游模型的要求。
预处理：将原始信号转换为标准化的张量表示或结构化格式（例如，调整图像大小、对文本进行标记化或对动作空间进行归一化）。

为了方便集成新的世界模型方法，本文定义了一个统一的 Operator 模板。所有特定任务的算子都继承自此基类，确保整个代码库拥有统一的 API。Operator 的定义见清单1。

Synthesis 模块

如图3中的隐式表示部分所示，世界模型的一项核心能力是利用内部学习到的动力学，通过环境反馈生成视觉、听觉和其他感官结果。本文将这种隐式生成过程定义为模型的隐式表示。在 OpenWorldLib 框架中，Synthesis 模块充当了上游流水线的标准化条件与用户、模拟器或机器人栈实际消费的多模态输出（视觉、听觉和具身动作）之间的生成桥梁。由于世界模型必须不仅将预测实现为内部状态，还要实现为可观测的媒体和可执行的指令，因此 Synthesis 模块托管了异构的生成后端，同时保持了跨模态的一致集成模式。

具体而言，当 Pipeline 运行生成路径时，它会将算子对齐的输入传递给相应的合成后端，后者在特定模态的控制下进行推理，并返回结构化的伪影以及用于导出、评估或记忆的简明元数据。以下子节将展开介绍该模块的视觉、音频及其他物理信号合成分支。

视觉合成

视觉合成层涵盖了 OpenWorldLib 中面向图像和视频的生成：它将结构化的条件（如文本提示词、参考图像或场景级规格）转化为光栅输出（帧张量、解码后的剪辑或 API 返回的资产），并附带元数据。通过这种方式，框架可以提供场景随时间演变的直观预测，这对于交互式模拟、定性检查以及一眼对比备选未来或相机路径至关重要。

在实践中，视觉合成层围绕以下职责进行组织：

生成栈组合：将文本编码器、隐式解码器以及基于扩散或流匹配的核心与适合每项任务的调度器或求解器相结合，并暴露空间分辨率、时间范围（帧预算）和引导类参数的调节旋钮。
集成界面：支持由检查点驱动的流水线（从预训练资源统一构建和无梯度推理）以及通过端点和凭据进行身份验证的托管服务封装器，使得本地和远程生成器共享相同的概念调用模式。

音频合成

音频合成层专注于在结构化条件下生成连续波形。其角色是提供多模态输出的听觉侧，使场景不局限于无声视频或仅文本的反馈，这对于感知丰富的环境以及判断声音与视觉之间的对齐至关重要。

具体而言，音频合成层履行以下角色：

资源装配：通过单一的工厂风格入口点实例化神经音频生成器及任何辅助模块，并具有明确的设备和可重复性设置。
条件波形合成：通过统一的推理入口点将算子准备的张量和提示词映射到音频输出。

其他信号合成

除了视觉和音频模态外，与环境的全面交互还要求世界模型生成多样的物理信号。其中，动作控制证明是极其关键的。OpenWorldLib 因此在该模块内重点强调了视觉-语言-动作（VLA）信号生成。该合成层针对具身任务量身定制，并实现以下功能：

策略初始化与空间对齐：从预训练权重加载专门的物理策略，将多样的动作表示映射到与目标模拟器或机器人硬件兼容的统一接口。
上下文条件动作合成：将丰富的多模态上下文（如实时视觉流、文本目标和本体感受历史）转化为落地的物理指令。

Reasoning 模块

从图3的隐式表示部分来看，世界模型必须超越单纯的感知去理解物理世界：在任何下游生成或动作发生之前，推断空间关系、整合多模态上下文并生成落地的语义解释。为此，OpenWorldLib 引入了一个专门的 Reasoning 模块。具体而言，Reasoning 模块组织为三个子类：

通用推理：能够以统一方式处理文本、图像、音频和视频的多模态大语言模型（MLLMs）。
空间推理：专门从视觉观测中进行 3D 空间理解和物体定位的模型。
音频推理：解释并对听觉信号进行推理的模型。

为了促进新的面向推理的世界模型方法的集成，定义了一个统一的 BaseReasoning 模板。所有特定于任务的推理类都继承自这个基类，确保整个代码库的 API 一致。BaseReasoning 的定义如清单 3 所示。

Representation 模块

除了利用内部能力理解世界的模型外，一些方法旨在构建人为定义的模拟器，如 3D 网格。这些模拟器为世界模型框架提供了一个可测试的环境。由于这些结构化表示不同于可直接从世界收集的感知数据，本文单独设计了 Representation 模块以处理这些显式表示。其主要功能包括：

3D 重建：将输入数据转换为显式的 3D 输出，如点云、深度图和相机位姿。
模拟支持：创建一个手动环境，世界模型可以在其中测试其推理，并验证其预测的动作在坐标系中是否正确。
服务集成：支持本地推理和基于云的 API，帮助将这些显式表示导出到外部物理引擎。

为了标准化这些模型的使用方式，我们提供了一个统一的 BaseRepresentation 模板。所有特定于任务的表示类都继承自这个基类，以确保一致的 API。BaseRepresentation 的定义如清单 4 所示。

Memory 模块

长期上下文记忆对于交互式世界模型维持历史观测、推理链和交互状态至关重要。OpenWorldLib 设计了一个统一的 Memory 模块来管理多模态交互历史。它履行以下功能：

历史存储：存储跨交互的文本、视觉特征、动作轨迹和场景状态。
上下文检索：选择相关的历史以支持一致的推理和生成。
状态更新：在每次流水线执行后记录新的交互结果。
会话管理：为不同任务和会话支持独立的记忆。

为了统一内存管理，定义了一个统一的 BaseMemory 模板。所有特定于任务的内存类都继承自此基类。BaseMemory 的定义如清单 5 所示。

Pipeline

为了将上述模块整合进一个内聚且可用的系统，OpenWorldLib 提供了一个统一的 Pipeline 模块作为顶层调度和执行入口。Pipeline 封装了模型初始化、数据流、模块调用、记忆交互和结果后处理，使得通过简单一致的 API 即可实现端到端的世界模型推理。

Pipeline 遵循标准的前向执行流程：它接收原始输入，路由至 Operator 进行校验预处理，向 Memory 查询历史上下文，协调 Reasoning、Synthesis 和 Representation 进行核心计算，最后返回结构化输出并更新记忆。Pipeline 的核心职责包括：

统一模型初始化：通过单一接口加载所有子模块。
端到端推理：为单轮世界模型任务实现一键式前向推理。
多轮交互执行：通过带有自动记忆读写的 stream() 方法支持有状态的持续交互。
模块化编排：根据任务类型动态调用模块，无需修改内部逻辑。
结果结构化：将输出组织为标准化格式，用于可视化、评估、日志记录或下游控制系统。

为了保持框架范围内的一致性，所有特定于任务的管道都继承自统一的 BasePipeline 模板。其定义如清单 6 所示。

讨论

OpenWorldLib 旨在为世界模型提供更清晰、更标准化的定义和框架。其目标是促进世界模型的发展，使 AI 能够更好地在复杂环境中协助人类。在本节中，本文讨论世界模型的未来发展方向。

许多当前的世界模型架构聚焦于下一帧预测。这种方法符合人类处理高密度感官输入的方式，因为人类本质上是在物理世界中进行“预训练”的，而大型模型则是在海量互联网文本语料库上预训练的。然而，基于现有架构，视觉语言模型（VLMs）可能提供一种切实的解决方案。例如，Bagel 成功地利用 Qwen 架构实现了多模态推理和多模态生成。这证明了在互联网数据上预训练的大语言模型（LLMs）可以具备世界模型所需的所有能力，展现了它们作为基础底座的潜力。因此，在完全专注于世界模型的特定结构设计之前，我们应首先考虑如何实现其所有必要的功能以实现与复杂世界的真实且有效的交互。此外，由于 LLMs 作为世界模型的基础支柱，以数据为中心的方法论——包括多模态数据合成、领域特定数据增强、动态训练和训练数据质量评估——将在强化支撑世界模型能力的底座模型中发挥日益重要的作用。

在现实世界的交互中，下一帧预测相较于下一标记（next-token）预测保留了更多信息，但其效率需要显著提升。这种效率的改进必须从硬件层面开始。目前的计算机字节组织天然有利于下一标记预测。即使当模型尝试下一帧预测时，数据在实际计算过程中仍被处理为标记（tokens）。为了实现理想的世界模型，我们需要硬件迭代、底座模型结构的改变（基于标记的 Transformer 可能需要演化），以及复杂物理世界交互任务的全方位实现。

实验总结

本文在 NVIDIA A800 和 H200 GPU 上进行了广泛测试：

交互式视频生成：对比了 Matrix-Game-2、Hunyuan 和 Cosmos 等模型。实验证明 Cosmos 在物理真实感和复杂交互操作上具有显著优势。
多模态推理：评估了模型在处理图像、视频及音频证据并生成可靠结论的能力。
3D 生成：测试了 VGGT 等模型在不同视角下的重建效果，指出在大尺度相机移动时保持几何一致性仍是挑战。
VLA 评价：利用 AI2-THOR 和 LIBERO 仿真环境验证了具身智能体的动作规划能力。