作者:Bohan Zeng等
解读:AI生成未来

目前世界模型研究虽然火热,但存在两个核心痛点:
本工作提出了 OpenWorldLib 框架,其核心设计包含以下五个功能模块及一个调度中心:
OpenWorldLib 成功标准化的调用了包括 Cosmos、Hunyuan、VGGT 和 在内的多种前沿模型,在交互式视频生成、3D 场景重建、复杂空间推理和具身智能(VLA)任务中实现了高效的协同推理。

世界模型通常由三个核心条件概率分布定义:

其中 表示隐状态,其本质上整合了记忆存储,用以管理复杂任务的长程依赖; 代表 时刻的动作,来自于已被拓宽至涵盖多样化操作和特定任务输出(如生成和操纵)的动作空间; 是感知观测(例如视觉、音频或本体感受);而 是通过动作与环境交互获得的奖励。
尽管这些公式被广泛使用,但许多任务在形式上虽然满足此类条件概率分布,却并未真正服务于世界模型的核心目的。这些任务往往与世界模型研究混为一谈,或被笼统地贴上其标签。因此,在本节中,本工作结合前人提出的定义以及本文倡导的观点,清晰地划定哪些任务属于真正的世界模型研究范畴,哪些则不然。
交互式视频生成。下一帧预测被世界模型研究者视为最受认可的范式,确立了交互式视频生成作为该领域研究的主要重心。早期方法主要依赖基于回归的模型来预测后续帧。最近,该领域已转向利用扩散模型以实现更高质量的交互式视频生成,统一的多模态方法进一步提升了生成的保真度和可控性。随着扩散模型推理速度的加快,游戏视频生成和相机控制的视频生成已成为一个特别引人注目的领域。此外,视频预测范式已成功集成到视觉-语言-动作(VLA)模型和自动驾驶系统中。通过引入下一帧预测估计,这些模型在预测能力上的稳定性和鲁棒性得到了显著增强。然而,虽然交互式视频生成仍是当前世界模型研究的基石,但值得注意的是,下一帧预测并非唯一的实现范式。考虑到世界模型的终极目标是促进在复杂环境中的长期交互,探索替代或互补的表示范式同样至关重要。
多模态推理。世界模型的关键能力在于对复杂物理世界的深刻理解;因此,多模态推理是世界模型能力的关键体现。与世界模型紧密相关的多模态推理任务不仅涵盖空间推理和全能推理,还包括时间推理、因果推理。近期,除了传统的显式推理方法,利用隐式推理分析真实世界中的复杂动力学已成为一个显著的研究热点。通过摆脱大语言模型(LLMs)传统的以文本为中心的预训练范式,隐式推理机制使模型能够更有效地摄取和处理真实世界中固有的复杂、高维且连续的信息。
视觉-语言-动作。世界模型的最终目标是使智能体能够与物理世界交互,而具身设备是与复杂环境交互的主要代表。因此,视觉-语言-动作(VLA)已成为世界模型必须支持的一项关键能力。在机器人臂操纵领域,近期的研究主要遵循两条路径:利用多模态大语言模型(MLLMs)直接预测动作,或者将动作预测与视频生成相结合,通过未来帧预测来辅助动作规划。此外,这种 VLA 范式正被广泛应用于更复杂的具身场景,包括动力学极度复杂且难以控制的移动机器人,以及在极其广阔的环境中运行的自动驾驶系统,从而推进了模型在真实世界中的闭环交互能力。
除了直接依赖可观测感知的任务外,世界模型的一个关键部分涉及处理虚拟环境。为了确保物理空间在长期交互过程中保持一致,研究人员经常使用模拟器让模型以结构化的方式学习。虽然交互式视频生成创造了对未来的视觉猜测,但 3D 表示提供了一个可以严格遵循物理规则的可验证环境。
在此背景下,3D 生成与重建对于维持稳定的世界状态至关重要。近期工作如 VGGT、InfiniteVGGT 和 OmniVGGT 使用视觉几何导向的 Transformer 将图像输入与真实的几何结构联系起来。为了处理来自真实世界的连续数据,一些模型现在维持着持久的 3D 状态,或利用混合记忆进行长上下文重建,确保即使在智能体移动时环境也保持不变。此外,度量 3D 重建、深度估计和广角视图合成中的新方法允许世界模型从任何相机角度恢复准确的物理空间。通过学习置换等变(permutation-equivariant)视觉几何,这些模型可以在不同类型的物理设置中更好地工作。
此外,模拟器充当了世界模型的“沙盒”,帮助它们从抽象思考转向真实的物理动作。为了使这些模拟器能够实时工作,快速的场景生成是必要的。例如,FlashWorld 和 Hunyuan 系列可以在极短的时间内创建高质量的 3D 场景或资产,为世界模型提供了一个即时测试其想法的场所。近期的调查还探索了在这些 3D 生成过程中进行强化学习的潜力。通过使用这些显式的 3D 表示和模拟工具,世界模型可以超越仅仅预测像素,真正理解真实世界的物理规律。
除了与世界模型相关的任务外,某些应用虽未真正反映世界模型的能力,却频繁出现在类似的讨论中。基于本文的公式和对世界模型的具体定义,本节明确了哪些任务不属于这一类别。
一个突出的误解例子是文本转视频生成。当 Sora 发布时,许多人将其标记为“世界模拟器”。然而,有观点认为 Sora 并不构成一个完整的世界模拟器。虽然下一帧预测经常与世界模型联系在一起,但本文的定义强调,关键不在于输出格式,而在于模型是否利用多模态输入来分析和识别环境。下一帧预测仅作为一种格式。真正重要的是模型是否准确地理解复杂的物理规律并与世界交互。文本转视频生成缺乏这种复杂的感知输入。尽管生成视频展示了对物理的一定理解,但它仍处于世界模型核心任务之外。
类似地,一些任务如代码生成或网页搜索,借用了世界模型的长期交互结构用于其他领域。然而,这些任务通常缺乏多模态输入,且不涉及理解物理世界。虽然将这种结构应用于新领域带来了有趣的机遇,但这些任务并不符合真正的世界模型标准。
即便是一些实际上涉及多模态和长期交互的应用,如化身(avatar)视频生成,也不一定符合定义。这些任务主要聚焦于娱乐,由于它们与探索或理解复杂的物理世界关系不大,因此不代表世界模型的主要关注点。

基于前面,世界模型需要具备以下能力:接收来自复杂物理世界的输入、理解物理世界、在交互过程中维持长期记忆,并支持多模态输出。尽管已有研究提出过统一世界模型框架的设计,但其缺乏具体的工程实现乃至统一的标准。本节详细介绍了 OpenWorldLib 框架的具体设计,如图 2 所示。
在 OpenWorldLib 框架中,Operator 模块充当了原始用户输入(或环境信号)与核心执行模块(合成、推理和表示)之间的关键桥梁。由于世界模型必须处理来自物理世界的复杂、多模态输入——如文本提示词、图像、连续控制动作和音频信号——Operator 旨在对这些多样的输入流进行标准化。
具体而言,当 Pipeline 被调用时,它会将原始输入通过 Operator 的 process() 方法进行路由。Operator 负责两项主要功能:
为了方便集成新的世界模型方法,本文定义了一个统一的 Operator 模板。所有特定任务的算子都继承自此基类,确保整个代码库拥有统一的 API。Operator 的定义见清单1。

如图3中的隐式表示部分所示,世界模型的一项核心能力是利用内部学习到的动力学,通过环境反馈生成视觉、听觉和其他感官结果。本文将这种隐式生成过程定义为模型的隐式表示。在 OpenWorldLib 框架中,Synthesis 模块充当了上游流水线的标准化条件与用户、模拟器或机器人栈实际消费的多模态输出(视觉、听觉和具身动作)之间的生成桥梁。由于世界模型必须不仅将预测实现为内部状态,还要实现为可观测的媒体和可执行的指令,因此 Synthesis 模块托管了异构的生成后端,同时保持了跨模态的一致集成模式。
具体而言,当 Pipeline 运行生成路径时,它会将算子对齐的输入传递给相应的合成后端,后者在特定模态的控制下进行推理,并返回结构化的伪影以及用于导出、评估或记忆的简明元数据。以下子节将展开介绍该模块的视觉、音频及其他物理信号合成分支。
视觉合成层涵盖了 OpenWorldLib 中面向图像和视频的生成:它将结构化的条件(如文本提示词、参考图像或场景级规格)转化为光栅输出(帧张量、解码后的剪辑或 API 返回的资产),并附带元数据。通过这种方式,框架可以提供场景随时间演变的直观预测,这对于交互式模拟、定性检查以及一眼对比备选未来或相机路径至关重要。
在实践中,视觉合成层围绕以下职责进行组织:
音频合成层专注于在结构化条件下生成连续波形。其角色是提供多模态输出的听觉侧,使场景不局限于无声视频或仅文本的反馈,这对于感知丰富的环境以及判断声音与视觉之间的对齐至关重要。
具体而言,音频合成层履行以下角色:
除了视觉和音频模态外,与环境的全面交互还要求世界模型生成多样的物理信号。其中,动作控制证明是极其关键的。OpenWorldLib 因此在该模块内重点强调了视觉-语言-动作(VLA)信号生成。该合成层针对具身任务量身定制,并实现以下功能:


从图3的隐式表示部分来看,世界模型必须超越单纯的感知去理解物理世界:在任何下游生成或动作发生之前,推断空间关系、整合多模态上下文并生成落地的语义解释。为此,OpenWorldLib 引入了一个专门的 Reasoning 模块。具体而言,Reasoning 模块组织为三个子类:
为了促进新的面向推理的世界模型方法的集成,定义了一个统一的 BaseReasoning 模板。所有特定于任务的推理类都继承自这个基类,确保整个代码库的 API 一致。BaseReasoning 的定义如清单 3 所示。

除了利用内部能力理解世界的模型外,一些方法旨在构建人为定义的模拟器,如 3D 网格。这些模拟器为世界模型框架提供了一个可测试的环境。由于这些结构化表示不同于可直接从世界收集的感知数据,本文单独设计了 Representation 模块以处理这些显式表示。其主要功能包括:
为了标准化这些模型的使用方式,我们提供了一个统一的 BaseRepresentation 模板。所有特定于任务的表示类都继承自这个基类,以确保一致的 API。BaseRepresentation 的定义如清单 4 所示。

长期上下文记忆对于交互式世界模型维持历史观测、推理链和交互状态至关重要。OpenWorldLib 设计了一个统一的 Memory 模块来管理多模态交互历史。它履行以下功能:
为了统一内存管理,定义了一个统一的 BaseMemory 模板。所有特定于任务的内存类都继承自此基类。BaseMemory 的定义如清单 5 所示。

为了将上述模块整合进一个内聚且可用的系统,OpenWorldLib 提供了一个统一的 Pipeline 模块作为顶层调度和执行入口。Pipeline 封装了模型初始化、数据流、模块调用、记忆交互和结果后处理,使得通过简单一致的 API 即可实现端到端的世界模型推理。
Pipeline 遵循标准的前向执行流程:它接收原始输入,路由至 Operator 进行校验预处理,向 Memory 查询历史上下文,协调 Reasoning、Synthesis 和 Representation 进行核心计算,最后返回结构化输出并更新记忆。Pipeline 的核心职责包括:
stream() 方法支持有状态的持续交互。为了保持框架范围内的一致性,所有特定于任务的管道都继承自统一的 BasePipeline 模板。其定义如清单 6 所示。

OpenWorldLib 旨在为世界模型提供更清晰、更标准化的定义和框架。其目标是促进世界模型的发展,使 AI 能够更好地在复杂环境中协助人类。在本节中,本文讨论世界模型的未来发展方向。
许多当前的世界模型架构聚焦于下一帧预测。这种方法符合人类处理高密度感官输入的方式,因为人类本质上是在物理世界中进行“预训练”的,而大型模型则是在海量互联网文本语料库上预训练的。然而,基于现有架构,视觉语言模型(VLMs)可能提供一种切实的解决方案。例如,Bagel 成功地利用 Qwen 架构实现了多模态推理和多模态生成。这证明了在互联网数据上预训练的大语言模型(LLMs)可以具备世界模型所需的所有能力,展现了它们作为基础底座的潜力。因此,在完全专注于世界模型的特定结构设计之前,我们应首先考虑如何实现其所有必要的功能以实现与复杂世界的真实且有效的交互。此外,由于 LLMs 作为世界模型的基础支柱,以数据为中心的方法论——包括多模态数据合成、领域特定数据增强、动态训练和训练数据质量评估——将在强化支撑世界模型能力的底座模型中发挥日益重要的作用。
在现实世界的交互中,下一帧预测相较于下一标记(next-token)预测保留了更多信息,但其效率需要显著提升。这种效率的改进必须从硬件层面开始。目前的计算机字节组织天然有利于下一标记预测。即使当模型尝试下一帧预测时,数据在实际计算过程中仍被处理为标记(tokens)。为了实现理想的世界模型,我们需要硬件迭代、底座模型结构的改变(基于标记的 Transformer 可能需要演化),以及复杂物理世界交互任务的全方位实现。
本文在 NVIDIA A800 和 H200 GPU 上进行了广泛测试:



OpenWorldLib 为世界模型提供了一个标准化的工作流和评估流水线。通过提供统一的接口,它成功整合了多模态感知输入和多样化的交互控制。本工作希望该框架能成为研究社区的实用参考,推动世界模型领域的公平比较与未来探索。
[1] OpenWorldLib: A Unified Codebase and Definition of Advanced World Models.