开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

李飞飞定义世界模型三大功能：渲染器、仿真器、规划器

文章来源：企鹅号 - 三言科技

据智东西，斯坦福大学教授、World Labs联合创始人兼CEO李飞飞与团队发布文章《世界模型的功能分类》，系统拆解了当下释义混乱的“世界模型”概念。

文章指出，计算机视觉、机器人、强化学习和生成式AI各领域都在研发世界模型，但各方所指内涵截然不同。李飞飞从强化学习的POMDP（部分可观测马尔可夫决策过程）框架出发，为世界模型建立了清晰的功能分类体系。

李飞飞将世界模型归纳为三大功能类别：渲染器输出供人观看的像素画面，核心评判标准是视觉还原度；仿真器输出贴合客观规律的环境状态，需恪守结构真实性；规划器输出智能体的动作指令，依托观测信息与预设目标给出行动方案。

文章重点论证，在三者中受关注度最低的仿真器，恰恰具备最深远的产业价值与最棘手的技术难题。仿真器是衔接渲染与规划的桥梁，也是机器人训练、自动驾驶测试、建筑可视化等领域的核心支撑。但仿真赛道面临三维数据稀缺、仿真与现实的域差、生成式仿真的几何隐患、多物理场仿真的高算力成本等挑战。

李飞飞进一步提出，三类模型底层共用同一套世界知识，当前最重要的趋势是三者边界正不断消融，最终将走向能够灵活切换输出形式的大一统世界基础模型。在同一套模型架构中平衡各项需求，是当前世界模型领域最核心的攻关课题。

发表于: 2026-06-042026-06-04 20:39:09
原文链接：https://page.om.qq.com/page/OW0dp-vN9fgSfFNz7J63tRxQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

相关快讯