首页
学习
活动
专区
圈层
工具
发布

李飞飞定义世界模型三大功能:渲染器、仿真器、规划器

据智东西,斯坦福大学教授、World Labs联合创始人兼CEO李飞飞与团队发布文章《世界模型的功能分类》,系统拆解了当下释义混乱的“世界模型”概念。

文章指出,计算机视觉、机器人、强化学习和生成式AI各领域都在研发世界模型,但各方所指内涵截然不同。李飞飞从强化学习的POMDP(部分可观测马尔可夫决策过程)框架出发,为世界模型建立了清晰的功能分类体系。

李飞飞将世界模型归纳为三大功能类别:渲染器输出供人观看的像素画面,核心评判标准是视觉还原度;仿真器输出贴合客观规律的环境状态,需恪守结构真实性;规划器输出智能体的动作指令,依托观测信息与预设目标给出行动方案。

文章重点论证,在三者中受关注度最低的仿真器,恰恰具备最深远的产业价值与最棘手的技术难题。仿真器是衔接渲染与规划的桥梁,也是机器人训练、自动驾驶测试、建筑可视化等领域的核心支撑。但仿真赛道面临三维数据稀缺、仿真与现实的域差、生成式仿真的几何隐患、多物理场仿真的高算力成本等挑战。

李飞飞进一步提出,三类模型底层共用同一套世界知识,当前最重要的趋势是三者边界正不断消融,最终将走向能够灵活切换输出形式的大一统世界基础模型。在同一套模型架构中平衡各项需求,是当前世界模型领域最核心的攻关课题。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OW0dp-vN9fgSfFNz7J63tRxQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券