首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >开源第一!同济大学“无界”世界模型登顶WorldArena,刷新高校团队全球竞争力!

开源第一!同济大学“无界”世界模型登顶WorldArena,刷新高校团队全球竞争力!

作者头像
Amusi
发布2026-06-01 19:45:39
发布2026-06-01 19:45:39
1860
举报
文章被收录于专栏:CVerCVer

从视频生成到具身交互,“无界”以高效技术路线跻身全球世界模型第一梯队

2026 年 5 月 29 日,WorldArena 世界模型评测榜单最终结果正式公布。同济大学计算机科学与技术学院空间智能团队主导研发的“无界”世界模型,在这一全球高强度竞技场中实现开源与闭源模型同步领先

其中,开源模型 BLM 在 WorldArena Track-1(视频质量赛道)中取得 64.54 分,位列全球开源模型第 1 名;闭源模型 BWM-Fast 在同一赛道中取得 67.87 分,位列总榜全球第 2 名,距离榜首仅 0.39 分

这意味着,在世界模型这条被全球头部实验室、机器人公司和生成式 AI 团队共同争夺的赛道上,“无界”已经从高校科研成果,正式迈入全球第一梯队。

图 1:“无界”开源模型 BLM 全球开源第 1

图 2:“无界”闭源模型 BWM-Fast 全球总榜第 2

一、 WorldArena:世界模型赛道的“硬核考场”

如果说世界模型正在成为具身智能通往真实物理世界的关键底座,那么 WorldArena 就是检验这一底座是否足够坚实的“终极试金石”

不同于过去各团队在自有测试集上“各说各话”的评估方式,WorldArena 构建了统一、公开、全维度的世界模型评价体系。Track-1(视频质量赛道)围绕视觉质量、运动质量、内容一致性、物理遵循性、三维空间准确性和可控性 6 大维度展开,并进一步细分为 16 项核心指标,全面考察模型对未来时空的预测能力、对动作序列的响应能力,以及对物理交互过程的理解能力。

因此,这一榜单也成为观察世界模型技术路线演进的重要窗口。Google、NVIDIA、高德、智元机器人、生数科技、极佳视界、流形空间、深度机智、北京人形机器人创新中心等国内外代表性团队持续参与其中,每一次榜单更新,都在刷新世界模型赛道的竞争格局。

二、 从视频生成到具身交互,“无界”到底强在哪里?

世界模型的真正价值,并不只是生成“看起来真实”的视频,而是能否在动作条件下稳定预测未来,能否在长时序推演中保持空间结构、物体身份、交互关系和物理逻辑的一致。

在 WorldArena Track-1 中,“无界”模型展现出高质量的动作响应与场景推演能力。无论是空间布局、物体外观,还是光影连贯性与接触关系稳定性,模型都表现出较强的视觉保真度和物理一致性,针对传统世界模型在长时间推演中容易出现的漂移、形变和物理失真问题给出了有效回应。

三、 六类具身任务全面覆盖,检验模型真实交互能力

在 Track-1(视频质量赛道)上,“无界”模型生成的视频在空间布局、物体外观以及光影连贯性上达到了极高的视觉保真度,有效解决了传统世界模型在长时间推演中常见的漂移和物理失真问题。具体来看,它覆盖了多类典型具身任务:

空间重排:保持物体身份与目标布局,维持稳定堆叠接触,并预测自适应夹爪控制。

铰链交互:捕捉铰链约束下的开合动力学,在旋转过程中保持物体几何连贯,并稳定延续打开状态。

精细操作:动态捕捉细粒度可供性,使接触位置与物体功能区域对齐,并保持状态变化的交互结果。

双臂协同:建模双臂协同运动,保持物体一致性,并避免近距离交接中的接触碰撞。

长程放置:维持长时序场景一致性,避免遮挡引发的物体漂移,并完成受限空间内的稳定放置。

分布外泛化:面对未见过的初始场景和物体外观,模型仍能沿着给定动作序列进行未来推演,保持机器人与物体交互过程的物理一致性。

四、 不靠“堆数据、堆算力”,高校团队如何以小搏大?

长期以来,世界模型领域存在一个普遍判断:高保真生成和稳定物理推演往往依赖海量训练数据、超大模型规模和密集算力投入。行业竞争也因此逐渐演变为“数据与算力”的军备竞赛

但同济大学计算机科学与技术学院空间智能团队选择了另一条路线:不盲目追求训练数据规模扩张,而是通过训练数据增强与智能增广策略,提高单位数据的训练价值;在模型架构上,团队基于 DiT 架构,引入首帧引导、动态记忆机制以及双通路动作控制调制策略,从场景初始化、长时序记忆建模到动作响应控制等多个层面系统增强模型能力。

这一技术路线使“无界”在降低训练成本的同时,仍然取得了国际领先的评测成绩。它证明了世界模型并非只能依赖资源堆叠,也可以通过更高效的数据利用、更合理的结构设计和更贴近具身交互本质的建模方式,实现性能跃迁。

五、 开源与闭源并进:既冲击性能上限,也推动生态共建

当前世界模型行业仍面临两个核心痛点:一是学术成果难以在统一权威榜单上验证,二是顶尖技术往往高度闭源,开源社区难以比较、复现和迭代。

“无界”系列选择开源与闭源并进:开源模型 BLM 释放可复现的技术底座,降低科研与开发门槛;闭源模型 BWM-Fast 则持续探索模型性能上限,验证技术路线在高强度竞争中的领先性。

这种“双线推进”的策略,既有利于推动学术社区形成更开放的比较标准,也有利于让产业界看到高校团队在世界模型方向上的系统性创新能力。

六、 从榜单领先到空间智能底座:世界模型正在进入落地前夜

对具身智能而言,世界模型不是单纯的视频生成器,而是机器人理解环境、预测未来、规划动作的重要基础设施。一个足够强的世界模型,能够在真实部署前为策略模型提供可试错、可验证、可迭代的虚拟环境,从而降低真实场景试错成本,提升机器人从仿真走向现实的效率。

此次“无界”模型在 WorldArena 上取得开源第 1、总榜第 2 的成绩,不仅是一次榜单突破,更意味着团队在世界模型的感知精度、动作响应、物理一致性和长时序推演等关键能力上形成了体系化积累。

该成果由同济大学计算机科学与技术学院院长、欧洲科学院外籍院士、ACM/IEEE/OSA Fellow 申恒涛教授牵头,国家级青年人才朱磊及其团队共同完成,并由同济大学计算机科学与技术学院空间智能团队与考拉悠然、上海码极客共同研发。

七、 开源共建

GitHub:

https://github.com/boundless-large-model/boundless-world-model

Hugging Face:

https://huggingface.co/BLM-Lab/Boundless-World-Model

项目仍在持续更新中。未来,“无界”系列将继续围绕世界模型、空间智能与具身交互核心问题推进技术迭代,推动更开放、更可复现、更面向真实场景的世界模型生态建设

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CVer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、 WorldArena:世界模型赛道的“硬核考场”
  • 二、 从视频生成到具身交互,“无界”到底强在哪里?
  • 三、 六类具身任务全面覆盖,检验模型真实交互能力
  • 四、 不靠“堆数据、堆算力”,高校团队如何以小搏大?
  • 五、 开源与闭源并进:既冲击性能上限,也推动生态共建
  • 六、 从榜单领先到空间智能底座:世界模型正在进入落地前夜
  • 七、 开源共建
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档