导读:视觉语言模型已经很会“看图说话”,但一遇到距离、方向、视角变化、运动关系这类空间问题,仍然容易露怯。NUS xML Lab 提出的 GeoSR 关注一个更细的问题:几何信息明明已经作为 token 加进模型了,为什么 VLM 还是不一定会用?论文给出的答案是,单纯注入几何 token 远远不够,还要在训练时削弱外观捷径,并在融合时让模型按需依赖几何证据。
静态空间推理:naive 几何融合提升有限,GeoSR 在 VSI-Bench 上取得 51.9 平均分 | 动态空间推理:naive 几何融合可能退化,GeoSR 达到 66.1 平均准确率 |
|---|
过去几年,VLM 在图像理解、视频问答、多模态对话上进展很快。它们可以识别物体、描述场景、总结事件,甚至完成不少复杂问答。但空间推理并不是简单的语义识别。
比如:
这些问题要求模型理解 3D 结构、相对位置、视角变化、运动连续性和时序关系。对于自动驾驶、机器人导航、具身智能和视频理解来说,这类能力非常关键。
一个自然的思路是:既然普通 2D 视觉 token 不够,那就把 3D 几何信息也加进去。近年来不少方法都会利用预训练 3D 基础模型,从单目图像或视频中提取 geometry tokens,再与 VLM 的 vision tokens 融合。
听起来很直接,但 GeoSR 发现:几何 token 被加进去,不代表模型真的会用。
GeoSR 的出发点很有意思。论文并不是简单说“加入几何信息可以提升空间推理”,而是先指出一个反直觉现象:
在常见的 naive token fusion + standard fine-tuning 设定下,geometry tokens 经常只是一个可有可无的旁路信号。模型仍然倾向于依赖 2D 外观线索完成回答。
更进一步,在动态空间推理里,不受控制的几何融合甚至可能带来负效应。
下表来自论文中的诊断实验,可以直观看到这个问题:
设置 | VSI-Bench 静态空间推理 | DSR-Bench 动态空间推理 | 现象 |
|---|---|---|---|
不使用几何分支 | 49.8 | 64.0 | 仅依赖 2D vision tokens |
naive 几何融合 | 50.2 | 62.8 | 静态提升很小,动态反而下降 |
GeoSR | 51.9 | 66.1 | 让几何信息真正参与推理 |
这说明,问题不只是“有没有几何信息”,而是“模型是否把几何信息当成可操作证据”。如果融合方式过于粗糙,模型可能继续走外观捷径;如果几何与外观被无差别混合,几何线索还可能被稀释,最终影响动态场景中的判断。
GeoSR 沿用几何感知 VLM 的基本范式:视觉分支提取 2D vision tokens,文本分支编码问题,几何分支从单目图像或视频中提取 geometry tokens,最后通过融合模块送入 VLM 进行回答。

几何感知 VLM 基本框架
但 GeoSR 的重点不是重写这条 pipeline,而是回答一个更核心的问题:怎样让 VLM 在需要空间推理时真的去看几何证据?
为此,GeoSR 设计了两个互补模块:
这两个模块分别对应“有效使用几何”和“合理使用几何”。

GeoSR 方法总览
很多空间问题并不一定需要完整理解几何,模型可能通过局部纹理、物体类别、常见场景偏置猜出答案。这样的“捷径”在训练中会让 geometry tokens 被边缘化。
GeoSR 的做法很直接:训练时有策略地 mask 掉一部分 2D vision tokens,降低模型对外观线索的依赖,迫使它从几何分支中寻找证据。
在静态空间推理中,GeoSR 采用类似 MAE 的随机 mask。静态场景大多是刚性环境,视角和可见性变化是主要挑战,随机遮挡一部分 vision tokens 就能有效抑制外观捷径。
在动态空间推理中,问题会更复杂。视频里涉及物体运动、摄像机运动、遮挡和时间连续性,随机 mask 未必能对准真正关键的位置。因此 GeoSR 利用问题相关的几何注意力做 TopK mask:先通过 bottleneck tokens 从文本问题中提取意图,再去 geometry tokens 中定位与问题最相关的几何证据,然后 mask 对应位置的 2D vision tokens。
换句话说,动态场景中 GeoSR 不是随便遮,而是优先遮掉与问题相关、同时对应关键几何证据的 2D 位置。
只做 masking 还不够。即使模型被迫看几何,如果融合方式仍然只是简单相加或拼接,几何信息依旧可能在后续表示中被稀释。
GeoSR 因此提出 Geometry-Guided Fusion。它使用一个 token-wise、channel-wise 的可学习门控,在每个位置、每个通道上自适应决定视觉特征和几何特征的占比:
F = alpha * V + (1 - alpha) * G
其中 V 表示经过处理的视觉特征,G 表示几何特征,alpha 是由模型学习得到的细粒度门控。这样一来,几何信息不再被粗暴地统一注入,而是在真正有帮助的位置被放大。
这也是 GeoSR 和普通几何融合方法的关键区别:它不是把 geometry tokens 当成一批额外上下文,而是把它们变成可以按需路由的推理证据。
GeoSR 分别在静态空间推理和动态空间推理基准上进行验证。
静态空间推理采用 VSI-Bench。该基准包含来自 288 个真实视频的 5000 多个 QA 样本,主要考察刚性场景中的视角变化、可见性变化和几何关系理解,任务覆盖目标计数、绝对距离、目标尺寸、房间尺寸、相对距离、相对方向、路径规划和出现顺序等。
方法 | VSI-Bench Avg. |
|---|---|
Qwen2.5-VL-7B | 33.0 |
InternVL3-78B | 48.4 |
Spatial-MLLM | 48.4 |
VG-LLM | 50.7 |
GeoSR | 51.9 |
GeoSR 在 VSI-Bench 上取得 51.9 的平均分,相比最强几何感知基线 VG-LLM 提升 +1.2。
动态空间推理采用 DSR-Bench。该基准包含来自 575 个真实公开视频的 1484 个 QA 样本,问题涉及动态距离、方向、朝向、速度、速度比较、方向预测,以及相对参考系下的空间关系。相比静态任务,动态任务更强调时空一致性,尤其考验模型对运动和遮挡的理解。
方法 | DSR-Bench Avg. |
|---|---|
Qwen2.5-VL-7B | 23.5 |
Qwen3-VL-30B-A3B-Instruct | 31.1 |
VG-LLM | 38.4 |
GSM | 58.9 |
GeoSR | 66.1 |
GeoSR 在 DSR-Bench 上达到 66.1 的平均准确率,相比 GSM 提升 +7.2,并在论文报告的所有动态子任务类别上取得第一。
这个提升尤其值得注意:动态空间推理里,naive 几何融合可能低于不加几何的版本,而 GeoSR 通过 masking 和 gated fusion 把几何信息重新变成了有效证据。
论文进一步分析了 GeoSR 两个核心组件的贡献。
组件设置 | VSI-Bench Avg. | DSR-Bench Avg. |
|---|---|---|
GeoSR 完整模型 | 51.9 | 66.1 |
用原始融合替换 Geometry-Guided Fusion | 50.0 | 64.7 |
只保留 Geometry-Unleashing Masking | 49.6 | 58.1 |
只保留 Geometry-Guided Fusion | 50.9 | 64.9 |
只使用原始 naive fusion | 50.2 | 62.8 |
不使用几何分支 | 49.8 | 64.0 |
可以看到:
GeoSR 的优势来自两件事同时成立:训练时减少外观捷径,推理表示中按需路由几何证据。
GeoSR 的额外参数主要来自几何投影和门控模块。论文在单张 H200 GPU 上统计了动态推理开销:
方法 | 推理时间 | 参数量 | 峰值显存 |
|---|---|---|---|
Qwen2.5-VL-7B | 0.37s | 8.76B | 18.04GB |
几何感知 baseline | 0.40s | 9.16B | 18.81GB |
GeoSR | 0.41s | 9.23B | 18.95GB |
相对于几何感知 baseline,GeoSR 的推理时间仅从 0.40s 增加到 0.41s,显存从 18.81GB 增加到 18.95GB,额外开销较小。
在训练设置上,GeoSR 使用 Qwen2.5-VL-7B 作为 backbone。静态场景使用 VGGT 提取几何 token,动态场景使用 π^3(pi^3)捕捉动态几何线索。静态训练采用 SPAR-7M 和 LLaVA-Hound 数据划分,动态训练采用 DSR-Train。所有实验在 4 张 H200 GPU 上进行,每张显存 141GB;静态训练约 14 小时,动态训练约 20 小时。
项目页给出了静态和动态空间推理的定性对比。整体来看,GeoSR 在一些需要估计相对方向、路径规划、距离关系和动态运动变化的问题上更加稳定。

VSI-Bench 定性结果

DSR-Bench 定性结果
论文也特别展示了两类仍然存在歧义的样本:一类是两个物体速度非常接近,视觉上难以判断谁更快;另一类是遮挡导致相对空间关系不清晰。这提醒我们,空间推理 benchmark 本身也存在标注可靠性和视觉证据充分性问题。GeoSR 提升了模型利用几何的能力,但数据和评测协议仍然是后续研究中不可忽视的一环。
GeoSR 的核心贡献可以概括为一句话:它让几何信息从“被注入的旁路 token”变成“真正参与推理的证据”。
这篇工作的价值不只在于刷新了 VSI-Bench 和 DSR-Bench 的结果,更在于它指出了几何感知 VLM 中一个容易被忽略的问题:geometry tokens 并不会自动生效。模型可能继续依赖 2D 外观捷径,甚至在动态场景中被不受控制的几何融合干扰。
GeoSR 用 Geometry-Unleashing Masking 抑制外观捷径,用 Geometry-Guided Fusion 进行细粒度几何路由,分别解决“是否使用几何”和“如何使用几何”两个问题。对于面向机器人、自动驾驶、具身智能和视频理解的空间推理模型来说,这种思路提供了一个很清晰的方向:不是堆更多模态信号,而是让关键模态在该发挥作用的地方真正发挥作用。
@misc{zhang2026geosr,
title={Make Geometry Matter for Spatial Reasoning},
author={Shihua Zhang and Qiuhong Shen and Shizun Wang and Tianbo Pan and Xinchao Wang},
year={2026},
eprint={2603.26639},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2603.26639}
}