论文标题:MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios
作者: Zhiheng Song, Jingshuai Zhang, Chuan Qin, Chao Wang, Chao Chen, Longfei Xu, Kaikui Liu, Xiangxiang Chu(初祥祥), Hengshu Zhu(祝恒书)
机构:高德地图,中科院计算机网络信息中心
论文链接:https://arxiv.org/abs/2602.22638
Code:https://github.com/AMAP-ML/MobilityBench
TL;DR:高德联合中科院提出MobilityBench,针对LLM路线规划智能体缺乏系统真实评估的问题,基于高德真实匿名查询构建基准,设计确定性 API 重放沙箱保障可复现,提出多维度评估协议,评估发现模型难处理偏好约束规划,且已开源相关资源
关键词:智能体、路线规划、Benchmark、API重放沙盒

基于大语言模型(LLMs)的路线规划智能体已成为一种极具前景的范式,能够通过自然语言交互与工具辅助决策,为人们的日常出行提供支持。然而,多样化的路线规划需求、非确定性地图服务以及有限的复现性,阻碍了在真实出行场景下开展系统性评估。本研究提出MobilityBench,这是一个可扩展的基准测试平台,用于评估真实出行场景中基于大语言模型的路线规划智能体。 MobilityBench基于从高德地图采集的大规模匿名真实用户查询构建,覆盖全球多个城市的各类路线规划意图。为实现可复现的端到端评估,设计了确定性的API回放沙箱,消除实时服务带来的环境差异。进一步提出以结果有效性为核心的多维度评估方案,同时评估指令理解、规划能力、工具使用与执行效率。 借助MobilityBench,在多样的真实出行场景中对多款基于大语言模型的路线规划智能体展开评估,并深入分析其行为与性能表现。研究结果表明,现有模型在基础信息检索与路线规划任务中表现良好,但在偏好约束型路线规划任务中仍存在显著困难,这说明个性化出行应用领域仍有较大提升空间。已公开发布该基准数据集、评估工具包。
A:这篇论文试图解决在真实世界移动场景中系统评估基于大语言模型(LLM)的路线规划智能体(route-planning agents)所面临的核心挑战。具体而言,论文针对以下四个关键问题提出了系统性解决方案:
现有基准(如TravelBench、TravelPlanner)主要关注高层级的多日程规划或抽象约束推理,无法捕捉日常移动场景中细粒度的路线规划复杂性。真实世界的移动请求远超简单的点对点导航,常涉及交织的多重约束(如避高速、最少换乘、有序途经点、时间敏感要求等),需要智能体在大型地图环境中进行精确的空间推理和工具协调。
传统评估依赖实时API(如交通状况、天气服务),其响应随时间动态变化(交通流、服务可用性、后端更新),导致:
现有评估多依赖端到端成功率或LLM主观判断,将智能体行为视为"黑箱",无法诊断决策链中的中间失败。有效评估需要整合多维度客观标准,验证API调用有效性、约束满足度、事实依据和工具使用正确性。
随着LLM骨干模型和智能体框架的快速演进,需要一个轻量级、模块化的工具包,支持:
为应对上述挑战,论文提出了MobilityBench基准,其核心创新包括:
通过这些设计,论文旨在建立一个鲁棒、可扩展、可复现的评估基础,推动真实世界移动场景下路线规划智能体的研究。

A: 该论文的相关研究主要围绕城市计算中的路线规划与工具增强型智能体基准测试两个维度展开,具体梳理如下:
早期算法基础
偏好感知与推荐融合
大语言模型时代的路线规划
工具增强型智能体
通用工具使用评估
城市计算领域的专用基准
现有基准的局限性 上述基准主要关注高层级行程生成与抽象约束满足,未系统评估智能体在移动特定约束下的细粒度路线规划能力,例如:
相较于现有研究,MobilityBench填补了以下空白:
A: 论文针对大语言模型路线规划智能体的评估难题,从数据构建、环境控制、真值标注、评估体系、开源基建五个核心层面构建 MobilityBench 基准测试体系,形成系统性解决方案,具体如下:
大规模匿名化真实查询采集

分层任务分类体系(Task Taxonomy) 通过开放集标注协议(open-set labeling)和专家裁决迭代,构建四层意图家族(Intent Family):

MobilityBench 中的任务场景概述,按意图类别分组
冻结环境状态以消除非确定性
容错与验证机制
先搭建以评估单元为核心的结构化真值体系,将单个episode形式化为四元组,其中为匿名自然语言查询,为用户位置、城市等上下文信息,为沙盒可重放API响应快照,为仅用于评估的结构化真值标注。
依托专家制定的场景化标准操作流程(SOP),通过槽位提取规范化、地理编码、工具调用验证三步生成标准工具执行轨迹,敲定权威真值参考。 突破单一成功率评估局限,拆解四大核心能力维度并配套量化公式:
指令理解(Instruction Understanding):
意图检测(ID):衡量智能体正确识别任务场景类别的能力
信息抽取(IE):评估从查询中提取显式和隐式约束(空间属性、时间参数、偏好信号)的准确性
规划(Planning)
任务分解(DEC):评估将高层目标分解为连贯原子动作序列的能力,使用精确率和召回率衡量步骤覆盖率和正确性
精确率:
召回率:
工具使用(Tool Use)
工具选择(TS):评估正确识别所需工具的能力,从覆盖度(Coverage)和冗余度(Redundancy)两个互补角度衡量:
工具选择精确率:
冗余度修正召回率:
模式合规(SC):评估工具调用是否符合预定义 API 规范(必填参数、有效格式和范围):
决策质量(Decision Making):交付率DR、最终通过率FPR,搭配输入Token(IT)、输出Token(OT)衡量推理资源消耗,实现全流程精细化能力诊断。
论文公开释放了基准数据、评估工具包和文档( https://github.com/AMAP-ML/MobilityBench ),支持:
A: 论文在正文第4节Experiments部分,围绕大语言模型路线规划智能体的实际能力,开展了三大维度的系统性对照实验,所有实验基于基准数据集分层抽样后的子集完成,统一控制实验变量保障结果可比,核心实验设计与对应结论均通过图表量化呈现,具体内容如下:
数据采样 采用分层随机采样策略,在11个核心任务场景与城市维度上进行联合分层,确保场景分布均衡且地理覆盖无偏,最终形成7,098个评估episode。
LLM骨干模型 评估覆盖三类模型架构:
智能体框架 基于两种代表性范式构建路线规划智能体:
统一配置 所有实验设置温度参数 =0.1,最大输出长度限制为8,192 tokens,最大推理步数限制为10步,以确保可比性。
核心测试不同开源、闭源模型在两种智能体框架下的综合任务完成能力,对比闭源与开源模型的性能差距,分析两类推理框架的优劣势与核心权衡关系。该部分实验结果对应论文表2,直观呈现各模型与框架的核心能力得分差异。

针对四大核心任务场景做细粒度拆解测试,分析不同任务难度梯度下模型的表现差异,探究两类智能体框架对不同场景的适配性,重点聚焦高复杂度约束类规划任务的模型短板。该部分实验结果对应论文图3的多维度雷达图,清晰展示各场景下的模型能力分布。

模型内在特性深度研究 开展两项专项分析,一是探究模型参数规模与性能的缩放效应,验证模型扩容对路线规划任务的增益逻辑(表2);二是对比模型开启专项推理模式与常规模式的性能差异,分析性能提升与资源消耗的关联。同时统计不同框架下的模型推理效率开销。

整体实验围绕基准测试、场景适配、模型特性三大核心,完整验证了MobilityBench的评估价值,同时明确了现有路线规划智能体的能力边界与优化方向。