
当前多模态医疗 Agent 框架(MedAgents、MDAgents、MAM)多采用静态或预定义的专家选择——Agent 池一次性定死、调用顺序固定、各专家之间缺乏前后诊断上下文传递,不符合真实临床的串联流程:全科医生(GP)先看,根据患者反馈决定下一步转诊谁,逐步收敛到诊断。论文开篇给出了一个直观例子:一张膝关节 X 光骨髓炎病例,独立诊断(Case A)因缺乏协调给出错误诊断、顺序错误(Case B)因初始推理偏差也错,只有按正确顺序的顺序诊断(Case C,骨科 → 放射科 → 风湿科)才能给出"骨髓炎"的正确结论。
中佛罗里达大学(UCF)人工智能研究所 Mubarak Shah 团队提出 MedRoute:一个三类 Agent 构成的动态多 Agent 医疗诊断框架——General Practitione(GP,RL 训练的专家分配器)+ Specialists(专科 LMM Agent 池)+ Moderator(综合诊断)。GP 的核心是一个基于 Routing Transformer + MLP 的动态路由器,用分步强化学习 + 分组优势估计训练,以最终诊断的正确性作为奖励信号。每次路由基于"输入 + 专家池 + 已咨询专家的诊断历史"决策下一个应咨询的专科,直至 GP 判定诊断充分。
在 2 个文本医疗数据集(MedQA、PubMedQA)和 3 个图文医疗数据集(PMC-VQA、DeepLesion、PathVQA)上:MedRoute 在五个数据集全部占优——MedQA 88.76% vs GPT-4.1-mini 85.86%(+2.90 个百分点;论文原文记作 ∼6%)、vs MAM 82.95%(+5.81 个百分点);DeepLesion 相对 MAM +5.47 个百分点(论文记作 ∼5.5%)。
论文信息
近年医疗 LMM 方向进展快速:BiomedGPT、Medichat-LLaMA3、LLaVA-Med在文本理解、视觉 QA、疾病分类、病灶检测、报告生成等多类任务上微调;RadFM、RadVLM聚焦放射科,ChatGLM聚焦脑卒中。但单一模型天花板明显:通用大模型过于宽泛、难以覆盖真实临床的众多子专科(神经、心血管、呼吸、内分泌等);为每个子专科单独训模型数据采集和训练成本都很高。
多 Agent 框架提供"中间路线":不必训单一超级模型,用多个专科 Agent 协作也能处理多样临床场景。但现有工作有共同缺陷:

MedRoute 针对这两个缺陷做了两项改动:
整体结构:用户输入 Image/Text 问题 → GP(Specialist Allocator)接收问题 + 图像 → 从 15 位专科(Neurologist / Pulmonologist / Neurosurgeon / Pediatrician / Gastroenterologist / Radiologist / Cardiologist / Dentist / Thoracic Surgeon / Orthopedic / Hematology / Rheumatologist / Infectious Disease Specialist / Urologist / Pharmacist)构成的专家池选第一位专家 → 该专家给出诊断 → GP 以诊断为历史输入 → 路由下一位专家 → 重复 → GP 判定足够时停止 → 所有诊断传给 Moderator→ Moderator 综合多专家输出形成统一临床判断并产出最终诊断。

专家池构造:作者用 GPT-4.1-mini 对数据集逐题询问"这道题应该让哪 3-7 位专家回答",把所有样本的专家列表合并、按出现频率排序、取 top-k 构成最终专家池。
GP 路由器架构:

动态顺序诊断:首次路由时无历史、仅用输入 + 专家池;后续每步用"输入 + 专家池 + 已查询专家的诊断历史"决定下一步。GP 决定不再需要更多专家时调 Moderator 汇总所有诊断。每次推理 run 都记录完整的路由轨迹、所有专家输出、Moderator 最终决策——透明可复现。
RL 训练:
推理管线:GP 接收问题(+ 可选图像,经 frozen captioner 转 caption 与 text 融合成 task embedding)→ 无历史时仅基于 task + 专家池选首位专家 → 首位专家输出诊断 → 追加到共享诊断记录 + GP 历史状态 → GP 反复调 Allocator 判断是否需要更多专家 → 每步基于"任务 + 累积历史 + 可用专家"动态决策 → GP 判定无需继续咨询时,记录传给 Moderator → Moderator 综合 → 最终诊断。
数据集:
文本数据集对比:
模型 | MedQA | PubMedQA |
|---|---|---|
Qwen3-8B | 45.39 | 20.65 |
MedAlpaca-7B | 34.53 | 19.90 |
Medichat-Llama3-8B | 45.68 | 32.81 |
GPT-4.1-mini | 85.86 | 34.50 |
MAM | 82.95 | 37.30 |
MedRoute (Ours) | 88.76 | 38.60 |
在 MedQA 上 88.76% vs GPT-4.1-mini 85.86%(+2.90 绝对百分点,论文原文记作 ∼6%),在 PubMedQA 上超 MAM +1.30 绝对百分点(论文原文记作 ∼2%)。基线规律:医疗专用模型(Medichat、MedAlpaca)总体强于通用小模型(Qwen3-8B),除了 GPT-4.1-mini 这种超大型通用模型是例外——MedRoute 在 GPT-4.1-mini 基础上再提升。
图文数据集对比:
模型 | PMC-VQA | DeepLesion | PathVQA |
|---|---|---|---|
LLaVA-OneVision | 51.15 | 40.67 | 17.93 |
Phi-3.5-vision-instruct | 41.35 | 30.95 | 13.74 |
Qwen2.5-VL | 52.66 | 43.20 | 19.46 |
BioMedGPT | 2.00 | 10.18 | 1.97 |
LLaVA-Med-v1.5-Mistral-7B | 36.29 | 33.80 | 40.56 |
GPT-4.1-mini | 58.60 | 45.42 | 40.59 |
MAM | 58.15 | 40.05 | 38.37 |
MedRoute (Ours) | 59.28 | 45.52 | 41.30 |
三个数据集全部夺冠,DeepLesion 相对 MAM +5.47 个百分点(45.52 vs 40.05)、相对 GPT-4.1-mini 仅 +0.10。医疗专用 VLM 在部分数据集上反而低于通用 VLM(BioMedGPT PMC-VQA 只有 2%)。
消融 1:路由器设计(MedQA 1273 题,Medichat-LLaMA3-8B backbone):
MLP 比余弦相似度好约 1.4 个百分点——MLP 能学到非线性的专家选择策略。
消融 2:底层 LMM(MedQA 1273 题,MLP 路由器):
底层 LMM 差距极大——GPT-4.1-mini 比 Medichat-LLaMA3-8B 绝对高 46.7 个百分点。这个消融确认了"Agent 编排的增益建立在基础模型能力之上,两者相乘才是最终表现"。
专家池手工构造:当前专家池通过 GPT-4.1-mini 预查询 + 频次排名产生,是一次性静态产物。作者在 Conclusion 明确指出未来要动态生成专家池——按具体病例在线构造相关专家集合,而不是所有病例共享一个固定池。
未接 EHR:当前只用 QA 对作为输入,没接真实电子病历(EHR)。作者预告下一步要把 EHR 纳入个性化诊断。
数据集受限:DeepLesion 原为病灶分类标签,作者手工处理成 QA 对(Appendix D.1),单正确答案的样本剩 4,736 条——评测集虽覆盖 5 个数据集但 QA 格式转换的影响有待独立验证。
奖励模型依赖 GPT-4.1-mini:RM(·) 用 GPT-4.1-mini 做二元判定(答对=1,错=0)——同一个模型既是 backbone 又是评判,存在潜在自我偏好。作者未评估这个可能的循环偏差。
MedRoute 的核心设计判断可以用一句话概括:把"哪个专家该看下一步"变成一个可学习的策略问题,而不是工程师手工设计的流程。大多数多 Agent 框架(MedAgents、MDAgents、AutoGen、CrewAI)的协作流程是硬编码的;把"流程"本身交给 RL,让数据决定"什么病人该先转诊哪个专家",更接近临床现实。
在此基础上,有几点值得进一步思考:
MedRoute 最大的启示:医疗 Agent 可用性短期内不在"更大的模型"或"更精细的医疗微调",而在"更接近临床流程的多 Agent 编排 + 可学习的动态路由"。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。