
YOLO-Master是由腾讯优图实验室的研究者与新加坡管理大学合作,于2025年12月提出的一种新型人工智能系统。其核心创新是一个名为“高效稀疏专家混合模块”的技术,该系统内置不同专长的AI专家,能根据输入图像智能调度专家组合。在MS COCO数据集的目标检测任务中,YOLO-Master-N取得了42.4%的平均精度,处理单张图像仅需1.62毫秒。该系统架构还可扩展至图像分类与实例分割任务,在ImageNet数据集上达到了76.6%的Top-1准确率。其技术特点使其适合部署在自动驾驶汽车、监控摄像头等资源受限的边缘设备上

核心技术

ES-MoE模块遵循图(左下角)所示的信息流动路径。具体而言,ES-MoE包含三个关键组成部分:
i)动态路由网络,用于生成与实例相关的路由信号;
ii)Softmax门控机制,负责选择最相关的专家模型;
iii)加权聚合单元,将激活的专家输出融合为优化后的表示。ES-MoE的核心创新在于其分阶段路由策略,如图(右侧面板)所示。训练阶段采用软性Top-K路由机制,通过为所有专家模型分配平滑、可微分的权重(同时突出表现最佳的专家),确保梯度连续性。推理阶段则切换至硬性Top-K策略,仅激活K个专家模型(K ≪ E),从而实现实际计算稀疏化与加速效果[7]。这种自适应机制有效解决了传统密集模型固有的计算冗余问题,使得在不同部署阶段能够高效选择专家模型。

高效专家架构:为满足实时检测场景下严格的计算约束,每个专家模块(Expert)采用深度可分离卷积作为核心构建单元,替代传统标准卷积结构。该设计通过解耦空间滤波(深度卷积)与通道信息整合(逐点卷积),显著降低了参数量和浮点运算量。
消融实验数据


ES-MoE消融证明

论文
https://arxiv.org/pdf/2512.23273代码库
https://github.com/isLinXu/YOLO-Master什么MoE,原理解释看这里
总结:2026年的YOLO已经不是CNN天下,是Transformer跟大模型架构借鉴学习的新生。2026掌握Transformer与视觉语言模型开发技能,一秒理解MoE的本质
