@inproceedings{lin2026yolomaster,
title={{YOLO-Master}: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection},
author={Lin, Xu and Peng, Jinlong and Gan, Zhenye and Zhu, Jiawen and Liu, Jun},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2026}
}
YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection.
Xu Lin1*, Jinlong Peng1*, Zhenye Gan1, Jiawen Zhu2, Jun Liu1
1Tencent Youtu Lab 2Singapore Management University
*Equal Contribution
🎉 Accepted by CVPR 2026
YOLO-Master是一个面向实时目标检测(RTOD)的 YOLO-like 框架,首次在通用数据集上将 Mixture-of-Experts (MoE) 深度融合进 YOLO 架构,通过 Efficient Sparse MoE (ES‑MoE) 与轻量级 动态路由(Dynamic Routing) 实现 instance‑conditional adaptive computation:让模型按场景复杂度“按需分配算力(compute-on-demand)”,在高精度与超低延迟之间取得更优平衡。主要亮点:
💡 初心 (Introduction)
这项工作代表了我们对实时目标检测 (RTOD) 演进的热情探索。据我们所知,YOLO-Master 是首个在通用数据集上将混合专家 (MoE) 架构与 YOLO 深度融合的工作。
大多数现有的 YOLO 模型依赖于静态的密集计算——即对简单的天空背景和复杂的拥挤路口分配相同的计算预算。我们认为检测模型应该更加“自适应”,就像人类视觉系统一样。虽然这次初步探索可能并不完美,但它展示了 高效稀疏 MoE (ES-MoE) 在平衡高精度与超低延迟方面的巨大潜力。我们将致力于持续迭代和优化,以进一步完善这一方法。
展望未来,我们从 LLM 和 VLM 的变革性进步中汲取灵感。我们将致力于完善这一方法,并将这些见解扩展到基础视觉任务中,最终目标是解决更具雄心的前沿问题,如开放词汇检测和开放集分割。
摘要 (Abstract)
现有的实时目标检测 (RTOD) 方法通常采用类 YOLO 架构,因为它们在精度和速度之间取得了良好的平衡。然而,这些模型依赖于静态密集计算,对所有输入应用统一的处理,导致表示能力和计算资源的分配不当,例如在简单场景上过度分配,而在复杂场景上服务不足。这种不匹配导致了计算冗余和次优的检测性能。为了克服这一限制,我们提出了 YOLO-Master,这是一种新颖的类 YOLO 框架,为 RTOD 引入了实例条件自适应计算。这是通过高效稀疏混合专家 (ES-MoE) 块实现的,该块根据场景复杂度动态地为每个输入分配计算资源。其核心是一个轻量级的动态路由网络,通过多样性增强目标指导专家在训练期间的专业化,鼓励专家之间形成互补的专业知识。此外,路由网络自适应地学习仅激活最相关的专家,从而在提高检测性能的同时,最大限度地减少推理过程中的计算开销。
在五个大规模基准测试上的综合实验证明了 YOLO-Master 的优越性。在 MS COCO 上,我们的模型实现了 42.4% 的 AP 和 1.62ms 的延迟,比 YOLOv13-N 高出 +0.8% mAP,推理速度快 17.8%。值得注意的是,在具有挑战性的密集场景中收益最为明显,同时模型在典型输入上保持了效率并维持了实时推理速度。代码: Tencent/YOLO-Master
🎨 架构
YOLO-Master 引入 ES-MoE 块,通过动态路由实现“按需计算”。
📚 深度文档
关于 MoE 模块的设计理念、路由机制详解以及针对不同硬件(GPU/CPU/NPU)的部署优化指南,请参阅我们的 Wiki 文档: 👉 Wiki: MoE 模块详解与演进
📖 目录
🚀 更新 (Latest First)
🔥 新特性 (v2026.02)
1️⃣ 混合专家 (MoE) 支持
YOLO-Master 首次将混合专家架构深度融合到 YOLO 中,实现实例条件自适应计算。
核心组件:
ultralytics/nn/modules/moe/loss.pyultralytics/nn/modules/moe/pruning.pyultralytics/nn/modules/moe/使用方法:
2️⃣ LoRA 支持 - 参数高效微调
架构无关的 LoRA 适配,零架构开销 —— 纯配置驱动,无需修改模型结构。
LoRA vs Full SFT vs DoRA vs LoHa:YOLOv11-s 上的训练曲线对比(COCO val2017,300 epochs)
核心优势:
支持模型:
使用方法:
📊 GPU 显存与存储基准测试(点击展开)
YOLO11 系列(LoRA rank=8):
YOLO12 系列(LoRA rank=8):
实际部署意义(以 YOLO11-X 为例):
3️⃣ Sparse SAHI 稀疏推理模式
稀疏切片辅助超推理(Sparse SAHI) —— 针对超大分辨率图像(4K/8K)检测的革命性优化,通过智能跳过空白区域实现 3-5 倍加速。
Sparse SAHI 流水线:Objectness Mask → 自适应切片 → 高分辨率推理 → CW-NMS 融合
左图:不同场景下的跳过比例分析。右图:真实检测效果示例。
工作原理:
使用方法:
4️⃣ 聚类加权 NMS (CW-NMS)
基于聚类理论的检测框融合算法,使用高斯加权平均代替硬抑制,显著提升定位精度。
CW-NMS vs 传统 NMS vs Soft-NMS:密集场景下的性能对比
📊 主要结果
检测
表 1. 五个基准测试上与最先进 Nano 级检测器的比较。
(%)
(%)
(%)
(%)
(%)
(%)
(%)
(%)
(%)
(%)
(ms)
分割
分类
📦 模型库与基准测试
YOLO-Master-EsMoE 系列
YOLO-Master-v0.1 系列
🖼️ 检测示例
🧩 支持的任务
YOLO-Master 建立在强大的 Ultralytics 框架之上,继承了对各种计算机视觉任务的支持。虽然我们的研究主要集中在实时目标检测,但代码库支持:
⚙️ 快速开始
安装
通过 pip 安装 (推荐)
验证
在 COCO 数据集上验证模型精度。
训练
在自定义数据集或 COCO 上训练新模型。
推理
对图像或视频进行推理。
Python:
CLI:
导出
将模型导出为其他格式以进行部署 (TensorRT, ONNX 等)。
Gradio 演示
启动本地 Web 界面以交互式测试模型。此应用程序提供了一个用户友好的 Gradio 仪表板,用于模型推理,支持自动模型扫描、任务切换(检测、分割、分类)和实时可视化。
🤝 社区与贡献
我们欢迎贡献!有关如何参与的详细信息,请查看我们的 贡献指南。
📄 许可证
本项目采用 GNU Affero General Public License v3.0 (AGPL-3.0) 许可证。
🙏 致谢
这项工作建立在优秀的 Ultralytics 框架之上。非常感谢社区的贡献、部署和教程!
📝 引用
如果您在研究中使用 YOLO-Master,请引用我们的论文:
⭐ 如果您觉得这项工作有用,请给仓库点个星!