集成这一整套体系工程,不是一两个补丁 从 LMSYS 公开的 Day-0 对比图看,30K 上下文同口径单批 decode 下,SGLang 明显领先另一家开源引擎——而且对手在这个口径里其实是带伤上阵:B200 上 MTP
该模型通过交错的3:1滑动窗口/全注意力机制以及多令牌预测 (Multi-Token Prediction, MTP-3) 进行优化,旨在降低多轮智能体交互的延迟和成本。