
美团 LongCat 团队 (Meituan LongCat Team)
当前,下一代令牌预测(NTP)范式通过离散自回归建模推动了大型语言模型的成功。然而,当代多模态系统仍以语言为中心,通常将非语言模态(如视觉和音频)视为外部附件,导致架构碎片化和集成不佳。虽然离散自回归建模在音频领域取得了显著进展,但将其扩展到视觉领域在概念上简单,在实际操作中却非易事。视觉信号是高维且连续的,将其压缩到有限的离散码本中不可避免地会引入信息丢失,导致离散视觉建模在理解和生成任务上存在性能天花板。现有研究面临双重瓶颈:视觉表征的容量限制以及离散化带来的信息丢失。
本研究旨在超越语言加辅助模态的范式,迈向原生多模态建模。具体目标包括:

研究方法基于离散自回归基础,采用模态特定的分词器-去分词器对和模态无关的混合专家(MoE)骨干网络(LongCat-Flash-Lite A3B)。视觉分词器dNaViT采用语义对齐编码器(SAE)提取特征,结合残差向量量化(RVQ)进行分层离散化,并通过像素解码器和流匹配细化器进行重建。音频分词器使用Whisper编码器和RVQ。训练流程分为分词器训练和原生多模态训练两个阶段。原生多模态训练包括预对齐、预训练、中期训练和监督微调(SFT),总训练量超过2万亿个令牌。数据来源涵盖大规模网络图像文本对、合成数据、针对OCR、STEM、GUI和音频的精选数据集,并经过严格的数据清洗、过滤和重平衡处理。
实验结果表明,LongCat-Next在视觉理解方面表现优异,在MathVista、MathVision、VisuLogic等基准上超越了专用MLLM模型(如InternVL 3.5-A3B-Flash和Qwen3-VL-A3B)。在视觉生成方面,该模型超越了现有的统一模型(如Qwen3-Omni),并在高保真图像生成(特别是文本渲染)方面与专用模型(如Flux-dev)具有竞争力。在音频任务中,LongCat-Next在自动语音识别(ASR)、文本转语音(TTS)和音频理解方面均达到最先进水平,超越了Gemini 3.1 Flash-Lite preview和MiMo-Audio等模型。此外,模型在文本能力上未出现“多模态税”现象,在智能体工具使用(如SWE-Bench)和编码方面表现出色。消融实验表明,随着数据规模扩大,离散建模的性能可以逼近连续模型。
本研究通过LongCat-Next探索了语言风格离散自回归建模自然扩展到视觉和音频的可能性。结果表明,通过精心设计的分词器和训练策略,连续感知信号可以被有效离散化,同时保持强大的能力。作为迈向原生多模态的一步,该工作为构建真正统一的多模态基础模型提供了新的视角。局限性在于当前版本的视觉分词器主要关注语义解码一致性而非像素保真度,且评估主要集中在图像到文本和文本到图像方向。未来工作将致力于优化分词器以更好地满足下一代版本目标,并扩展到任意到任意生成和交错多模态推理,探索数据规模与表征学习的协同效应。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。