万物皆可Token：美团龙猫开源全模态模型，统一“看画听说”架构

不二小段

发布于 2026-04-09 19:27:57

1840

文章被收录于专栏：不二小段不二小段

美团龙猫团队开源上新，这次是原生全模态模型 LongCat-Next。

要聊「全模态」，我想从 Tokeni 聊起。最近，Token 的翻译被定为了「词元」，其实我是觉得 Token 可以不翻译，因为 Token 所能涵盖的不仅仅有文本的「词」，还有其他模态下的 patch/frame。

尽管我们无法确定只靠预测 Next Token 能否真正到达 AGI，但一个能「看、画、听、说」的模型，肯定会比一个只支持文本的模型更接近我们对 AGI 的预期。

而过去很多所谓的多模态应用，其实是通过「语言模型+外挂模块」实现的，视觉和语音被当作外部信号塞进语言模型的语义空间，这种做法导致的最大问题就是理解和生成是两张皮，比如用 CLIP 的特征对齐来做理解，然后用扩散模型去做生成。

但 Transformer 的潜力就在于大一统，理论上所有模态都可以被 token 化，实现任意模态的输入到任意模态的直接输出。这种想法简洁、优雅，且上限更高。

这次的 LongCat-Next 就是「原生全模态」的践行者，但说起来容易做起来难，想要真正将所有模态统一 tokenize，需要从架构到 infra 管线的全套创新。

DiNA 架构：用语言的逻辑统一世界

LongCat-Next 的核心思想是 DiNA（Discrete Native Autoregressive），即离散原生自回归。这个名字点出了两个关键：“离散”和“原生”。

「原生」意味着不再有主次之分。视觉和音频不再是语言模型的附属品，所有模态都被视为同一信息源的不同表现形式。

「离散」则是实现「原生」的手段。通过为每种模态设计专属的分词器（Tokenizer）和解词器（Detokenizer），将连续、高维的图像和音频信号，像文本一样，压缩成一串离散的数字 ID。

这样一来，文生图任务在 DiNA 架构下被重新定义为：给定一段代表文本的 Token 序列，请续写一段代表图像的 Token 序列。而“看图说话”则反过来：给定图像 Token，续写文本 Token。看、画、听、说，都被统一在“续写”这个单一的自回归目标之下。

这种架构的优美之处在于它的极简。它完全复用了现有大语言模型的成熟训练设施和优化经验，不需要引入其他为多模态「打补丁」的复杂设计。

只不过，语言天然是离散的，语音作为其声学载体，离散化也相对容易，真正有挑战的在于视觉。

图片的信息密度极高。如何把一张高分辨率、细节丰富的图像，无损地压缩成离散的 Token，同时还能从这些 Token 完美地还原回去，这正是业界长期以来认为离散视觉模型存在性能天花板的根本原因。

LongCat-Next 的核心，就是解决这个问题。

SAE + dNaViT：解决视觉离散化问题

要解决视觉离散化的问题，LongCat-Next 团队把它拆解为两个子问题：

表征瓶颈：如何获得一个既包含高层语义，又保留底层细节的视觉特征表示？

离散化瓶颈：如何将这个连续特征，高效地映射到有限的离散码本空间，同时信息损失最小？

对于第一个问题，他们的答案是SAE（Semantic-and-Aligned Encoder | 语义对齐完备编码器）。一个好的视觉编码器，其输出的特征应该天然地与语言模型的语义空间对齐。他们通过大规模的图文对齐训练，强制让视觉特征成为一种「视觉词汇」。这使得后续的离散化过程，不再是盲目地对像素进行聚类，而是对已经具备语言语义的「视觉概念」进行编码。

在此基础上，他们发现了「内在信息恢复属性」。通常我们认为，一个被高度优化用于分类、识别等抽象任务的编码器（比如 CLIP 的 Vision Encoder），其高层特征会丢失大量的像素级细节，因此很难被用于高质量的图像重建。但 LongCat-Next 团队通过实验证明，Vision Transformer 架构中密集的残差连接本身就像一条「信息高速公路」，它能让低级的、结构性的视觉信息绕过层层抽象，直接传递到网络的深层。这意味着，即使编码器没有经过任何像素级的重建任务训练，它依然保留了逆向还原图像细节的潜力。

解决了表征问题后，就轮到离散化了。为此，他们设计了dNaViT（Discrete Native Resolution Vision Transformer | 离散原生分辨率视觉分词器）。

dNaViT 做的就是把 SAE 提取出的高质量连续特征，转化为离散 Token。它没有采用简单的单层 VQ（向量量化），而是引入了8 层的残差向量量化（RVQ）：第一层对原始特征进行量化，得到一个初步的离散编码和一个量化误差（残差）；第二层不对原始特征编码，而是对第一层的“误差”进行编码，得到第二个离散编码和新的、更小的误差……如此递归下去。

这样做的好处是，在单次自回归步骤中，模型能用 8 个小的码本（每个大小为 16384），组合出一个指数级的巨大表征空间，从而在 28 倍的压缩比下，依然能保留丰富的视觉细节。

此外，dNaViT 还原生支持任意分辨率。它不像传统模型那样需要把输入图像粗暴地缩放或裁剪到固定尺寸，而是直接处理原始图像，这在处理长文档、复杂图表等对细节和长宽比极其敏感的任务时，具备降维打击的优势。

当需要从 Token 生成图像时，dNaViT 采用了一个“双轨制”的解词器：一个“结构解码器”先从 Token 生成一个低分辨率的草图，保证整体布局和结构正确；然后一个“细节精化器”（基于扩散思想）再为草图注入高频纹理和细节。

这种解耦的设计，极大地降低了生成过程的方差，确保了生成图像的稳定性和清晰度，尤其是在渲染文字这种高精度任务上。

从实验结果来看，理解和生成任务之间并不冲突，反而起到了「相互促进」的作用。在 DiNA 这种离散自回归框架下，模型被强迫学会了画图（从离散 Token 重建图像），实际上是在倒逼它对视觉世界形成一种更深刻、更结构化的理解。它不能再像连续模型那样，靠模糊的特征匹配蒙混过关，而是必须真正学会图像的「构图逻辑」。这种更深层次的理解，反过来又极大地促进了其在理解任务上的表现。

Whisper + RVQ：处理音频中的复杂信息

音频相对于图像，尽管更容易离散化，但音频中的信息同样丰富复杂，不仅包含了「内容」本身，还包含了情绪、语气、音色等「非语音信息」。

LongCat-Next 直接采用了 OpenAI 开源的 Whisper 编码器来进行特征提取。Whisper 本身就在海量的、多样化的音频数据上进行了预训练，其编码能力已经得到了充分验证，能够有效抽取出音频中与语义高度相关的特征。

有了高质量的连续特征，接下来的离散化步骤就和视觉处理几乎一致，同样采用了8 层 RVQ机制。对于声音而言，高保真度至关重要。单层的 VQ 可能会导致声音重建后出现明显的“金属感”，而 RVQ 通过逐层逼近残差的方式，能够以极高的精度保留原始声波的细节，确保了最终合成语音的自然度和音色的准确性。