美团龙猫团队开源上新,这次是原生全模态模型 LongCat-Next。
要聊「全模态」,我想从 Tokeni 聊起。最近,Token 的翻译被定为了「词元」,其实我是觉得 Token 可以不翻译,因为 Token 所能涵盖的不仅仅有文本的「词」,还有其他模态下的 patch/frame。
尽管我们无法确定只靠预测 Next Token 能否真正到达 AGI,但一个能「看、画、听、说」的模型,肯定会比一个只支持文本的模型更接近我们对 AGI 的预期。
而过去很多所谓的多模态应用,其实是通过「语言模型+外挂模块」实现的,视觉和语音被当作外部信号塞进语言模型的语义空间,这种做法导致的最大问题就是理解和生成是两张皮,比如用 CLIP 的特征对齐来做理解,然后用扩散模型去做生成。
但 Transformer 的潜力就在于大一统,理论上所有模态都可以被 token 化,实现任意模态的输入到任意模态的直接输出。这种想法简洁、优雅,且上限更高。

这次的 LongCat-Next 就是「原生全模态」的践行者,但说起来容易做起来难,想要真正将所有模态统一 tokenize,需要从架构到 infra 管线的全套创新。
LongCat-Next 的核心思想是 DiNA(Discrete Native Autoregressive),即离散原生自回归。这个名字点出了两个关键:“离散”和“原生”。

「原生」意味着不再有主次之分。视觉和音频不再是语言模型的附属品,所有模态都被视为同一信息源的不同表现形式。
「离散」则是实现「原生」的手段。通过为每种模态设计专属的分词器(Tokenizer)和解词器(Detokenizer),将连续、高维的图像和音频信号,像文本一样,压缩成一串离散的数字 ID。
这样一来,文生图任务在 DiNA 架构下被重新定义为:给定一段代表文本的 Token 序列,请续写一段代表图像的 Token 序列。而“看图说话”则反过来:给定图像 Token,续写文本 Token。看、画、听、说,都被统一在“续写”这个单一的自回归目标之下。
这种架构的优美之处在于它的极简。它完全复用了现有大语言模型的成熟训练设施和优化经验,不需要引入其他为多模态「打补丁」的复杂设计。
只不过,语言天然是离散的,语音作为其声学载体,离散化也相对容易,真正有挑战的在于视觉。
图片的信息密度极高。如何把一张高分辨率、细节丰富的图像,无损地压缩成离散的 Token,同时还能从这些 Token 完美地还原回去,这正是业界长期以来认为离散视觉模型存在性能天花板的根本原因。
LongCat-Next 的核心,就是解决这个问题。
要解决视觉离散化的问题,LongCat-Next 团队把它拆解为两个子问题:
表征瓶颈:如何获得一个既包含高层语义,又保留底层细节的视觉特征表示?
离散化瓶颈:如何将这个连续特征,高效地映射到有限的离散码本空间,同时信息损失最小?
对于第一个问题,他们的答案是SAE(Semantic-and-Aligned Encoder | 语义对齐完备编码器)。一个好的视觉编码器,其输出的特征应该天然地与语言模型的语义空间对齐。他们通过大规模的图文对齐训练,强制让视觉特征成为一种「视觉词汇」。这使得后续的离散化过程,不再是盲目地对像素进行聚类,而是对已经具备语言语义的「视觉概念」进行编码。

在此基础上,他们发现了「内在信息恢复属性」。通常我们认为,一个被高度优化用于分类、识别等抽象任务的编码器(比如 CLIP 的 Vision Encoder),其高层特征会丢失大量的像素级细节,因此很难被用于高质量的图像重建。但 LongCat-Next 团队通过实验证明,Vision Transformer 架构中密集的残差连接本身就像一条「信息高速公路」,它能让低级的、结构性的视觉信息绕过层层抽象,直接传递到网络的深层。这意味着,即使编码器没有经过任何像素级的重建任务训练,它依然保留了逆向还原图像细节的潜力。
解决了表征问题后,就轮到离散化了。为此,他们设计了dNaViT(Discrete Native Resolution Vision Transformer | 离散原生分辨率视觉分词器)。

dNaViT 做的就是把 SAE 提取出的高质量连续特征,转化为离散 Token。它没有采用简单的单层 VQ(向量量化),而是引入了8 层的残差向量量化(RVQ):第一层对原始特征进行量化,得到一个初步的离散编码和一个量化误差(残差);第二层不对原始特征编码,而是对第一层的“误差”进行编码,得到第二个离散编码和新的、更小的误差……如此递归下去。
这样做的好处是,在单次自回归步骤中,模型能用 8 个小的码本(每个大小为 16384),组合出一个指数级的巨大表征空间,从而在 28 倍的压缩比下,依然能保留丰富的视觉细节。
此外,dNaViT 还原生支持任意分辨率。它不像传统模型那样需要把输入图像粗暴地缩放或裁剪到固定尺寸,而是直接处理原始图像,这在处理长文档、复杂图表等对细节和长宽比极其敏感的任务时,具备降维打击的优势。
当需要从 Token 生成图像时,dNaViT 采用了一个“双轨制”的解词器:一个“结构解码器”先从 Token 生成一个低分辨率的草图,保证整体布局和结构正确;然后一个“细节精化器”(基于扩散思想)再为草图注入高频纹理和细节。
这种解耦的设计,极大地降低了生成过程的方差,确保了生成图像的稳定性和清晰度,尤其是在渲染文字这种高精度任务上。
从实验结果来看,理解和生成任务之间并不冲突,反而起到了「相互促进」的作用。在 DiNA 这种离散自回归框架下,模型被强迫学会了画图(从离散 Token 重建图像),实际上是在倒逼它对视觉世界形成一种更深刻、更结构化的理解。它不能再像连续模型那样,靠模糊的特征匹配蒙混过关,而是必须真正学会图像的「构图逻辑」。这种更深层次的理解,反过来又极大地促进了其在理解任务上的表现。
音频相对于图像,尽管更容易离散化,但音频中的信息同样丰富复杂,不仅包含了「内容」本身,还包含了情绪、语气、音色等「非语音信息」。
LongCat-Next 直接采用了 OpenAI 开源的 Whisper 编码器来进行特征提取。Whisper 本身就在海量的、多样化的音频数据上进行了预训练,其编码能力已经得到了充分验证,能够有效抽取出音频中与语义高度相关的特征。
有了高质量的连续特征,接下来的离散化步骤就和视觉处理几乎一致,同样采用了8 层 RVQ机制。对于声音而言,高保真度至关重要。单层的 VQ 可能会导致声音重建后出现明显的“金属感”,而 RVQ 通过逐层逼近残差的方式,能够以极高的精度保留原始声波的细节,确保了最终合成语音的自然度和音色的准确性。

音频 Tokenizer 分为三个阶段:
解码器预热:先固定住 Whisper 编码器和一个小的语言模型(Qwen3-1.7B),只训练一个随机初始化的解码器,让它学会从 Whisper 提取的特征重建出梅尔频谱图。这个阶段的目标是先让解码器「学会听懂」特征。
语义-声学联合训练:放开所有模块(除了语言模型),让编码器、RVQ 和解码器一起进行端到端的联合训练,让离散的音频 Token 不仅能被解码器完美地还原成声音,同时也能被语言模型理解其背后的语义。
解码器微调:最后,利用精选的 24kHz 高质量音频数据,专门对解码器进行微调,进一步提升声音重建的质量和保真度,消除离散化可能带来的微小瑕疵。
通过这样一套流程,LongCat-Next 成功地将连续的声波也转化为了离散的、既包含语义又保留了音色细节的。这使得模型不仅能做到准确的语音识别(ASR),还能实现高质量的语音合成(TTS),甚至是复杂的声纹克隆(Voice Cloning)和音频续写。
在 DiNA 的统一框架下,听和说,也像看和画一样被统一闭环了。
LongCat-Next 搭建了一个线上的 demo 环境,不过暂时不支持音频的输入/输出,所以我们先来测一下视觉能力。
镜像字体 OCR

识别结果正确:

手写体识别
找了一张有老师批语的试卷进行要求识别其中的手写体:

结果如下,识别准确率超过了 90%:

古典名画识别
最近周杰伦发了新专辑,主打歌《太阳之子》的 MV 致敬了许多名画,我随便挑了 3 幅让 LongCat 识别,都能准确说出作者、画名和背景。

地铁线路图规划换乘
我先用地狱难度的北京/上海地铁测了测,显然不太行…然后换了相对简单的南宁地铁:

测试下来表现并不太好,即便是无需换乘的直达线路,答的也有方向问题,这种图像中的信息太过丰富(方向、交通线、换乘站等),对模型来说还是有相当的逻辑推理难度。
LongCat-Next 的出现,让我们得以重新审视多模态、全模态大模型的未来。「离散原生」范式,可能比过去的「连续缝合」做法,更接近智能的本质。
将所有感知信号都统一到离散的 Token 空间,再用一个简单而强大的 Next-Token Prediction 去驱动学习,这听起来就像是一条通往通用人工智能的「第一性原理」之路。
当然,LongCat-Next 只是这条路上的一个早期探索者。这次的 A3B 模型,放在动辄千亿的参数竞赛中并不算大,其在某些复杂推理和世界知识上表现出的不足,也说明了模型性能受制于规模和数据。
但 LongCat-Next 的方向是没问题的,特别是团队这次将模型和 tokenizer 都进行了开源,这就值得尊重。让我们共同期待这条「万物皆可 Tokenize」的路,未来会走向何方,能走多远。