
打开当下任何一份多模态模型的能力清单,你会看到一种割裂感:
"我们的模型支持图文理解、视频问答、文档 OCR——但请去看另外一个模型来做图像生成。"
理解侧的模型,沿着 LLaVA、Qwen-VL、InternVL 这条路一路演化,强项是语义抽象与跨模态对齐;生成侧的模型,沿着 Stable Diffusion、FLUX、HunyuanVideo 这条路一路演化,强项是高保真合成与时空动态。两条路径都跑得飞快,但中间隔着一条很深的鸿沟。
https://arxiv.org/pdf/2605.18678v2

要把这两件事塞进同一个模型里,绝不只是"把两个 backbone 拼起来"那么简单。理解需要语言对齐的高层语义,生成需要保留纹理与几何的低层连续表征——视觉表征本身就互相打架。再叠上图像与视频两种模态、生成与编辑两种任务,一旦混训,很容易顾此失彼。
字节跳动智能创作实验室最近放出的 Lance,给出了一份很不同的答卷:在仅 3B 激活参数、128 张 GPU 的训练预算内,把图像与视频的理解、生成、编辑统统装进一个原生统一模型里——并且,多项指标已经追上甚至超过 7B、20B 量级的对手。

把论文里的关键设定翻译成一句话:让多任务训练本身成为加速器,而不是绊脚石。

过往统一模型大致沿两条路线走:
更棘手的是,大多数现有工作仍以"文 + 图"为中心,视频侧覆盖不全;编辑与主体驱动生成往往被当作下游微调技能,而不是统一训练里被系统优化的目标之一。
Lance 想要的是另一种平衡:统一的上下文学习承载跨任务交互,解耦的能力通路承载各自的目标。前者保留协同,后者避免互殴。
Lance 把所有输入都翻译成一条共享的、交错排列的 token 序列:文本 token、ViT 语义视觉 token、干净的 VAE 隐变量 token、加噪的 VAE 隐变量 token——全部活在同一条序列里。

这条序列承担两件事:
LLM_UND,做下一 token 预测,负责说话和推理;LLM_GEN,做 flow matching 速度预测,负责合成图像与视频。两位专家共用同一份多模态上下文,但各自走自己的损失、自己的输出头。论文用一行公式概括整体目标:
L = λᵤ · L_UND + λ_g · L_GEN
干净利落:一条序列、双流专家、双任务损失。

把三组异质视觉 token 混在同一条序列里,会冒出一个不太显眼但很要命的问题——位置编码会"看不清"它们到底是谁。
标准 3D-RoPE 只编时空坐标,无法区分"我是 ViT 语义 token"和"我是 noisy VAE 目标 token"。Lance 给出的解法叫MaPE (Modality-aware Rotary Positional Encoding):对第 i 组视觉 token,在时间维度上加一个固定偏移 i · Δt(论文里 Δt = 1000)。
简单一招——只在时间轴上加偏移,空间坐标完全不动。
好处是双重的:不同模态的 token 在全局位置空间里被显式分开,但视频内部的时间顺序和相对距离完全保留,图像内部的空间结构也没被打散。

光有架构还不够,把"理解 + 生成 + 编辑 + 视频"全部塞进一个模型,训练顺序错了就是灾难。Lance 把训练拆成四个阶段,每一段都有明确分工:


值得多看一眼的是 CT 阶段的数据 mixture:视频-生成 : 视频-理解 : 图像-生成 : 图像-理解维持在 64 : 16 : 16 : 4,并对视频侧给到 1:4 的偏重——这是为了让更难、更慢收敛的视频任务能拿到足够的学习信号。
Lance 用 3B 激活参数,在四个方向上同时拿出了不俗的答卷:


更有意思的是消融结果:当训练数据混合从"只生成"扩展到"生成 + 理解 + 多任务",三个方向的指标都被同时拉高了——GenEval 从 80.88 → 82.06,VBench 从 81.25 → 83.05,MVBench 从无到 59.18。论文据此提出了一个不算激进、但相当有意思的判断:多任务训练不是单纯的能力堆叠,而是促进跨模态、跨任务迁移的机制。
读完之后,几个边界也得说清楚:

Lance 给到这个领域的,不只是一个新的 SOTA 数字,更是一个相对清晰的工程范式:
当能力多、目标杂、模态异,结构上让它们走自己的路;语义上让它们共享一条上下文。
理解专家和生成专家在同一条序列里看着彼此发生的事,但又不必为彼此让步——这种"一起呼吸但各做各事"的安排,可能是统一多模态模型未来一段时间的基线姿势。
对开发者来说,更现实的好处是:训练统一模型不再必须用 7B 起步;3B 量级、128 GPU 的预算,已经能拿到接近一线效果的图、视频、编辑、理解的全栈能力。这意味着统一多模态开始具备一种新的可行性——它不再只是大厂的奢侈品。
至于"emergent generalization 是不是会随着任务覆盖度的扩张而进一步显现"——表 1 已经透露了一个倾向:任务谱越宽,越容易在未见过的任务上自发泛化。Lance 把这件事做到了 unified 模型里目前最完整的版本之一,下一步会发生什么,可能比指标本身更值得等。