论token必须死

原创

winstontang

发布于 2026-05-31 22:25:13

800

连续空间扩散语言模型：从离散到连续的范式革新

周一晚上老婆给我丢了一个网上的token必须死的文章，问是什么意思。我简单说了一下就是大模型有新的方法思路。我也只是之前简单知道ELF和DLM（短视频刷到过），并没有看过论文。牛马非周末是完全没有时间处理非工作的事情的，所以拖到周六，看了一下论文，和AI协作弄了这篇小结吧。

首先表达一下观点，那些文章都是一篇吹捧，当然，这个确实是一个好的创新，但是从事物的两面性来说，还是要把优点和当前的局限性同时说才是客观的。首先这个确实是非常创新的一个路子，其次这个东西有不少局限，在真正解决这些局限前离工业实际使用有不少距离。再次，这个东西确实是多模态的一个可能的方向，和当前架构做融合也是一个看起来不错的可能。

先从一些背景知识开始吧，比如什么是连续，什么是离散。原文可以参阅：https://mp.weixin.qq.com/s/_fSiDRVnQ6bjN0MTUAdl6Q

1. 背景与动机

在深入讨论具体的技术路线之前，我们有必要先厘清一个根本性的问题：什么是”连续空间”，什么是”离散空间”？为什么ELF和Cola DLM被称为”连续空间”模型？连续空间究竟带来了哪些理论和实践上的优势？以及，这些技术路线与人类自身的写作认知过程有何关联？本章将从这四个维度出发，为后续的技术剖析奠定坚实的认知基础。

1.1 连续空间与离散空间的定义与判定

在数学领域，空间的性质决定了在其上进行运算的基本法则。离散空间在拓扑学上被定义为一种每个子集都是开集的空间，其核心特征是点与点之间是孤立的，不存在”无限接近”的概念，通常由有限集或可数无穷集（如整数集）组成。相比之下，连续空间通常指代欧几里得空间或流形，其点与点之间可以无限接近，支持极限、导数和积分等微积分运算。

通俗地说，离散空间就像楼梯的台阶——你只能站在第1级、第2级或第3级，永远无法站在”第2.37级”；而连续空间则像一道斜坡，你可以在任意位置停留，可以无限微调你的位置。在深度学习中，这一区别直接决定了模型能否使用标准的反向传播算法进行端到端优化。

图1：离散空间与连续空间的直观对比。左侧离散空间如同台阶，只能跳跃式移动；右侧连续空间如同平滑曲面，支持任意精细调整。

在深度学习领域，判定一个模型是在连续还是离散空间操作，主要依据其状态空间的性质及优化机制。连续空间模型在实数向量空间内运行，支持端到端的梯度流动和反向传播优化。而离散空间模型则直接在有限的、不可微的符号集合上操作，通常需要通过Gumbel-Softmax或直通估计器（STE）等特殊技巧来近似传递梯度。下表从五个关键维度给出了清晰的判定标准：

判定维度	连续空间模型	离散空间模型
状态空间	不可数无穷集（如ℝᵈ）	有限集或可数集（如词表{1,…,V}）
可微性	全程可微，支持反向传播	不可微，需近似梯度估计
噪声过程	高斯扩散（连续时间SDE/ODE）	掩码/吸收态跳跃（离散马尔可夫链）
中间状态	任意实数向量，可插值	必须是合法符号，无”中间态”
度量结构	欧氏距离、余弦相似度等连续度量	离散度量（相同=0，不同=1）

这五个维度的差异，从根本上决定了连续空间模型和离散空间模型在训练效率、生成质量和可控性上的不同表现。理解这些差异，是把握ELF和Cola DLM创新价值的前提。

1.2 为什么ELF和Cola DLM是连续空间模型

一个常见的疑问是：GPT等自回归语言模型在内部计算时也使用嵌入向量（Embedding），它们难道不是也在连续空间中操作吗？这个问题的答案揭示了”连续空间模型”这一称谓的真正含义。

尽管GPT在内部计算时确实使用了连续向量，但其本质仍被视为离散模型。原因在于，GPT的输出层通过Softmax函数在预定义的有限词表上生成分类分布。这种建模方式存在著名的”Softmax瓶颈”：输出分布的秩受限于隐藏层维度，当词表规模远大于隐藏层维度时，模型无法准确表达复杂的、多峰的概率分布。更重要的是，自回归模型在生成时必须在每一步进行”硬采样”——将连续向量强制映射回离散token。这种”快照式”的离散化过程切断了语义的平滑过渡，使得模型无法在连续语义空间中进行全局优化。

ELF和Cola DLM则通过将扩散过程完全置于连续空间，从根本上打破了上述限制。下表清晰展示了三者的本质差异：

模型	空间定义	核心机制	与传统模型的区别
GPT（自回归）	内部连续，输出离散	Softmax在有限词表生成分类分布	每步硬采样，存在Softmax瓶颈
ELF	连续嵌入空间	Flow Matching在嵌入向量空间定义线性速度场	延迟离散化：仅最终步映射Token
Cola DLM	连续潜在空间	Text VAE压缩文本至潜在空间，DiT建模语义先验	分层架构：全局语义与局部文本解耦

ELF的核心突破在于”延迟离散化”——在整个扩散过程中始终保持在连续嵌入空间，仅在生成的最后一步才进行token映射。这意味着模型可以在连续空间中自由地塑造和优化文本的语义结构，避免了每步离散化带来的误差累积。Cola DLM则更进一步，通过Text VAE将整段文本压缩为一个紧凑的连续潜在表示（“语义蓝图”），在潜在空间中进行扩散建模，最后再通过解码器恢复为文本。这种分层架构将”说什么”（全局语义组织）与”怎么说”（局部词汇选择）彻底解耦。

1.3 连续空间的理论与实践优势

连续空间之所以成为语言建模的前沿方向，是因为它在信息论、优化理论和工程实践三个层面都展现出显著优势。

信息论视角：更高的信息容量。根据香农-哈特利定理，连续通道的容量受带宽和信噪比限制，理论上允许模型在向量空间内进行任意精细的语义微调。相比之下，离散通道的容量受限于符号集大小，每个token只能携带有限的信息量。这意味着连续空间模型可以在每一步扩散中传递更丰富、更细腻的语义信号，而不是被限制在”这个词对不对”的二元判断中。

优化视角：平滑的损失曲面。在连续空间中，模型输出的是实数向量，损失函数（如均方误差）处处可微，梯度可以平滑地反向传播。而在离散空间中，token之间的跳转是离散的，梯度估计需要借助Gumbel-Softmax重参数化或REINFORCE等技巧，训练信号噪声大、方差高。这种优化上的差异直接体现在训练效率和最终性能上——ELF仅用10B训练token就超越了需要100B训练token的离散扩散基线模型，很大程度上得益于连续空间带来的优化优势。

生成质量视角：语义平滑性与插值性。连续潜在空间允许进行向量算术（如经典的”国王 - 男人 + 女人 = 女王”）和路径插值。通过在空间中”行走”，模型能生成语义平滑过渡的文本，而不会像离散模型那样出现突兀的语义跳跃。这一特性对于长文本生成尤为重要——它使得模型可以在生成过程中逐步”塑造”文本的全局语义结构，而不是被逐个token的局部决策所束缚。

计算效率视角：并行解码与可控性。不同于自回归模型逐token串行生成的线性复杂度，连续扩散模型天然支持并行解码。已有研究表明，连续扩散模型如Mercury Coder已实现超过1000 tokens/s的生成速度，通过并行细化显著提升了长文本生成的吞吐量。此外，连续空间天然支持无分类器引导（CFG），用户可以通过调节引导强度在生成质量和多样性之间灵活权衡，这是离散扩散模型难以实现的。

1.4 认知科学视角：人脑写作与连续建模的关联

一个引人深思的问题是：人类在写作时，大脑是如何工作的？这一过程与连续空间扩散模型是否存在深层对应？认知科学的研究为我们提供了富有启发性的答案。

你或许有过这样的体验：在写一篇文章之前，脑海中先浮现出一个模糊的”整体感觉”——大致知道要写什么主题、表达什么观点、文章应该是什么结构。然后，这个模糊的想法逐渐清晰，变成一段一段、甚至一句一句的具体文字。这个过程并非严格的从左到右线性展开，而是充满了跳跃、回溯和反复修改。认知科学的研究证实，这正是人类语言生成的真实机制。

认知科学中的Levelt模型（语言产生的”蓝图”理论）指出，人类语言生成遵循”概念化→公式化→发音”的序列。其中，概念化阶段产生的是非语言的、抽象的意图——一种前语言的”思维语言”。神经科学研究进一步证实，大脑的前颞叶（ATL）作为语义枢纽，在具体的词汇选择（由左额下回负责）之前就已经完成了抽象语义的整合。这与Cola DLM在连续潜在空间中构建”语义蓝图”、再由解码器将其转化为具体文本的过程高度相似。

Flower和Hayes的写作认知过程理论则更直接地描述了写作行为。他们强调写作是递归且非线性的，包含计划、翻译和审查三个不断循环的过程。作家不会严格地从第一个字写到最后一个字，而是先规划整体结构，再填充具体内容，然后回头修改，如此往复。这种”从整体到局部、从模糊到精确”的生成模式，与扩散模型从噪声到清晰文本的迭代细化过程惊人地一致。

从认知双过程理论的视角来看，这种对应关系更加清晰。自回归模型”从左到右逐词生成”的线性逻辑，更接近于低级的、自动化的关联性思维（System 1）——快速、直觉、但缺乏全局规划。而连续空间扩散模型通过全局优化和并行细化，更贴近人类进行复杂写作时的高级推理思维（System 2）——缓慢、深思熟虑、具有全局意识。正如人脑写作时”先有个大概的思路，然后再是一段一段、甚至一句一句地蹦出来”——这个”大概的思路”正是连续潜在空间中的语义蓝图，而”一段一段蹦出来”则对应着从连续语义到离散文本的解码过程。

这种认知对应关系不仅是理论上的趣味类比，更具有深刻的工程启示：如果人类大脑天然采用”连续语义规划+离散文本生成”的分层架构，那么让机器模仿这一架构，或许正是通向更高质量文本生成的关键路径。ELF和Cola DLM的出现，正是这一思路的技术实现。

1.5 语言模型的三类演进

有了上述背景知识的铺垫，我们现在可以更清晰地审视语言建模领域的三类技术路线。

第一类：自回归模型（Autoregressive, AR）。以GPT系列为代表的自回归模型，遵循一个极其朴素的原则：从左到右，逐词预测。给定前文”今天天气真”，模型预测下一个token是”好”；然后基于”今天天气真好”，再预测”晴”——如此循环往复。这种”串行”生成方式天然契合人类阅读习惯，且随着模型规模和训练数据的指数级增长，展现出了惊人的涌现能力。然而，它的阿喀琉斯之踵同样明显：推理必须串行，无法并行加速；生成方向固定，缺乏全局规划能力——就像一个人只能边想边说，无法先打腹稿再一气呵成。从1.4节的认知视角来看，这本质上是只有System 1而没有System 2的生成模式。

第二类：离散扩散模型（Discrete Diffusion）。扩散模型在图像生成领域的巨大成功，启发研究者将其引入语言领域。MDLM和LLaDA是这一路线的代表。它们的核心思想是：先对文本进行”破坏”（如随机掩码部分token），再训练模型”修复”这些破坏。生成时，从完全掩码的序列出发，逐步去掩码，最终得到完整文本。这种方式天然支持并行解码，理论上可以一次生成多个token。但问题在于，离散空间中的”加噪”和”去噪”远不如连续空间自然——你需要精心设计转移矩阵来定义token之间的跳转概率，采样步数往往需要上千步才能保证质量，效率优势大打折扣。从1.1节的判定标准来看，离散扩散模型仍然受困于不可微的离散状态空间。

第三类：连续扩散模型（Continuous Diffusion）。这是本文重点讨论的前沿方向，以ELF和Cola DLM为代表。它们的核心洞察是：虽然文本最终表现为离散的token序列，但语言的”意义”天然是连续的。将离散token映射到连续向量空间（嵌入空间或潜在空间），在这个连续空间中执行扩散过程，最后再映射回离散token。这就像先将文字翻译成一种”思维语言”，在思维层面进行组织和优化，再翻译回文字——与1.4节中Levelt模型的”概念化→公式化”过程如出一辙。ELF和Cola DLM分别代表了这一范式的两种技术路径，我们将在后文详细介绍。

1.6 为什么需要连续空间？

要理解连续空间的优势，不妨借助一个类比。想象你要创作一幅画：

• 自回归模型就像一笔一笔地画，每一笔都基于之前画过的部分，但你不能擦除或修改之前的笔触。画到一半发现构图偏了，只能硬着头皮继续。

• 离散扩散模型像是用马赛克拼贴——每个token是一块固定颜色的小方块。你可以同时调整多块马赛克，但每块的颜色只能从有限的调色板中选择，无法微调。

• 连续扩散模型则像是在画布上用连续的颜料作画。你可以同时调整整幅画的色调、构图、明暗关系，颜色可以无限微调，直到满意后再”离散化”为最终的笔触。

图2：三种语言生成范式的画画类比。自回归模型如同逐笔绘制；离散扩散如同马赛克拼贴；连续扩散如同自由调配颜料后再定型。

结合1.3节的分析，连续空间的优势具体体现在三个方面：

第一，梯度流动的自然性。在连续空间中，模型输出的是实数向量，损失函数（如均方误差）处处可微，梯度可以平滑地反向传播。而在离散空间中，token之间的跳转是离散的，梯度估计需要借助复杂的技巧（如Gumbel-Softmax重参数化或REINFORCE），训练信号噪声大、方差高。

第二，成熟技术的直接复用。图像生成领域在过去几年积累了大量的连续扩散技术——Flow Matching、无分类器引导（CFG）、ODE求解器加速等。在连续嵌入空间中，这些技术几乎可以零成本迁移。ELF论文的核心卖点之一，就是”仅需对离散域做最小适配”即可让连续扩散语言模型高效运行。

第三，全局语义的自然建模。连续向量天然支持插值、平滑过渡和层次化组织。这意味着模型可以在生成过程中逐步”塑造”文本的全局语义结构，而不是被逐个token的局部决策所束缚。Cola DLM正是利用这一特性，将全局语义组织与局部文本实现解耦——正如人脑在写作时先有”大概思路”再逐句表达。

1.7 核心概念图解

在深入技术细节之前，我们先建立几个关键概念的直观理解：

嵌入空间（Embedding Space）：将离散token映射为连续向量的空间。例如，token”猫”可能被映射为一个768维的向量。在这个空间中，语义相近的词（如”猫”和”狗”）距离较近，语义无关的词距离较远。ELF直接在这个空间中进行扩散。

潜在空间（Latent Space）：通过VAE等编码器将整个文本序列压缩成的紧凑连续表示。与嵌入空间不同，潜在空间的每个向量不是对应单个token，而是对应一段文本的”语义摘要”——类似于人脑在概念化阶段产生的”前语言意图”。Cola DLM在这个空间中进行扩散。

流匹配（Flow Matching）：一种训练扩散模型的现代方法。传统扩散模型通过多步加噪-去噪来学习数据分布，而Flow Matching直接学习从噪声到数据的”速度场”——就像学习一个向量场，告诉每个位置的粒子应该朝哪个方向、以多快速度移动，才能最终到达数据分布。这种方法训练更稳定、采样更高效。

2. 技术路线对比

2.1 自回归模型：GPT范式

自回归语言模型将文本的联合概率分解为条件概率的乘积：

训练时，模型学习根据前文预测下一个token。推理时，逐token采样，每次采样结果拼接到序列末尾，用于预测下一个token。

优势：训练目标与人类阅读习惯一致，自然适配从左到右的文本结构；随着规模扩大展现出强大的涌现能力；推理时可以利用KV缓存（KV-Cache）加速。

劣势：推理必须串行，无法并行生成；缺乏全局规划，可能出现前后不一致；对生成顺序的固定假设限制了灵活性（如无法先写结尾再写开头）。

2.2 离散扩散模型：MDLM与LLaDA

离散扩散模型在token空间直接操作。以掩码扩散（Masked Diffusion）为例：

• 前向过程：随机选择部分token替换为特殊的[MASK]标记，破坏比例随时间递增。

• 反向过程：训练模型从部分掩码的序列中恢复原始token。生成时从全掩码序列出发，逐步去掩码。

MDLM在LM1B基准上超越了同等规模的GPT-2，LLaDA进一步将这一范式扩展到更大规模。但它们的共同局限是：采样步数多（通常需要1024步），且离散空间中的转移矩阵设计复杂。

2.3 连续扩散模型：ELF与Cola DLM

连续扩散模型将文本映射到连续空间后再执行扩散。ELF和Cola DLM代表了两种不同的技术路径：

• ELF（嵌入空间路径）：直接在token嵌入空间中进行Flow Matching，使用共享权重网络在所有时间步去噪，仅在最终步通过嵌入矩阵的逆映射回到离散token。设计极简，与图像扩散模型的技术栈高度对齐。

• Cola DLM（潜在空间路径）：先通过Text VAE将文本压缩到低维潜在空间，在潜在空间中用Block-Causal DiT建模全局语义先验，最后通过VAE解码器恢复文本。设计更复杂，但实现了全局语义与局部文本的解耦。

图3：ELF与Cola DLM架构对比。ELF采用单阶段极简设计，直接在嵌入空间去噪；Cola DLM采用三阶段分层架构，通过VAE实现语义解耦。

2.4 三类方法对比总览

维度	自回归(GPT)	离散扩散(MDLM/LLaDA)	连续扩散(ELF)	连续扩散(Cola DLM)
操作空间	离散token	离散token	连续嵌入空间	连续潜在空间
生成方式	逐token串行	并行去掩码	并行去噪	块级并行去噪
采样步数	L步(序列长度)	1024步	32步	50-200步
全局语义	隐式(通过注意力)	隐式	隐式	显式(分层建模)
CFG支持	不适用	有限	原生支持	支持
训练复杂度	低	中	低	高(三阶段)
已验证规模	>100B参数	~1B参数	105M参数	~2B参数

3. 创新点与优势分析

3.1 ELF的创新与优势

创新一：极简的连续扩散设计。ELF最大的创新在于证明了”少即是多”。与早期连续DLM在每一步都进行离散化回归的复杂设计不同，ELF仅需在最终步做一次离散化。这种极简设计带来了两个直接好处：一是训练目标简洁（MSE+CE），梯度流动顺畅；二是推理路径干净，ODE求解器可以高效运行。

创新二：共享权重消除独立解码器。ELF发现嵌入权重矩阵天然可以同时充当编码器和解码器——将token映射为向量，也将向量映射回token。这一发现消除了对独立解码器的需求，减少了参数量，同时确保了嵌入空间和token空间的一致性。消融实验证实，共享权重比独立解码器效果更好，因为模型在嵌入空间中优化的方向直接对应正确的token方向。

创新三：CFG的自然适配。由于ELF全程在连续空间运行，图像扩散模型中广泛使用的CFG技术可以零成本迁移。CFG通过调节引导强度在生成质量和多样性之间灵活权衡，这是离散扩散模型难以实现的。

优势总结：ELF以105M参数、10B训练token、32采样步数，在生成困惑度上超越了170M参数、100B训练token、1024采样步数的MDLM和Duo。这一结果不仅证明了连续扩散路线的有效性，更展示了其效率优势——更少的参数、更少的数据、更少的步数，更好的质量。

3.2 Cola DLM的创新与优势

创新一：全局语义与局部文本的显式解耦。Cola DLM最核心的创新在于通过分层潜在变量模型，将文本生成分解为两个可独立优化的子问题：全局语义组织（由扩散模型在潜在空间完成）和局部文本实现（由VAE解码器完成）。这种解耦使得扩散模型可以专注于”大局”——文本的主题、结构、逻辑流——而不必纠缠于具体的措辞选择。

创新二：潜在先验传输的新范式。Cola DLM将扩散过程重新定义为”潜在先验传输”而非”观测恢复”。这一视角转换具有深远意义：它意味着扩散不再是对原始数据的逐步逼近，而是对语义结构的逐步塑造。这为将扩散模型应用于更抽象的生成任务（如规划、推理）打开了大门。

创新三：强缩放行为的验证。Cola DLM在高达约2000 EFLOPs的计算量下进行了缩放实验，证明其性能随规模增长的趋势与AR模型相当。这是连续扩散语言模型首次在如此大规模下验证缩放行为，为其实际部署提供了信心。

创新四：多模态统一的天然接口。由于Cola DLM的潜在空间是连续的、语义压缩的，它天然可以作为连接文本与其他连续模态（图像、音频、视频）的桥梁。论文明确指出这一设计”能自然地扩展到其他连续模态”，暗示了统一多模态生成架构的可能性。

3.3 两种方法的优势互补

ELF和Cola DLM虽然同属连续扩散路线，但设计哲学形成有趣的互补：

• ELF追求极简：单阶段训练、共享权重、最小离散化，适合快速实验和资源受限场景。

• Cola DLM追求解耦：三阶段训练、分层建模、显式语义控制，适合需要精细语义控制和大规模部署场景。

两者共同证明了连续扩散语言模型的可行性，并从不同角度展示了这一范式的潜力。

4. 两种连续方法深度剖析

4.1 ELF：嵌入式语言流

ELF由MIT团队提出，其设计哲学是”极简主义”——用最少的离散化处理，让连续扩散在语言建模中高效运行。

4.1.1 Flow Matching框架

ELF的核心数学框架是连续时间流匹配。给定离散token序列，首先通过嵌入层映射为连续向量。然后定义从噪声到数据的线性插值路径：在时间t=0时是纯噪声，在t=1时是目标嵌入。模型学习预测这个从噪声指向数据的速度场——即数据变化的方向和速率。训练时，模型接收带噪的嵌入向量和时间信息，输出预测的速度向量，与真实速度计算均方误差。这种设计使得训练目标处处可微，梯度流动顺畅。

ELF概念示意图

图：ELF概念示意图，展示从高斯噪声到连续嵌入再到离散token的去噪轨迹。

4.1.2 共享权重设计

ELF最精妙的设计在于离散化策略。与早期连续DLM在每一步都尝试回归离散token不同，ELF在整个扩散过程中始终保持在连续嵌入空间，仅在最终时间步执行一次离散化。离散化通过共享的嵌入权重矩阵实现：这个矩阵既是嵌入层的权重（将token映射为向量），也是”逆映射”的权重（将向量映射回token概率）。这种权重共享确保了嵌入空间和token空间的一致性——模型在嵌入空间中优化的方向，天然对应着正确的token方向。消融实验证实，共享权重比独立解码器效果更好。

4.1.3 CFG引导

由于ELF全程在连续空间运行，图像领域成熟的无分类器引导（CFG）技术可以直接复用。CFG通过混合条件生成和无条件生成的速度场来增强生成质量：引导强度参数控制模型在”忠实于条件”和”保持多样性”之间的平衡。当参数为1时退化为标准条件生成；参数越大，模型越忠实于条件，但可能牺牲多样性。

4.1.4 实验亮点

ELF在OpenWebText上的实验结果令人印象深刻：

模型	参数量	训练Token	采样步数	生成困惑度(Gen. PPL)
MDLM	170M	100B	1024	24.1
Duo	170M	100B	1024	21.5
ELF	105M	10B	32	18.2

ELF以更少的参数（105M vs 170M）、更少的训练数据（10B vs 100B tokens）、更少的采样步数（32 vs 1024），实现了显著更低的生成困惑度。这一结果强有力地证明了连续扩散路线的潜力。

图：ELF性能对比，在无需蒸馏的情况下以更少采样步数实现更低生成困惑度。

4.2 Cola DLM：连续潜在扩散语言模型

Cola DLM由字节跳动Seed团队联合多所高校提出，其设计哲学是”分层解耦”——将文本生成分解为全局语义组织和局部文本实现两个层次。

4.2.1 分层信息分解的理论基础

Cola DLM将文本生成建模为分层潜在变量模型。核心思想是：文本的联合概率可以分解为两部分——潜在先验（描述文本的全局语义结构）和条件似然（从语义到具体文本的映射）。训练目标为最大化证据下界（ELBO），这一公式揭示了Cola DLM的核心设计：后验网络负责将文本压缩为语义表示，先验网络负责学习语义空间的分布，似然网络负责从语义恢复文本。三者各司其职，实现了信息的分层处理。

4.2.2 三阶段工作流程

Cola DLM的训练和推理分为三个精心设计的阶段：

第一阶段：Text VAE预训练。训练一个变分自编码器，将文本压缩到连续潜在空间。编码器将离散token序列映射为高斯分布的参数（均值和方差），解码器从潜在表示重建文本。这一阶段的目标是学习一个”语义完备”的潜在空间——相似的文本在潜在空间中距离相近，且潜在表示包含足够信息以重建原文。

第二阶段：Block-Causal DiT先验学习。在冻结的VAE潜在空间中，训练一个扩散模型来学习潜在先验。这里采用了块因果结构：将潜在变量分成若干块，每块的生成依赖于之前所有块。这种设计在保持一定自回归结构（保证生成连贯性）的同时，允许块内并行生成。训练采用Flow Matching目标，学习从噪声到潜在表示的平滑传输路径。

第三阶段：推理。给定前缀文本，先通过VAE编码器将其映射到潜在空间，然后在潜在空间中用Block-Causal DiT进行扩散采样，最后通过VAE解码器将生成的潜在表示解码为文本。

图：Cola DLM架构图，展示分层结构处理文本信息的完整流程。

4.2.3 潜在先验传输：一个统一视角

Cola DLM提出了一个富有洞察力的概念——“潜在先验传输”。传统扩散模型（包括ELF）的扩散过程可以理解为”观测恢复”——从噪声逐步恢复原始数据。而Cola DLM的扩散过程是”先验传输”——在潜在空间中从无信息先验（高斯噪声）逐步传输到有信息的语义先验。这一视角转换的意义在于：扩散不再是对token级细节的恢复，而是对全局语义结构的逐步塑造。文本的局部细节由VAE解码器负责，扩散模型专注于”大局观”。

4.2.4 实验验证

Cola DLM通过四个研究问题系统验证了其设计：

• 全局语义结构：Cola DLM在捕捉长程语义一致性方面优于离散扩散模型LLaDA，验证了分层建模的有效性。

• 潜在空间分析：VAE潜在空间在语义重要性、平滑度等维度上显著优于固定空间和演化空间，PPL从4.12降至3.42。

• 扩散消融：块大小128、Cosine噪声调度、200去噪步数、CFG尺度2.0的组合达到最优生成质量0.88。

• 缩放性能：在高达约2000 EFLOPs的计算量下，Cola DLM展现出与AR模型相当的强缩放行为。

图：Cola DLM缩放性能曲线，验证了其强扩展性。

4.3 关键差异对比

维度	ELF	Cola DLM
连续空间类型	Token嵌入空间	VAE潜在空间
空间维度	与嵌入维度相同(如768)	压缩后更低(如512)
训练阶段数	单阶段(端到端)	三阶段(VAE→DiT→解码)
离散化时机	仅最终步(t=1)	推理时通过VAE解码器
全局语义建模	隐式(通过注意力)	显式(分层潜在变量)
CFG支持	原生支持	支持
已验证规模	105M参数	~2B参数
架构复杂度	低(接近标准扩散)	高(多组件协同)
多模态潜力	有限	强(潜在空间天然适配)

5. 当前缺点与未来展望

5.1 共同挑战

挑战一：连续到离散的信息损失。无论ELF还是Cola DLM，最终都需要将连续表示映射回离散token。这一映射过程不可避免地存在信息损失——连续空间中的微小扰动可能导致离散token的跳变，而连续空间中”合理”的向量未必对应任何有意义的token序列。如何设计更鲁棒的离散化策略，是连续扩散DLM面临的核心理论问题。

挑战二：大规模验证不足。ELF目前仅在105M参数规模验证，Cola DLM验证到约2B参数。与GPT-4等数千亿参数的AR模型相比，连续扩散DLM的大规模行为仍是未知数。扩散模型的训练和推理在大规模下的计算效率、数值稳定性、超参敏感性都需要进一步研究。

挑战三：推理效率仍不及AR模型。虽然ELF的32步采样已远少于MDLM的1024步，但相比AR模型利用KV-Cache的单步推理，扩散模型的多步迭代仍有固有开销。在需要低延迟的在线服务场景中，这一差距可能是致命的。

挑战四：评估体系不完善。当前连续扩散DLM主要使用生成困惑度（PPL）作为评估指标，但PPL能否全面反映文本质量存疑。在人类评估、下游任务表现、长文本一致性等维度上的评估仍然缺乏。

5.2 ELF的特定局限

规模瓶颈待验证。ELF的105M参数实验虽然展示了效率优势，但共享权重设计在大规模下是否仍然有效？嵌入空间的表达能力是否会成为瓶颈？这些问题需要更大规模的实验来回答。

嵌入空间的表达能力上限。ELF直接在token嵌入空间中操作，而嵌入空间的维度通常为768或1024。这个空间能否承载足够丰富的语义信息以支持复杂文本的生成？相比之下，Cola DLM的潜在空间经过VAE压缩，可能具有更好的语义组织性。

条件生成任务覆盖有限。ELF在WMT14翻译和XSum摘要上进行了条件生成实验，但尚未在更复杂的条件生成任务（如指令遵循、多轮对话）上验证。

5.3 Cola DLM的特定局限

三阶段训练的复杂性。Cola DLM需要依次训练VAE、DiT先验、并协调解码器，训练流程复杂，超参众多。任何一个阶段的缺陷都可能影响最终效果，调试和优化成本高。

VAE质量是瓶颈。整个系统的生成质量受限于VAE的重建质量。如果VAE在压缩过程中丢失了重要信息，后续的扩散模型无论如何优化都无法恢复。VAE的”后验坍塌”问题是潜在变量模型的老大难。

块大小超参敏感。Block-causal结构中的块大小直接影响生成质量和效率的权衡。块太小则退化为近似自回归，失去并行优势；块太大则可能破坏局部连贯性。最优块大小可能因任务和文本长度而异。

5.4 未来发展方向

方向一：与AR模型的融合。连续扩散DLM不必然是AR模型的替代者，两者可以互补。例如，用扩散模型规划文本的全局结构（章节、段落主题），用AR模型填充局部细节；或者用扩散模型生成多个候选续写，用AR模型进行排序和选择。这种”扩散规划+自回归执行”的混合架构可能是近期最实用的方向。

方向二：多模态统一建模。Cola DLM的连续潜在空间天然适合作为多模态表示的”通用语言”。将文本、图像、音频分别编码到共享的潜在空间，用统一的扩散模型进行跨模态生成和转换，是极具前景的研究方向。

方向三：更高效的离散化策略。如何减少连续到离散映射的信息损失？可能的方向包括：学习更好的嵌入空间结构（如通过对比学习）、使用向量量化（VQ）技术桥接连续和离散、设计端到端的可微分离散化层。

方向四：推理加速。扩散模型的推理加速是活跃的研究领域。蒸馏技术（如渐进蒸馏）、更高效的ODE求解器、一步生成模型等，都有望将连续扩散DLM的推理步数进一步压缩到个位数。

方向五：端到端训练。Cola DLM的三阶段训练虽然有效，但各阶段目标可能不完全对齐。探索端到端的联合训练方法，让VAE和扩散模型协同优化，可能进一步提升性能。

6. 总结

连续空间扩散语言模型代表了语言建模范式的一次重要演进。从自回归的”逐词串行”，到离散扩散的”并行去掩码”，再到连续扩散的”语义空间塑造”，每一次跃迁都拓展了我们对”机器如何生成语言”这一问题的理解。

ELF和Cola DLM分别从”极简”和”解耦”两个角度探索了连续扩散路线的可行性。ELF证明了连续扩散可以比离散扩散更高效——更少的参数、更少的数据、更少的步数、更好的质量。Cola DLM证明了分层建模可以将全局语义与局部文本解耦，为更可控、更结构化的文本生成奠定基础。

最后需要强调的是，连续扩散DLM并非要”取代”自回归模型，而是提供了一种互补的生成范式。AR模型在流式生成、低延迟场景中仍有不可替代的优势；而扩散模型在并行生成、全局规划、可控性方面展现了独特价值。未来的语言模型很可能不是非此即彼的选择，而是根据任务需求灵活组合多种范式的混合系统。ELF和Cola DLM的出现，为这一未来图景增添了重要的技术拼图。

参考文献

[1] arxiv.org - ELF: Embedded Language Flows (2026-05-11)

[2] arxiv.org - Continuous Latent Diffusion Language Model (Cola DLM) (2026-05-07)

[3] github.com - ELF官方代码仓库

[4] github.io - Cola DLM项目主页

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

LLM

tokenize

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

LLM

tokenize