Google 推出实验性开源模型 DiffusionGemma(26B MoE),在 GPU 上实现了高达 4 倍的文本生成提速。
以往的 LLM 像“打字机”,必须按顺序一个 Token 一个 Token 地往后写。在云端这没问题,因为能靠高并发的 Batch 榨干算力;但在本地单人使用时,显卡大部分时间都在“等”下一个词,造成极大的算力浪费。
DiffusionGemma 则是“印刷机”。它引入图像生成中的 Diffusion(扩散)机制,先铺满随机占位符,再多轮迭代全局微调,一次性“印”出 256 个 Token 的文本块。这把本地推理的瓶颈直接从“显存带宽”转移到了“计算能力”上。
它的核心价值不在于云端高并发,而在于本地和低延迟交互。双向注意力机制让它在代码补全、行内编辑和数独等非线性任务上极具优势。虽然绝对生成质量略逊于传统 Gemma 4,但它用轻微的质量损失换取了极致的本地响应速度。在 AI 商业化去泡沫、追求每瓦性能的今天,这种“边缘端、高能效、即时反馈”的路线,或许才是本地 AI 协作的未来。
blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/