Google发布的Gemma 4 QAT模型打破了“小模型一压缩就变傻”的魔咒。
所谓量化感知训练,是让模型在训练阶段就提前适应低精度,如同负重训练,瘦身成功却不丢肌肉。现在仅需1GB内存就能在手机上跑通E2B,在8GB显存的旧电脑上,12B模型也跑得飞快。
这带来的改变是:企业和个人无需再被绑定在昂贵的云端API上。通过本地部署,你能以零成本、绝对隐私的方式跑通大部分工作流。别再觉得小模型没用,配合好工具调用,它们在特定任务上完全能平替百亿大模型。本地算力的红利期,已经对每个人敞开。
blog.google/innovation-and-ai/technology/developers-tools/quantization-aware-training-gemma-4/