下载后,将它们放在同一个目录下(例如:D:\models\gemma-4\A4B\)。 4.1 启动方式 这里使用的是 llama.cpp 的 Windows 版本,配合 gguf 模型文件来运行。 /models/gemma-4/A4B/gemma-4-26B-A4B-it-UD-Q5_K_M.gguf --mmproj . /models/gemma-4/A4B/mmproj-F16.gguf -c 128000 -ngl 999 --port 8000 -a gemma4 --threads 2 --batch-size
collections/google/gemma-4-660a69a7a09e0132ef250eec • 预量化推荐:Unsloth 预量化 GGUF https://unsloth.ai/docs/models/gemma https://huggingface.co/blog/gemma4 • https://blog.google/innovation-and-ai/technology/developers-tools/gemma
三档分明的价格梯度整体看,模型成本横跨三个数量级:超低价档(< 0.01 元 / 题):gemma-4系列、Doubao-Seed-2.0-lite、Doubao-Seed-2.0-mini、qwen3.5 gpt-5.4-high、gpt-5.5、gemini-3.1-pro-preview每 1% 准确率,最便宜的模型只要 0.0037 元按“每 1% 准确率消耗的总成本”算性价比,前 5 名是:不过 gemma
一、模型下载在正式部署之前,先简单说明一下 Google Gemma-4 系列模型的组成。