
Google 于 2026 年 4 月发布了最新的开源模型 Gemma 4,这是目前最强大的开源模型系列之一,其 31B 版本在全球开源模型排行榜上位居第三。更重要的是,Gemma 4 完全开源免费,支持本地部署,让你可以在自己的硬件上运行最先进的 AI 模型。
本文将详细介绍三种主流的本地部署方式,帮助你在笔记本或台式机上搭建完全私密、零 API 成本的 AI 环境。
在动手部署之前,先了解 Gemma 4 的核心特性,这能帮你选择合适的模型版本。
Gemma 4 相比 Gemma 3 有多项重要升级:
• 上下文窗口:从 32K 扩展到 128K,可处理更长的文档
• 多模态:全系列原生支持图像输入,不再仅限特定版本
• 思考模式:新增可配置的 Chain-of-Thought 推理能力
• 架构:引入 MoE(Mixture of Experts)混合架构
• 工具调用:原生支持 Function Calling
• 语言覆盖:支持语言数量从 80+ 增加到 140+
Gemma 4 的版本命名可能会让人困惑,这里解释一下:
• E 系列(E2B、E4B):E 代表 Efficient,轻量版模型,专为边缘设备优化。E2B 仅 2.3B 参数,可以在手机甚至 Raspberry Pi 上运行。
• 26B MoE:采用 Mixture of Experts 架构,总参数 26B,但每次推理只激活约 3.8B 参数(因此也称为 A4B,A = Activated)。这让它既有大模型的能力,又有小模型的速度。
• 31B Dense:完整版密集模型,拥有最强推理能力,但也需要最强的硬件。
MoE(Mixture of Experts)架构的优势在于推理效率。26B MoE 总参数 26B,但每次推理只激活约 4B 参数(因此也称为 A4B,Activated 4B)。这意味着它在保持大模型能力的同时,推理成本接近 4B 模型。
128K 上下文窗口:可以处理约 10 万字中文或 20 万字英文。这意味着你可以把整本书、完整的代码仓库、或者长篇技术文档一次性喂给模型。
多模态理解:全系列支持图像输入。截图问 Bug、分析图表、读取文档图片,都能直接处理。
可配置思考模式:Gemma 4 内置了 Chain-of-Thought 推理能力。你可以让它「先思考再回答」,对于数学、逻辑推理类任务效果显著提升。
Function Calling:原生支持工具调用,可以对接外部 API、数据库查询、代码执行等。这对于构建 AI Agent 非常关键。
根据官方信息,Gemma 4 在多个基准测试中表现优异。26B MoE 版本在保持轻量化的同时,性能已接近一些 70B 级别的模型。
主要优势领域:
• 通用知识问答(MMLU)
• 代码生成(HumanEval)
• 数学推理(GSM8K、MATH)
• 多语言理解
具体数值请参考 Google DeepMind 官方页面 (https://deepmind.google/models/gemma/gemma-4/) 和 HuggingFace 模型卡 (https://huggingface.co/google/gemma-4-4b-it)。
在开始之前,先想清楚一个问题:你真的需要本地部署吗?如果你只是偶尔使用,Google AI Studio 或 Vertex AI 的 API 可能更省事。但如果你符合以下任何场景,本地部署就是正确的选择。
医疗、金融、法律等敏感行业的数据不能离开公司网络。本地部署意味着你的 prompt 和响应永远不会经过第三方服务器,GDPR、HIPAA、个人信息保护法等法规要求自动合规。
飞机上、偏远工地、网络不稳定的工厂环境——本地部署让你在完全离线的环境下也能使用 AI。有用户在离岸风电平台上用 Gemma 4 E4B 做设备检测报告,完全不需要网络连接。
API 按 token 计费,用量一大就很惊人。本地部署的边际成本几乎为零——硬件是一次性投资,电费可以忽略不计。如果你每天要处理几十万 token 的推理量,本地部署三个月就能回本。
动手之前,先确认你的硬件能跑哪个版本。选错模型版本,轻则跑得慢,重则直接 OOM 崩溃。
Gemma 4 提供多种规模,满足不同硬件条件的需求:
模型 | 参数量 | 下载大小(Q4) | VRAM 需求 | 上下文 | 推荐硬件 |
|---|---|---|---|---|---|
E2B | 2.3B | 1.5 GB | ~2 GB | 128K | 手机、Raspberry Pi |
E4B | 4.3B | 3 GB | ~4 GB | 128K | 8GB RAM 笔记本 |
26B MoE | 26B | 18 GB | ~20 GB | 256K | RTX 4060 Ti 16GB / M3 24GB |
31B Dense | 31B | 20 GB | ~24 GB | 256K | RTX 4090 24GB / M4 Pro 48GB |
下载大小为估算值,实际 Ollama 下载大小会略大(包含 tokenizer 等)。VRAM 需求为运行时显存估算,实际需求会因上下文长度和量化版本有所不同。26B MoE 的 VRAM 需求约为 16-20 GB,取决于上下文长度设置。
E 系列是 Gemma 4 的轻量版本,E 代表 Efficient,专为边缘设备优化。26B MoE(实际参数约 27B)采用混合专家架构,实际推理时只激活约 3.8B 参数,在保持高性能的同时大幅降低资源消耗。31B Dense 是完整版本,拥有最强的推理能力。
• 128K 上下文窗口:支持超长文本处理
• 多模态能力:全系列支持图像理解
• 可配置思考模式:内置 Chain-of-Thought 推理
• 多语言支持:支持 140+ 种语言
Ollama 是目前最简单的本地 LLM 部署工具,没有之一。一行命令安装,一行命令下载模型,一行命令开始对话。如果你是开发者,这是最推荐的起步方式。
macOS:
curl -fsSL https://ollama.com/install.sh | sh
brew install ollama
Linux:
curl -fsSL https://ollama.com/install.sh | sh
Windows:
访问 ollama.com (https://ollama.com) 下载 .exe 安装文件,双击运行即可。
安装完成后,Ollama 会自动启动后台服务,默认监听 localhost:11434。
ollama pull gemma4:e4b
ollama pull gemma4:26b
ollama pull gemma4:e2b
下载时间取决于网速。E4B 约 3 GB(Q4 量化),100Mbps 网络约 4 分钟;26B 约 18 GB,需要更长时间。
ollama run gemma4:e4b
ollama run gemma4:e4b --verbose
你会看到一个交互式的聊天界面。输入问题,模型就会回答。按 Ctrl+D 退出。
Ollama 内置 OpenAI 兼容的 API server,你的代码几乎不用改:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:e4b",
"messages": [{"role": "user", "content": "用三句话解释量子电脑"}]
}'
from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
model="gemma4:e4b",
messages=[{"role": "user", "content": "用三句话解释量子电脑"}]
)
print(response.choices[0].message.content)
Ollama 默认下载 Q4_K_M 量化版本,对大多数场景已足够。如果需要更高品质:
ollama pull gemma4:26b-q8_0 # 8-bit,品质更好但需要更多 VRAM
ollama pull gemma4:e4b-fp16 # 完整精度,需要 8.6GB VRAM
Ollama 优点: 安装最简单、社区最大、API 兼容性好、模型库丰富。
Ollama 缺点: 没有 GUI、高级设置需要写 Modelfile、不支持微调。
不是每个人都喜欢在终端里敲命令。如果你是产品经理、设计师,或只是想快速体验 Gemma 4 的非技术人员,LM Studio 是最好的选择。
访问 lmstudio.ai (https://lmstudio.ai) 下载对应操作系统的安装文件。支持 macOS、Windows 和 Linux。
安装过程跟装普通桌面应用一样——下一步、下一步、完成。
1. 打开 LM Studio
2. 点击左侧的「Discover」标签
3. 在搜索栏输入 gemma-4
4. 你会看到 Unsloth 提供的各种量化版本(GGUF 格式)
5. 根据你的内存选择合适的版本,点击「Download」
推荐选择:
• 8GB RAM 机器 → gemma-4-E4B-it-GGUF (Q4_K_M)
• 16GB+ RAM 机器 → gemma-4-26B-A4B-it-GGUF (Q4_K_M)
1. 点击左侧的「Chat」标签
2. 在上方模型选择器中选择刚下载的模型
3. 右侧面板可以调整参数: - Context Length:默认 4096,Gemma 4 小模型支持到 128K - Temperature:创意任务调高(0.7-1.0),精确任务调低(0.1-0.3) - GPU Offload:有独显的话拉到最大值,把运算全交给 GPU
直接在聊天框输入问题即可。LM Studio 还支持:
• 多模态输入:直接拖图片到聊天框,Gemma 4 全系列都支持图像理解
• System Prompt:在设置面板中定义模型的角色和行为
• 对话记录:自动保存,下次打开可以继续
LM Studio 也能当本地 API server,与 Ollama 一样提供 OpenAI 兼容接口:
1. 点击左侧的「Developer」标签
2. 选择模型,点击「Start Server」
3. 默认地址是 http://localhost:1234/v1
curl http://localhost:1234/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma-4-e4b-it",
"messages": [{"role": "user", "content": "Hello!"}]
}'
LM Studio 优点: 图形化操作零门槛、模型浏览器方便搜索和下载、支持多模态、可当 API server。
LM Studio 缺点: 占用系统资源比 Ollama 多(Electron 应用)、不支持微调、高级用户可能觉得 GUI 多余。
如果你的目标是做微调、量化,或在内存受限的环境下榨出最高性能,Unsloth 是正确的选择。
Unsloth 在 Gemma 4 发布当天就提供了完整支持,包括预量化的 GGUF 和 MLX 格式模型。它的 MLX 版本在 Apple Silicon 上比 Ollama 节省约 40% 的内存,代价是推理速度慢 15-20%。
python3 -m venv unsloth-env
source unsloth-env/bin/activate
pip install unsloth
如果使用 NVIDIA GPU,确保已安装 CUDA toolkit。Unsloth 支持 CUDA 11.8+。
from unsloth import FastLanguageModel
model, tokenizer = FastLanguageModel.from_pretrained(
model_name="unsloth/gemma-4-E4B-it",
max_seq_length=4096,
load_in_4bit=True, # 4-bit 量化
)
FastLanguageModel.for_inference(model)
messages = [{"role": "user", "content": "解释 LoRA 微调的原理"}]
inputs = tokenizer.apply_chat_template(
messages, tokenize=True, add_generation_prompt=True, return_tensors="pt"
).to("cuda")
outputs = model.generate(input_ids=inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
如果要服务多个用户,vLLM 的批量推理性能远超简单的 Transformers 推理:
pip install vllm
vllm serve unsloth/gemma-4-26B-A4B-it-GGUF \
--quantization awq \
--max-model-len 8192 \
--gpu-memory-utilization 0.9
vLLM 的 continuous batching 和 PagedAttention 在处理多个并发请求时,吞吐量比简单的推理方式高出 3-5 倍。
Unsloth 最大的优势就在这里——同一个框架,从推理到微调不需要切换工具:
from unsloth import FastLanguageModel
import torch
model, tokenizer = FastLanguageModel.from_pretrained(
model_name="unsloth/gemma-4-E4B-it",
max_seq_length=2048,
load_in_4bit=True,
)
model = FastLanguageModel.get_peft_model(
model,
r=16,
lora_alpha=16,
target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
)
Unsloth 优点: 内存效率最高、支持推理到微调的完整流程、MLX 优化让 Mac 性能更好、社区活跃。
Unsloth 缺点: 需要 Python 环境、配置比较复杂、不适合非技术用户。
比较项目 | Ollama | LM Studio | Unsloth |
|---|---|---|---|
上手难度 | 低(一行命令) | 最低(图形化) | 中高(需 Python) |
安装时间 | 2 分钟 | 3 分钟 | 10-15 分钟 |
内存效率 | 中 | 中 | 高(省 ~40%) |
推理速度 | 快 | 快 | 中(MLX 慢 15-20%) |
API 兼容 | OpenAI 兼容 | OpenAI 兼容 | 需搭配 vLLM |
GUI 界面 | 无 | 有 | 无 |
微调支持 | 不支持 | 不支持 | 原生支持 |
多模态 | 支持 | 支持(拖放图片) | 支持 |
适合人群 | 开发者、CLI 爱好者 | 非技术人员、快速体验 | ML 工程师、需要微调 |
我的建议:
• 「我只想快速试一下」 → LM Studio。下载、安装、搜索模型、开始聊天。五分钟,不需要打任何命令。
• 「我要整合到我的应用里」 → Ollama。API 最稳定、社区资源最多、Docker 部署也方便。
• 「我要微调或内存很吃紧」 → Unsloth。省 40% 内存不是开玩笑的,而且微调流程一条龙。
这是最常见的问题。症状通常是模型加载到一半就崩溃,或推理到一半被终止。
解决方案:
1. 换更小的量化版本:从 Q8 换到 Q4_K_M,或从 Q4 换到 Q3_K_S
2. 降低 context length:把 context window 从 128K 降到 8K 或 4K
3. 关闭其他占用内存的程序:Chrome 是最大的内存消耗者
4. 增加 swap space:Linux 上可以临时增加 swap,虽然会变慢但至少能跑
nvidia-smi # NVIDIA GPU
ollama ps # 查看 Ollama 加载了哪些模型
如果模型能跑但速度不理想(低于 10 tok/s),试试以下方法:
1. 确认 GPU 有被使用:nvidia-smi 查看 GPU utilization,如果是 0% 代表模型跑在 CPU 上
2. 在 Ollama 中增加 GPU layers:创建 Modelfile 设置 num_gpu 参数
3. 用更激进的量化:Q4_K_S 比 Q4_K_M 快约 10-15%
4. Mac 用户用 MLX 版本:比 llama.cpp 后端快 30-50%
如果 Hugging Face 下载速度太慢,可以用 hf_transfer 加速:
pip install hf_transfer
export HF_TRANSFER=1
通常是量化版本的问题。Q2、Q3 的低位元量化在某些任务上质量下降明显。解决方法是换 Q4_K_M 以上的版本,或者加上 system prompt 来稳定输出格式。
本地部署的 Gemma 4 能用来做什么?除了直接对话,最实用的场景是集成到开发工具和工作流中。这里介绍几个典型的集成案例。
有人尝试用 Gemma 4 本地模型替代 Claude Code 等云端 AI 编程助手,实测结果如何?
M4 Max 128GB,26B A4B 模型
指标 | 本地 Gemma 4 | 云端 Claude |
|---|---|---|
系统提示词占用 | ~29K tokens | 无限制 |
生成速度 | ~14 tok/s | ~50+ tok/s |
首次响应延迟 | 数十秒 | <1 秒 |
上下文限制 | 32K(实际可用) | 200K+ |
复杂推理质量 | 中等 | 优秀 |
成本 | 免费(硬件折旧) | $20-200/月 |
结论:本地模型适合轻量对话场景,但 Claude Code 这类重型编程场景仍需云端支持。主要原因:
1. 上下文窗口压力:大型项目的系统提示词可能超过本地模型的上下文限制
2. 响应延迟:本地模型的 prefill 时间明显长于云端 API
3. 推理质量:即使是 31B 版本,在复杂编程任务上仍不如云端顶级模型
不过,对于简单的代码补全、文档查询、单文件修改等任务,本地部署完全够用,而且零成本、零网络延迟。
OpenClaw 是一个开源的 AI Agent 框架,可以配合本地模型实现完全离线的自动化工作流。
安装 OpenClaw:
git clone https://github.com/openclaw/openclaw.git
cd openclaw
pip install -r requirements.txt
export OPENAI_API_BASE=http://localhost:11434/v1
export OPENAI_API_KEY=ollama
export OPENAI_MODEL=gemma4:26b
使用示例:让 Agent 自动整理文件:
from openclaw import Agent
agent = Agent(
model="gemma4:26b",
base_url="http://localhost:11434/v1"
)
result = agent.run("帮我整理 Downloads 文件夹,按文件类型分类")
print(result)
OpenClaw 支持的工具包括:文件操作、网页搜索、代码执行、API 调用等。配合 Gemma 4 的 Function Calling 能力,可以实现相当复杂的自动化流程。
注意事项:
• 26B MoE 版本在复杂多步任务上表现更好
• 需要调整 temperature 到较低值(0.1-0.3)以获得更稳定的输出
• 首次运行时 prefill 较慢,后续会快很多
Continue 是 VS Code 和 JetBrains 的 AI 编程助手插件,支持连接本地模型。
配置步骤:
1. 安装 Continue 插件(VS Code 扩展市场搜索「Continue」)
2. 打开设置,添加 Ollama 作为模型提供者:
{
"models": [
{
"title": "Gemma 4 E4B",
"provider": "ollama",
"model": "gemma4:e4b",
"apiBase": "http://localhost:11434/v1"
}
],
"tabAutocompleteModel": {
"title": "Gemma 4 E2B",
"provider": "ollama",
"model": "gemma4:e2b",
"apiBase": "http://localhost:11434/v1"
}
}
1. 重启 VS Code,开始使用
推荐配置:
• 用 E2B 做自动补全(速度快)
• 用 E4B 或 26B 做对话问答(质量高)
Cherry Studio 是一个支持多模型切换的桌面聊天应用,界面友好,适合日常使用。
配置方法:
1. 下载安装 Cherry Studio (https://cherry-ai.com)
2. 进入设置 → 模型提供者
3. 添加 Ollama:
- API 地址:http://localhost:11434/v1
- API Key:任意(如 ollama)
4. 选择模型开始对话
Cherry Studio 的优势:
• 支持多模态(可以发图片给 Gemma 4 分析)
• 支持多轮对话历史管理
• 支持导出对话记录
• 支持 Prompt 模板
如果你在构建 AI 应用,可以通过 LangChain 或 LlamaIndex 集成本地 Gemma 4。
LangChain 示例:
from langchain_community.llms import Ollama
from langchain_core.prompts import ChatPromptTemplate
llm = Ollama(model="gemma4:26b")
prompt = ChatPromptTemplate.from_messages([
("system", "你是一个专业的技术文档写作助手。"),
("user", "{input}")
])
chain = prompt | llm
response = chain.invoke({"input": "帮我写一个 Python 快速排序的文档"})
print(response)
LlamaIndex 示例(RAG 应用):
from llama_index.llms.ollama import Ollama
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
documents = SimpleDirectoryReader("./docs").load_data()
llm = Ollama(model="gemma4:e4b", request_timeout=60.0)
index = VectorStoreIndex.from_documents(documents)
query_engine = index.as_query_engine(llm=llm)
response = query_engine.query("这份文档的主要观点是什么?")
print(response)
最后给一个综合对比,帮助判断是否值得本地部署:
场景 | 本地 Gemma 4 | 云端 API | 建议 |
|---|---|---|---|
日常对话、简单问答 | ✅ 够用 | ✅ 更好 | 本地可省钱 |
代码补全 | ✅ 够用 | ✅ 更好 | 本地用 E2B |
长文档分析 | ⚠️ 受上下文限制 | ✅ 无限制 | 云端更稳 |
复杂推理、多步任务 | ⚠️ 质量中等 | ✅ 质量高 | 看预算 |
敏感数据处理 | ✅ 隐私安全 | ⚠️ 需评估 | 必须本地 |
离线环境 | ✅ 唯一选择 | ❌ 不可用 | 必须本地 |
高并发服务 | ⚠️ 需 vLLM 优化 | ✅ 弹性扩展 | 云端更省心 |
微调定制模型 | ✅ Unsloth 支持 | ⚠️ 成本高 | 本地更灵活 |
Gemma 4 的本地部署现在已经相当成熟。无论你是技术背景还是非技术人员,都能在几分钟内跑起来。
快速选型指南:
• 想快速体验 → LM Studio,图形界面,下载安装就能用
• 要开发集成 → Ollama,API 稳定,兼容 OpenAI 格式
• 需要微调或内存吃紧 → Unsloth,内存效率最高,还能训练
硬件选择建议:
• 8GB RAM 笔记本 → E4B,日常对话够用
• 16GB RAM / 16GB VRAM 显卡 → 26B MoE,性价比最高
• 24GB+ VRAM / 48GB+ Mac → 31B Dense,最强推理能力
什么时候选本地?
• 数据隐私要求高,不能离开本地
• 需要离线环境工作
• API 调用量大,成本敏感
• 想做模型微调
什么时候选云端?
• 需要处理超长上下文(100K+)
• 复杂多步推理任务
• 高并发、低延迟服务
• 不想折腾硬件
本地部署让你拥有完全私密的 AI 助手,不受 API 限流和定价影响,数据永远不离开你的设备。这不仅是成本优化,更是数据主权的体现。
官方文档
• Google DeepMind Gemma 4 官方页面 https://deepmind.google/models/gemma/gemma-4/
• Ollama Gemma 4 模型页 https://ollama.com/library/gemma4
• HuggingFace Gemma 4 模型卡 https://huggingface.co/google/gemma-4-4b-it
部署教程
• Gemma 4 本地部署教学 - CloudInsight https://cloudinsight.cc/zh/blog/gemma-4-local-deployment
• Gemma 4 + Ollama + OpenClaw 本地 AI Agent 教程 - ABMedia https://abmedia.io/gemma-4-ollama-openclaw-local-ai-agent-tutorial
• Gemma 4 本地部署对接 Claude Code 实测 - 腾讯云开发者社区 https://cloud.tencent.com/developer/article/2651403
工具链接
• Ollama 官网:https://ollama.com
• LM Studio 官网:https://lmstudio.ai
• Unsloth GitHub:https://github.com/unslothai/unsloth
• vLLM 文档:https://docs.vllm.ai
• OpenClaw GitHub:https://github.com/openclaw/openclaw
• Continue.dev 官网:https://continue.dev
• Cherry Studio 官网:https://cherry-ai.com