本地零成本运行顶级开源模型：Gemma 4 部署全指南

阿特拉斯

发布于 2026-06-15 18:23:03

1140

Google 于 2026 年 4 月发布了最新的开源模型 Gemma 4，这是目前最强大的开源模型系列之一，其 31B 版本在全球开源模型排行榜上位居第三。更重要的是，Gemma 4 完全开源免费，支持本地部署，让你可以在自己的硬件上运行最先进的 AI 模型。

本文将详细介绍三种主流的本地部署方式，帮助你在笔记本或台式机上搭建完全私密、零 API 成本的 AI 环境。

Gemma 4：你应该知道的技术特性

在动手部署之前，先了解 Gemma 4 的核心特性，这能帮你选择合适的模型版本。

与上一代对比

Gemma 4 相比 Gemma 3 有多项重要升级：

• 上下文窗口：从 32K 扩展到 128K，可处理更长的文档

• 多模态：全系列原生支持图像输入，不再仅限特定版本

• 思考模式：新增可配置的 Chain-of-Thought 推理能力

• 架构：引入 MoE（Mixture of Experts）混合架构

• 工具调用：原生支持 Function Calling

• 语言覆盖：支持语言数量从 80+ 增加到 140+

模型命名规则

Gemma 4 的版本命名可能会让人困惑，这里解释一下：

• E 系列（E2B、E4B）：E 代表 Efficient，轻量版模型，专为边缘设备优化。E2B 仅 2.3B 参数，可以在手机甚至 Raspberry Pi 上运行。

• 26B MoE：采用 Mixture of Experts 架构，总参数 26B，但每次推理只激活约 3.8B 参数（因此也称为 A4B，A = Activated）。这让它既有大模型的能力，又有小模型的速度。

• 31B Dense：完整版密集模型，拥有最强推理能力，但也需要最强的硬件。

MoE（Mixture of Experts）架构的优势在于推理效率。26B MoE 总参数 26B，但每次推理只激活约 4B 参数（因此也称为 A4B，Activated 4B）。这意味着它在保持大模型能力的同时，推理成本接近 4B 模型。

关键能力

128K 上下文窗口：可以处理约 10 万字中文或 20 万字英文。这意味着你可以把整本书、完整的代码仓库、或者长篇技术文档一次性喂给模型。

多模态理解：全系列支持图像输入。截图问 Bug、分析图表、读取文档图片，都能直接处理。

可配置思考模式：Gemma 4 内置了 Chain-of-Thought 推理能力。你可以让它「先思考再回答」，对于数学、逻辑推理类任务效果显著提升。

Function Calling：原生支持工具调用，可以对接外部 API、数据库查询、代码执行等。这对于构建 AI Agent 非常关键。

性能基准

根据官方信息，Gemma 4 在多个基准测试中表现优异。26B MoE 版本在保持轻量化的同时，性能已接近一些 70B 级别的模型。

主要优势领域：

• 通用知识问答（MMLU）

• 代码生成（HumanEval）

• 数学推理（GSM8K、MATH）

• 多语言理解

具体数值请参考 Google DeepMind 官方页面 (https://deepmind.google/models/gemma/gemma-4/) 和 HuggingFace 模型卡 (https://huggingface.co/google/gemma-4-4b-it)。

为什么选择本地部署 Gemma 4？

在开始之前，先想清楚一个问题：你真的需要本地部署吗？如果你只是偶尔使用，Google AI Studio 或 Vertex AI 的 API 可能更省事。但如果你符合以下任何场景，本地部署就是正确的选择。

数据隐私与合规

医疗、金融、法律等敏感行业的数据不能离开公司网络。本地部署意味着你的 prompt 和响应永远不会经过第三方服务器，GDPR、HIPAA、个人信息保护法等法规要求自动合规。

离线可用

飞机上、偏远工地、网络不稳定的工厂环境——本地部署让你在完全离线的环境下也能使用 AI。有用户在离岸风电平台上用 Gemma 4 E4B 做设备检测报告，完全不需要网络连接。

零 API 成本

API 按 token 计费，用量一大就很惊人。本地部署的边际成本几乎为零——硬件是一次性投资，电费可以忽略不计。如果你每天要处理几十万 token 的推理量，本地部署三个月就能回本。

硬件需求：你的机器能跑哪个版本？

动手之前，先确认你的硬件能跑哪个版本。选错模型版本，轻则跑得慢，重则直接 OOM 崩溃。

模型版本概览

Gemma 4 提供多种规模，满足不同硬件条件的需求：

模型	参数量	下载大小（Q4）	VRAM 需求	上下文	推荐硬件
E2B	2.3B	1.5 GB	~2 GB	128K	手机、Raspberry Pi
E4B	4.3B	3 GB	~4 GB	128K	8GB RAM 笔记本
26B MoE	26B	18 GB	~20 GB	256K	RTX 4060 Ti 16GB / M3 24GB
31B Dense	31B	20 GB	~24 GB	256K	RTX 4090 24GB / M4 Pro 48GB

下载大小为估算值，实际 Ollama 下载大小会略大（包含 tokenizer 等）。VRAM 需求为运行时显存估算，实际需求会因上下文长度和量化版本有所不同。26B MoE 的 VRAM 需求约为 16-20 GB，取决于上下文长度设置。

E 系列是 Gemma 4 的轻量版本，E 代表 Efficient，专为边缘设备优化。26B MoE（实际参数约 27B）采用混合专家架构，实际推理时只激活约 3.8B 参数，在保持高性能的同时大幅降低资源消耗。31B Dense 是完整版本，拥有最强的推理能力。

关键技术特性

• 128K 上下文窗口：支持超长文本处理

• 多模态能力：全系列支持图像理解

• 可配置思考模式：内置 Chain-of-Thought 推理

• 多语言支持：支持 140+ 种语言

方式一：Ollama 快速部署（推荐新手）

Ollama 是目前最简单的本地 LLM 部署工具，没有之一。一行命令安装，一行命令下载模型，一行命令开始对话。如果你是开发者，这是最推荐的起步方式。

安装 Ollama

macOS：

curl -fsSL https://ollama.com/install.sh | sh

brew install ollama

Linux：

curl -fsSL https://ollama.com/install.sh | sh

Windows：

访问 ollama.com (https://ollama.com) 下载 .exe 安装文件，双击运行即可。

安装完成后，Ollama 会自动启动后台服务，默认监听 localhost:11434。

下载 Gemma 4 模型

ollama pull gemma4:e4b

ollama pull gemma4:26b

ollama pull gemma4:e2b

下载时间取决于网速。E4B 约 3 GB（Q4 量化），100Mbps 网络约 4 分钟；26B 约 18 GB，需要更长时间。

开始对话

ollama run gemma4:e4b

ollama run gemma4:e4b --verbose

你会看到一个交互式的聊天界面。输入问题，模型就会回答。按 Ctrl+D 退出。

API 集成

Ollama 内置 OpenAI 兼容的 API server，你的代码几乎不用改：

curl http://localhost:11434/v1/chat/completions \

-H "Content-Type: application/json" \

-d '{

"model": "gemma4:e4b",

"messages": [{"role": "user", "content": "用三句话解释量子电脑"}]

from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

response = client.chat.completions.create(

model="gemma4:e4b",

messages=[{"role": "user", "content": "用三句话解释量子电脑"}]

)

print(response.choices[0].message.content)

量化版本选择

Ollama 默认下载 Q4_K_M 量化版本，对大多数场景已足够。如果需要更高品质：

ollama pull gemma4:26b-q8_0 # 8-bit，品质更好但需要更多 VRAM

ollama pull gemma4:e4b-fp16 # 完整精度，需要 8.6GB VRAM

Ollama 优点： 安装最简单、社区最大、API 兼容性好、模型库丰富。

Ollama 缺点： 没有 GUI、高级设置需要写 Modelfile、不支持微调。

方式二：LM Studio 图形化界面（最易上手）

不是每个人都喜欢在终端里敲命令。如果你是产品经理、设计师，或只是想快速体验 Gemma 4 的非技术人员，LM Studio 是最好的选择。

安装 LM Studio

访问 lmstudio.ai (https://lmstudio.ai) 下载对应操作系统的安装文件。支持 macOS、Windows 和 Linux。

安装过程跟装普通桌面应用一样——下一步、下一步、完成。

搜索并下载模型

1. 打开 LM Studio

2. 点击左侧的「Discover」标签

3. 在搜索栏输入 gemma-4

4. 你会看到 Unsloth 提供的各种量化版本（GGUF 格式）

5. 根据你的内存选择合适的版本，点击「Download」

推荐选择：

• 8GB RAM 机器 → gemma-4-E4B-it-GGUF (Q4_K_M)

• 16GB+ RAM 机器 → gemma-4-26B-A4B-it-GGUF (Q4_K_M)

加载模型并设置参数

1. 点击左侧的「Chat」标签

2. 在上方模型选择器中选择刚下载的模型

3. 右侧面板可以调整参数： - Context Length：默认 4096，Gemma 4 小模型支持到 128K - Temperature：创意任务调高（0.7-1.0），精确任务调低（0.1-0.3） - GPU Offload：有独显的话拉到最大值，把运算全交给 GPU

开始对话（LM Studio）

直接在聊天框输入问题即可。LM Studio 还支持：

• 多模态输入：直接拖图片到聊天框，Gemma 4 全系列都支持图像理解

• System Prompt：在设置面板中定义模型的角色和行为

• 对话记录：自动保存，下次打开可以继续

作为 API Server 使用

LM Studio 也能当本地 API server，与 Ollama 一样提供 OpenAI 兼容接口：

1. 点击左侧的「Developer」标签

2. 选择模型，点击「Start Server」

3. 默认地址是 http://localhost:1234/v1

curl http://localhost:1234/v1/chat/completions \

-H "Content-Type: application/json" \

-d '{

"model": "gemma-4-e4b-it",

"messages": [{"role": "user", "content": "Hello!"}]

LM Studio 优点： 图形化操作零门槛、模型浏览器方便搜索和下载、支持多模态、可当 API server。

LM Studio 缺点： 占用系统资源比 Ollama 多（Electron 应用）、不支持微调、高级用户可能觉得 GUI 多余。

方式三：Unsloth 推理与微调环境

如果你的目标是做微调、量化，或在内存受限的环境下榨出最高性能，Unsloth 是正确的选择。

Unsloth 在 Gemma 4 发布当天就提供了完整支持，包括预量化的 GGUF 和 MLX 格式模型。它的 MLX 版本在 Apple Silicon 上比 Ollama 节省约 40% 的内存，代价是推理速度慢 15-20%。

安装 Unsloth

python3 -m venv unsloth-env

source unsloth-env/bin/activate

pip install unsloth

如果使用 NVIDIA GPU，确保已安装 CUDA toolkit。Unsloth 支持 CUDA 11.8+。

使用 Unsloth 进行推理

from unsloth import FastLanguageModel

model, tokenizer = FastLanguageModel.from_pretrained(

model_name="unsloth/gemma-4-E4B-it",

max_seq_length=4096,

load_in_4bit=True, # 4-bit 量化

)

FastLanguageModel.for_inference(model)

messages = [{"role": "user", "content": "解释 LoRA 微调的原理"}]

inputs = tokenizer.apply_chat_template(

messages, tokenize=True, add_generation_prompt=True, return_tensors="pt"

).to("cuda")

outputs = model.generate(input_ids=inputs, max_new_tokens=512)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

使用 vLLM 进行生产级推理

如果要服务多个用户，vLLM 的批量推理性能远超简单的 Transformers 推理：

pip install vllm

vllm serve unsloth/gemma-4-26B-A4B-it-GGUF \

--quantization awq \

--max-model-len 8192 \

--gpu-memory-utilization 0.9

vLLM 的 continuous batching 和 PagedAttention 在处理多个并发请求时，吞吐量比简单的推理方式高出 3-5 倍。

从推理无缝切换到微调

Unsloth 最大的优势就在这里——同一个框架，从推理到微调不需要切换工具：

from unsloth import FastLanguageModel

import torch

model, tokenizer = FastLanguageModel.from_pretrained(

model_name="unsloth/gemma-4-E4B-it",

max_seq_length=2048,

load_in_4bit=True,

)

model = FastLanguageModel.get_peft_model(

model,

r=16,

lora_alpha=16,

target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],

)

Unsloth 优点： 内存效率最高、支持推理到微调的完整流程、MLX 优化让 Mac 性能更好、社区活跃。

Unsloth 缺点： 需要 Python 环境、配置比较复杂、不适合非技术用户。

三种方式选择指南

比较项目	Ollama	LM Studio	Unsloth
上手难度	低（一行命令）	最低（图形化）	中高（需 Python）
安装时间	2 分钟	3 分钟	10-15 分钟
内存效率	中	中	高（省 ~40%）
推理速度	快	快	中（MLX 慢 15-20%）
API 兼容	OpenAI 兼容	OpenAI 兼容	需搭配 vLLM
GUI 界面	无	有	无
微调支持	不支持	不支持	原生支持
多模态	支持	支持（拖放图片）	支持
适合人群	开发者、CLI 爱好者	非技术人员、快速体验	ML 工程师、需要微调

我的建议：

• 「我只想快速试一下」 → LM Studio。下载、安装、搜索模型、开始聊天。五分钟，不需要打任何命令。

• 「我要整合到我的应用里」 → Ollama。API 最稳定、社区资源最多、Docker 部署也方便。

• 「我要微调或内存很吃紧」 → Unsloth。省 40% 内存不是开玩笑的，而且微调流程一条龙。

常见问题排除

OOM（Out of Memory）错误

这是最常见的问题。症状通常是模型加载到一半就崩溃，或推理到一半被终止。

解决方案：

1. 换更小的量化版本：从 Q8 换到 Q4_K_M，或从 Q4 换到 Q3_K_S

2. 降低 context length：把 context window 从 128K 降到 8K 或 4K

3. 关闭其他占用内存的程序：Chrome 是最大的内存消耗者

4. 增加 swap space：Linux 上可以临时增加 swap，虽然会变慢但至少能跑

nvidia-smi # NVIDIA GPU

ollama ps # 查看 Ollama 加载了哪些模型

推理速度太慢

如果模型能跑但速度不理想（低于 10 tok/s），试试以下方法：

1. 确认 GPU 有被使用：nvidia-smi 查看 GPU utilization，如果是 0% 代表模型跑在 CPU 上

2. 在 Ollama 中增加 GPU layers：创建 Modelfile 设置 num_gpu 参数

3. 用更激进的量化：Q4_K_S 比 Q4_K_M 快约 10-15%

4. Mac 用户用 MLX 版本：比 llama.cpp 后端快 30-50%

模型下载失败或中断

如果 Hugging Face 下载速度太慢，可以用 hf_transfer 加速：

pip install hf_transfer

export HF_TRANSFER=1

模型输出乱码或质量异常

通常是量化版本的问题。Q2、Q3 的低位元量化在某些任务上质量下降明显。解决方法是换 Q4_K_M 以上的版本，或者加上 system prompt 来稳定输出格式。

本地模型集成实战：从编程助手到 AI Agent

本地部署的 Gemma 4 能用来做什么？除了直接对话，最实用的场景是集成到开发工具和工作流中。这里介绍几个典型的集成案例。

场景一：替代 Claude Code 做编程助手

有人尝试用 Gemma 4 本地模型替代 Claude Code 等云端 AI 编程助手，实测结果如何？

测试环境

M4 Max 128GB，26B A4B 模型

指标	本地 Gemma 4	云端 Claude
系统提示词占用	~29K tokens	无限制
生成速度	~14 tok/s	~50+ tok/s
首次响应延迟	数十秒	<1 秒
上下文限制	32K（实际可用）	200K+
复杂推理质量	中等	优秀
成本	免费（硬件折旧）	$20-200/月

结论：本地模型适合轻量对话场景，但 Claude Code 这类重型编程场景仍需云端支持。主要原因：

1. 上下文窗口压力：大型项目的系统提示词可能超过本地模型的上下文限制

2. 响应延迟：本地模型的 prefill 时间明显长于云端 API

3. 推理质量：即使是 31B 版本，在复杂编程任务上仍不如云端顶级模型

不过，对于简单的代码补全、文档查询、单文件修改等任务，本地部署完全够用，而且零成本、零网络延迟。

场景二：用 OpenClaw 搭建本地 AI Agent

OpenClaw 是一个开源的 AI Agent 框架，可以配合本地模型实现完全离线的自动化工作流。

安装 OpenClaw：

git clone https://github.com/openclaw/openclaw.git

cd openclaw

pip install -r requirements.txt

export OPENAI_API_BASE=http://localhost:11434/v1

export OPENAI_API_KEY=ollama

export OPENAI_MODEL=gemma4:26b

使用示例：让 Agent 自动整理文件：

from openclaw import Agent

agent = Agent(

model="gemma4:26b",

base_url="http://localhost:11434/v1"

)

result = agent.run("帮我整理 Downloads 文件夹，按文件类型分类")

print(result)

OpenClaw 支持的工具包括：文件操作、网页搜索、代码执行、API 调用等。配合 Gemma 4 的 Function Calling 能力，可以实现相当复杂的自动化流程。

注意事项：

• 26B MoE 版本在复杂多步任务上表现更好

• 需要调整 temperature 到较低值（0.1-0.3）以获得更稳定的输出

• 首次运行时 prefill 较慢，后续会快很多

场景三：Continue.dev 本地代码补全

Continue 是 VS Code 和 JetBrains 的 AI 编程助手插件，支持连接本地模型。

配置步骤：

1. 安装 Continue 插件（VS Code 扩展市场搜索「Continue」）

2. 打开设置，添加 Ollama 作为模型提供者：

{

"models": [

{

"title": "Gemma 4 E4B",

"provider": "ollama",

"model": "gemma4:e4b",

"apiBase": "http://localhost:11434/v1"

}

"tabAutocompleteModel": {

"title": "Gemma 4 E2B",

"provider": "ollama",

"model": "gemma4:e2b",

"apiBase": "http://localhost:11434/v1"

}

1. 重启 VS Code，开始使用

推荐配置：

• 用 E2B 做自动补全（速度快）

• 用 E4B 或 26B 做对话问答（质量高）

场景四：Cherry Studio 桌面聊天应用

Cherry Studio 是一个支持多模型切换的桌面聊天应用，界面友好，适合日常使用。

配置方法：

1. 下载安装 Cherry Studio (https://cherry-ai.com)

2. 进入设置 → 模型提供者

3. 添加 Ollama： - API 地址：http://localhost:11434/v1 - API Key：任意（如 ollama）

4. 选择模型开始对话

Cherry Studio 的优势：

• 支持多模态（可以发图片给 Gemma 4 分析）

• 支持多轮对话历史管理

• 支持导出对话记录

• 支持 Prompt 模板

场景五：LangChain/LlamaIndex 集成

如果你在构建 AI 应用，可以通过 LangChain 或 LlamaIndex 集成本地 Gemma 4。

LangChain 示例：

from langchain_community.llms import Ollama

from langchain_core.prompts import ChatPromptTemplate

llm = Ollama(model="gemma4:26b")

prompt = ChatPromptTemplate.from_messages([

("system", "你是一个专业的技术文档写作助手。"),

("user", "{input}")

])

chain = prompt | llm

response = chain.invoke({"input": "帮我写一个 Python 快速排序的文档"})

print(response)

LlamaIndex 示例（RAG 应用）：

from llama_index.llms.ollama import Ollama

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader

documents = SimpleDirectoryReader("./docs").load_data()

llm = Ollama(model="gemma4:e4b", request_timeout=60.0)

index = VectorStoreIndex.from_documents(documents)

query_engine = index.as_query_engine(llm=llm)

response = query_engine.query("这份文档的主要观点是什么？")

print(response)

性能对比：本地 vs 云端

最后给一个综合对比，帮助判断是否值得本地部署：

场景	本地 Gemma 4	云端 API	建议
日常对话、简单问答	✅ 够用	✅ 更好	本地可省钱
代码补全	✅ 够用	✅ 更好	本地用 E2B
长文档分析	⚠️ 受上下文限制	✅ 无限制	云端更稳
复杂推理、多步任务	⚠️ 质量中等	✅ 质量高	看预算
敏感数据处理	✅ 隐私安全	⚠️ 需评估	必须本地
离线环境	✅ 唯一选择	❌ 不可用	必须本地
高并发服务	⚠️ 需 vLLM 优化	✅ 弹性扩展	云端更省心
微调定制模型	✅ Unsloth 支持	⚠️ 成本高	本地更灵活

总结

Gemma 4 的本地部署现在已经相当成熟。无论你是技术背景还是非技术人员，都能在几分钟内跑起来。

快速选型指南：

• 想快速体验 → LM Studio，图形界面，下载安装就能用

• 要开发集成 → Ollama，API 稳定，兼容 OpenAI 格式

• 需要微调或内存吃紧 → Unsloth，内存效率最高，还能训练

硬件选择建议：

• 8GB RAM 笔记本 → E4B，日常对话够用

• 16GB RAM / 16GB VRAM 显卡 → 26B MoE，性价比最高

• 24GB+ VRAM / 48GB+ Mac → 31B Dense，最强推理能力

什么时候选本地？

• 数据隐私要求高，不能离开本地

• 需要离线环境工作

• API 调用量大，成本敏感

• 想做模型微调

什么时候选云端？

• 需要处理超长上下文（100K+）

• 复杂多步推理任务

• 高并发、低延迟服务

• 不想折腾硬件

本地部署让你拥有完全私密的 AI 助手，不受 API 限流和定价影响，数据永远不离开你的设备。这不仅是成本优化，更是数据主权的体现。

参考资料

官方文档

• Google DeepMind Gemma 4 官方页面 https://deepmind.google/models/gemma/gemma-4/

• Ollama Gemma 4 模型页 https://ollama.com/library/gemma4

• HuggingFace Gemma 4 模型卡 https://huggingface.co/google/gemma-4-4b-it

部署教程

• Gemma 4 本地部署教学 - CloudInsight https://cloudinsight.cc/zh/blog/gemma-4-local-deployment

• Gemma 4 + Ollama + OpenClaw 本地 AI Agent 教程 - ABMedia https://abmedia.io/gemma-4-ollama-openclaw-local-ai-agent-tutorial

• Gemma 4 本地部署对接 Claude Code 实测 - 腾讯云开发者社区 https://cloud.tencent.com/developer/article/2651403

工具链接

• Ollama 官网：https://ollama.com

• LM Studio 官网：https://lmstudio.ai

• Unsloth GitHub：https://github.com/unslothai/unsloth

• vLLM 文档：https://docs.vllm.ai

• OpenClaw GitHub：https://github.com/openclaw/openclaw

• Continue.dev 官网：https://continue.dev

• Cherry Studio 官网：https://cherry-ai.com

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-05-21，如有侵权请联系 cloudcommunity@tencent.com 删除

开源

本文分享自超级AI技术微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！