OpenClaw + 离线 Gemma 4：省Token，保隐私

Henry Zhang

发布于 2026-04-13 16:48:34

1950

题图摄于奥林匹克公园南门

（今天写篇短的笔记）

智能体应用要烧 Token，大家都已经达成共识。自从 Gemma 4 发布后，“平民版”的方案成为了可能。

之前文章介绍过谷歌 Gemma 4，最大的优点是不挑食——低端设备也能跑，就像一辆加 92 号汽油就能跑的小货车，不用非得喂 98 号油。

那对于企业用户来说，DeepSeek 满血版的部署硬件要几十上百万，像是请了个“米其林大厨”天天在厨房站着，光出场费就吓死人。而 Gemma 4 就亲民多了，部署成本低，还能把数据锁在自己家里，对智能体应用来说，真的挺香。

不少读者后台问我：能不能用OpenClaw（龙虾）接上离线的 Gemma 4？ 大家的想法很一致——就是想省点 Token 钱。答案是：完全可以。

今天快速记录一下部署过程，给大家当个“菜谱”参考。文中用的是 Ollama，适合测试玩一玩。真要上生产环境跑应用，可以考虑 vLLM 这类更稳的方案。

硬件怎么搭？

32GB以上内存的机器：可以把OpenClaw和Ollama放同一台机器上，省事。
只有16GB内存：建议分两台机器装，不然就像小马拉大车，跑起来费劲。

部署步骤：

Ollama 跑模型就几条命令，具体步骤之前文章讲过，这里不再重复。

模型跑起来之后，OpenClaw 这边要配置 Gemma 4 大模型。主要改两个地方：

1. provider 的配置

2. agent.defaults.models 的模型配置

Provider配置：

把 Ollama 的端点地址写对：

"models":{

"providers":{

"ollama":{

"baseUrl":"http://IP_address:11434",

"apiKey":"ollama-local",

"api":"ollama",

"models":[

{

"id":"gemma4:e2b",

"name":"gemma4:e2b",

"reasoning":false,

"input":["text"],

"cost":{ input:0, output:0, cacheRead:0, cacheWrite:0},

"contextWindow":12800,

"maxTokens":1000

}

]

}

Agent模型配置：

"agents":{

"defaults":{

"model":{

"primary":"ollama/gemma4:e2b"

"models":{

"ollama/gemma4:e2b":{}

}

两个关键点，容易翻车的地方

contextWindow 和 maxTokens：一开始可以设小一点，比如上面给的12800 和 1000，后面看你内存情况慢慢往上加。别一上来就贪多，小心内存爆炸。
baseUrl：IP地址要写 Ollama 真正监听的地址。Ollama默认只监听127.0.0.1（相当于只让自己家的程序访问）。如果要跨机器访问模型，得让它“开门迎客”，用类似下面的命令： export OLLAMA_HOST=168.162.1.2 ollama serve

apiKey：随便写个字符串就行，反正这里不校验（也就是说是免费的）。

配置完成后，重启 OpenClaw gateway 就生效了。最简单的验证方式是用图形界面（GUI）或字符界面 TUI 测一下 Gemma 4 能不能正常跑起来。

由于时间关系，我只是跑通了配置，没做深度性能测试。根据现有资料，Gemma 4 不是那种“智商碾压”的模型，但应付大多数不太复杂的任务绰绰有余。就像一个踏实能干的普通员工，不一定会写诗，但日常活干得挺稳。

如果你已经测试过性能，欢迎评论区分享反馈，大家一起少走弯路。

一句话总结： 想省钱、保隐私、跑轻量智能体？OpenClaw + 离线Gemma 4 这套组合拳，值得试试。

欢迎关注 亨利笔记， 👍 点赞 | ⭐ 收藏 | ↗️ 转发。欢迎评论区聊聊你的看法。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-04-08，如有侵权请联系 cloudcommunity@tencent.com 删除

隐私