首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >本地零成本运行顶级开源模型:Gemma 4 部署全指南

本地零成本运行顶级开源模型:Gemma 4 部署全指南

作者头像
阿特拉斯
发布2026-06-15 18:23:03
发布2026-06-15 18:23:03
1140
举报

Google 于 2026 年 4 月发布了最新的开源模型 Gemma 4,这是目前最强大的开源模型系列之一,其 31B 版本在全球开源模型排行榜上位居第三。更重要的是,Gemma 4 完全开源免费,支持本地部署,让你可以在自己的硬件上运行最先进的 AI 模型。

本文将详细介绍三种主流的本地部署方式,帮助你在笔记本或台式机上搭建完全私密、零 API 成本的 AI 环境。

Gemma 4:你应该知道的技术特性

在动手部署之前,先了解 Gemma 4 的核心特性,这能帮你选择合适的模型版本。

与上一代对比

Gemma 4 相比 Gemma 3 有多项重要升级:

上下文窗口:从 32K 扩展到 128K,可处理更长的文档

多模态:全系列原生支持图像输入,不再仅限特定版本

思考模式:新增可配置的 Chain-of-Thought 推理能力

架构:引入 MoE(Mixture of Experts)混合架构

工具调用:原生支持 Function Calling

语言覆盖:支持语言数量从 80+ 增加到 140+

模型命名规则

Gemma 4 的版本命名可能会让人困惑,这里解释一下:

E 系列(E2B、E4B):E 代表 Efficient,轻量版模型,专为边缘设备优化。E2B 仅 2.3B 参数,可以在手机甚至 Raspberry Pi 上运行。

26B MoE:采用 Mixture of Experts 架构,总参数 26B,但每次推理只激活约 3.8B 参数(因此也称为 A4B,A = Activated)。这让它既有大模型的能力,又有小模型的速度。

31B Dense:完整版密集模型,拥有最强推理能力,但也需要最强的硬件。

MoE(Mixture of Experts)架构的优势在于推理效率。26B MoE 总参数 26B,但每次推理只激活约 4B 参数(因此也称为 A4B,Activated 4B)。这意味着它在保持大模型能力的同时,推理成本接近 4B 模型。

关键能力

128K 上下文窗口:可以处理约 10 万字中文或 20 万字英文。这意味着你可以把整本书、完整的代码仓库、或者长篇技术文档一次性喂给模型。

多模态理解:全系列支持图像输入。截图问 Bug、分析图表、读取文档图片,都能直接处理。

可配置思考模式:Gemma 4 内置了 Chain-of-Thought 推理能力。你可以让它「先思考再回答」,对于数学、逻辑推理类任务效果显著提升。

Function Calling:原生支持工具调用,可以对接外部 API、数据库查询、代码执行等。这对于构建 AI Agent 非常关键。

性能基准

根据官方信息,Gemma 4 在多个基准测试中表现优异。26B MoE 版本在保持轻量化的同时,性能已接近一些 70B 级别的模型。

主要优势领域

• 通用知识问答(MMLU)

• 代码生成(HumanEval)

• 数学推理(GSM8K、MATH)

• 多语言理解

具体数值请参考 Google DeepMind 官方页面 (https://deepmind.google/models/gemma/gemma-4/) 和 HuggingFace 模型卡 (https://huggingface.co/google/gemma-4-4b-it)。

为什么选择本地部署 Gemma 4?

在开始之前,先想清楚一个问题:你真的需要本地部署吗?如果你只是偶尔使用,Google AI Studio 或 Vertex AI 的 API 可能更省事。但如果你符合以下任何场景,本地部署就是正确的选择。

数据隐私与合规

医疗、金融、法律等敏感行业的数据不能离开公司网络。本地部署意味着你的 prompt 和响应永远不会经过第三方服务器,GDPR、HIPAA、个人信息保护法等法规要求自动合规。

离线可用

飞机上、偏远工地、网络不稳定的工厂环境——本地部署让你在完全离线的环境下也能使用 AI。有用户在离岸风电平台上用 Gemma 4 E4B 做设备检测报告,完全不需要网络连接。

零 API 成本

API 按 token 计费,用量一大就很惊人。本地部署的边际成本几乎为零——硬件是一次性投资,电费可以忽略不计。如果你每天要处理几十万 token 的推理量,本地部署三个月就能回本。

硬件需求:你的机器能跑哪个版本?

动手之前,先确认你的硬件能跑哪个版本。选错模型版本,轻则跑得慢,重则直接 OOM 崩溃。

模型版本概览

Gemma 4 提供多种规模,满足不同硬件条件的需求:

模型

参数量

下载大小(Q4)

VRAM 需求

上下文

推荐硬件

E2B

2.3B

1.5 GB

~2 GB

128K

手机、Raspberry Pi

E4B

4.3B

3 GB

~4 GB

128K

8GB RAM 笔记本

26B MoE

26B

18 GB

~20 GB

256K

RTX 4060 Ti 16GB / M3 24GB

31B Dense

31B

20 GB

~24 GB

256K

RTX 4090 24GB / M4 Pro 48GB

下载大小为估算值,实际 Ollama 下载大小会略大(包含 tokenizer 等)。VRAM 需求为运行时显存估算,实际需求会因上下文长度和量化版本有所不同。26B MoE 的 VRAM 需求约为 16-20 GB,取决于上下文长度设置。

E 系列是 Gemma 4 的轻量版本,E 代表 Efficient,专为边缘设备优化。26B MoE(实际参数约 27B)采用混合专家架构,实际推理时只激活约 3.8B 参数,在保持高性能的同时大幅降低资源消耗。31B Dense 是完整版本,拥有最强的推理能力。

关键技术特性

128K 上下文窗口:支持超长文本处理

多模态能力:全系列支持图像理解

可配置思考模式:内置 Chain-of-Thought 推理

多语言支持:支持 140+ 种语言

方式一:Ollama 快速部署(推荐新手)

Ollama 是目前最简单的本地 LLM 部署工具,没有之一。一行命令安装,一行命令下载模型,一行命令开始对话。如果你是开发者,这是最推荐的起步方式。

安装 Ollama

macOS:

curl -fsSL https://ollama.com/install.sh | sh

brew install ollama

Linux:

curl -fsSL https://ollama.com/install.sh | sh

Windows:

访问 ollama.com (https://ollama.com) 下载 .exe 安装文件,双击运行即可。

安装完成后,Ollama 会自动启动后台服务,默认监听 localhost:11434

下载 Gemma 4 模型

ollama pull gemma4:e4b

ollama pull gemma4:26b

ollama pull gemma4:e2b

下载时间取决于网速。E4B 约 3 GB(Q4 量化),100Mbps 网络约 4 分钟;26B 约 18 GB,需要更长时间。

开始对话

ollama run gemma4:e4b

ollama run gemma4:e4b --verbose

你会看到一个交互式的聊天界面。输入问题,模型就会回答。按 Ctrl+D 退出。

API 集成

Ollama 内置 OpenAI 兼容的 API server,你的代码几乎不用改:

curl http://localhost:11434/v1/chat/completions \

-H "Content-Type: application/json" \

-d '{

"model": "gemma4:e4b",

"messages": [{"role": "user", "content": "用三句话解释量子电脑"}]

}'

from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

response = client.chat.completions.create(

model="gemma4:e4b",

messages=[{"role": "user", "content": "用三句话解释量子电脑"}]

)

print(response.choices[0].message.content)

量化版本选择

Ollama 默认下载 Q4_K_M 量化版本,对大多数场景已足够。如果需要更高品质:

ollama pull gemma4:26b-q8_0 # 8-bit,品质更好但需要更多 VRAM

ollama pull gemma4:e4b-fp16 # 完整精度,需要 8.6GB VRAM

Ollama 优点: 安装最简单、社区最大、API 兼容性好、模型库丰富。

Ollama 缺点: 没有 GUI、高级设置需要写 Modelfile、不支持微调。

方式二:LM Studio 图形化界面(最易上手)

不是每个人都喜欢在终端里敲命令。如果你是产品经理、设计师,或只是想快速体验 Gemma 4 的非技术人员,LM Studio 是最好的选择。

安装 LM Studio

访问 lmstudio.ai (https://lmstudio.ai) 下载对应操作系统的安装文件。支持 macOS、Windows 和 Linux。

安装过程跟装普通桌面应用一样——下一步、下一步、完成。

搜索并下载模型

1. 打开 LM Studio

2. 点击左侧的「Discover」标签

3. 在搜索栏输入 gemma-4

4. 你会看到 Unsloth 提供的各种量化版本(GGUF 格式)

5. 根据你的内存选择合适的版本,点击「Download」

推荐选择:

• 8GB RAM 机器 → gemma-4-E4B-it-GGUF (Q4_K_M)

• 16GB+ RAM 机器 → gemma-4-26B-A4B-it-GGUF (Q4_K_M)

加载模型并设置参数

1. 点击左侧的「Chat」标签

2. 在上方模型选择器中选择刚下载的模型

3. 右侧面板可以调整参数: - Context Length:默认 4096,Gemma 4 小模型支持到 128K - Temperature:创意任务调高(0.7-1.0),精确任务调低(0.1-0.3) - GPU Offload:有独显的话拉到最大值,把运算全交给 GPU

开始对话(LM Studio)

直接在聊天框输入问题即可。LM Studio 还支持:

多模态输入:直接拖图片到聊天框,Gemma 4 全系列都支持图像理解

System Prompt:在设置面板中定义模型的角色和行为

对话记录:自动保存,下次打开可以继续

作为 API Server 使用

LM Studio 也能当本地 API server,与 Ollama 一样提供 OpenAI 兼容接口:

1. 点击左侧的「Developer」标签

2. 选择模型,点击「Start Server」

3. 默认地址是 http://localhost:1234/v1

curl http://localhost:1234/v1/chat/completions \

-H "Content-Type: application/json" \

-d '{

"model": "gemma-4-e4b-it",

"messages": [{"role": "user", "content": "Hello!"}]

}'

LM Studio 优点: 图形化操作零门槛、模型浏览器方便搜索和下载、支持多模态、可当 API server。

LM Studio 缺点: 占用系统资源比 Ollama 多(Electron 应用)、不支持微调、高级用户可能觉得 GUI 多余。

方式三:Unsloth 推理与微调环境

如果你的目标是做微调、量化,或在内存受限的环境下榨出最高性能,Unsloth 是正确的选择。

Unsloth 在 Gemma 4 发布当天就提供了完整支持,包括预量化的 GGUF 和 MLX 格式模型。它的 MLX 版本在 Apple Silicon 上比 Ollama 节省约 40% 的内存,代价是推理速度慢 15-20%。

安装 Unsloth

python3 -m venv unsloth-env

source unsloth-env/bin/activate

pip install unsloth

如果使用 NVIDIA GPU,确保已安装 CUDA toolkit。Unsloth 支持 CUDA 11.8+。

使用 Unsloth 进行推理

from unsloth import FastLanguageModel

model, tokenizer = FastLanguageModel.from_pretrained(

model_name="unsloth/gemma-4-E4B-it",

max_seq_length=4096,

load_in_4bit=True, # 4-bit 量化

)

FastLanguageModel.for_inference(model)

messages = [{"role": "user", "content": "解释 LoRA 微调的原理"}]

inputs = tokenizer.apply_chat_template(

messages, tokenize=True, add_generation_prompt=True, return_tensors="pt"

).to("cuda")

outputs = model.generate(input_ids=inputs, max_new_tokens=512)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

使用 vLLM 进行生产级推理

如果要服务多个用户,vLLM 的批量推理性能远超简单的 Transformers 推理:

pip install vllm

vllm serve unsloth/gemma-4-26B-A4B-it-GGUF \

--quantization awq \

--max-model-len 8192 \

--gpu-memory-utilization 0.9

vLLM 的 continuous batching 和 PagedAttention 在处理多个并发请求时,吞吐量比简单的推理方式高出 3-5 倍。

从推理无缝切换到微调

Unsloth 最大的优势就在这里——同一个框架,从推理到微调不需要切换工具:

from unsloth import FastLanguageModel

import torch

model, tokenizer = FastLanguageModel.from_pretrained(

model_name="unsloth/gemma-4-E4B-it",

max_seq_length=2048,

load_in_4bit=True,

)

model = FastLanguageModel.get_peft_model(

model,

r=16,

lora_alpha=16,

target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],

)

Unsloth 优点: 内存效率最高、支持推理到微调的完整流程、MLX 优化让 Mac 性能更好、社区活跃。

Unsloth 缺点: 需要 Python 环境、配置比较复杂、不适合非技术用户。

三种方式选择指南

比较项目

Ollama

LM Studio

Unsloth

上手难度

低(一行命令)

最低(图形化)

中高(需 Python)

安装时间

2 分钟

3 分钟

10-15 分钟

内存效率

高(省 ~40%)

推理速度

中(MLX 慢 15-20%)

API 兼容

OpenAI 兼容

OpenAI 兼容

需搭配 vLLM

GUI 界面

微调支持

不支持

不支持

原生支持

多模态

支持

支持(拖放图片)

支持

适合人群

开发者、CLI 爱好者

非技术人员、快速体验

ML 工程师、需要微调

我的建议:

「我只想快速试一下」 → LM Studio。下载、安装、搜索模型、开始聊天。五分钟,不需要打任何命令。

「我要整合到我的应用里」 → Ollama。API 最稳定、社区资源最多、Docker 部署也方便。

「我要微调或内存很吃紧」 → Unsloth。省 40% 内存不是开玩笑的,而且微调流程一条龙。

常见问题排除

OOM(Out of Memory)错误

这是最常见的问题。症状通常是模型加载到一半就崩溃,或推理到一半被终止。

解决方案:

1. 换更小的量化版本:从 Q8 换到 Q4_K_M,或从 Q4 换到 Q3_K_S

2. 降低 context length:把 context window 从 128K 降到 8K 或 4K

3. 关闭其他占用内存的程序:Chrome 是最大的内存消耗者

4. 增加 swap space:Linux 上可以临时增加 swap,虽然会变慢但至少能跑

nvidia-smi # NVIDIA GPU

ollama ps # 查看 Ollama 加载了哪些模型

推理速度太慢

如果模型能跑但速度不理想(低于 10 tok/s),试试以下方法:

1. 确认 GPU 有被使用nvidia-smi 查看 GPU utilization,如果是 0% 代表模型跑在 CPU 上

2. 在 Ollama 中增加 GPU layers:创建 Modelfile 设置 num_gpu 参数

3. 用更激进的量化:Q4_K_S 比 Q4_K_M 快约 10-15%

4. Mac 用户用 MLX 版本:比 llama.cpp 后端快 30-50%

模型下载失败或中断

如果 Hugging Face 下载速度太慢,可以用 hf_transfer 加速:

pip install hf_transfer

export HF_TRANSFER=1

模型输出乱码或质量异常

通常是量化版本的问题。Q2、Q3 的低位元量化在某些任务上质量下降明显。解决方法是换 Q4_K_M 以上的版本,或者加上 system prompt 来稳定输出格式。

本地模型集成实战:从编程助手到 AI Agent

本地部署的 Gemma 4 能用来做什么?除了直接对话,最实用的场景是集成到开发工具和工作流中。这里介绍几个典型的集成案例。

场景一:替代 Claude Code 做编程助手

有人尝试用 Gemma 4 本地模型替代 Claude Code 等云端 AI 编程助手,实测结果如何?

测试环境

M4 Max 128GB,26B A4B 模型

指标

本地 Gemma 4

云端 Claude

系统提示词占用

~29K tokens

无限制

生成速度

~14 tok/s

~50+ tok/s

首次响应延迟

数十秒

<1 秒

上下文限制

32K(实际可用)

200K+

复杂推理质量

中等

优秀

成本

免费(硬件折旧)

$20-200/月

结论:本地模型适合轻量对话场景,但 Claude Code 这类重型编程场景仍需云端支持。主要原因:

1. 上下文窗口压力:大型项目的系统提示词可能超过本地模型的上下文限制

2. 响应延迟:本地模型的 prefill 时间明显长于云端 API

3. 推理质量:即使是 31B 版本,在复杂编程任务上仍不如云端顶级模型

不过,对于简单的代码补全、文档查询、单文件修改等任务,本地部署完全够用,而且零成本、零网络延迟。

场景二:用 OpenClaw 搭建本地 AI Agent

OpenClaw 是一个开源的 AI Agent 框架,可以配合本地模型实现完全离线的自动化工作流。

安装 OpenClaw:

git clone https://github.com/openclaw/openclaw.git

cd openclaw

pip install -r requirements.txt

export OPENAI_API_BASE=http://localhost:11434/v1

export OPENAI_API_KEY=ollama

export OPENAI_MODEL=gemma4:26b

使用示例:让 Agent 自动整理文件:

from openclaw import Agent

agent = Agent(

model="gemma4:26b",

base_url="http://localhost:11434/v1"

)

result = agent.run("帮我整理 Downloads 文件夹,按文件类型分类")

print(result)

OpenClaw 支持的工具包括:文件操作、网页搜索、代码执行、API 调用等。配合 Gemma 4 的 Function Calling 能力,可以实现相当复杂的自动化流程。

注意事项:

• 26B MoE 版本在复杂多步任务上表现更好

• 需要调整 temperature 到较低值(0.1-0.3)以获得更稳定的输出

• 首次运行时 prefill 较慢,后续会快很多

场景三:Continue.dev 本地代码补全

Continue 是 VS Code 和 JetBrains 的 AI 编程助手插件,支持连接本地模型。

配置步骤:

1. 安装 Continue 插件(VS Code 扩展市场搜索「Continue」)

2. 打开设置,添加 Ollama 作为模型提供者:

{

"models": [

{

"title": "Gemma 4 E4B",

"provider": "ollama",

"model": "gemma4:e4b",

"apiBase": "http://localhost:11434/v1"

}

],

"tabAutocompleteModel": {

"title": "Gemma 4 E2B",

"provider": "ollama",

"model": "gemma4:e2b",

"apiBase": "http://localhost:11434/v1"

}

}

1. 重启 VS Code,开始使用

推荐配置:

• 用 E2B 做自动补全(速度快)

• 用 E4B 或 26B 做对话问答(质量高)

场景四:Cherry Studio 桌面聊天应用

Cherry Studio 是一个支持多模型切换的桌面聊天应用,界面友好,适合日常使用。

配置方法:

1. 下载安装 Cherry Studio (https://cherry-ai.com)

2. 进入设置 → 模型提供者

3. 添加 Ollama: - API 地址:http://localhost:11434/v1 - API Key:任意(如 ollama

4. 选择模型开始对话

Cherry Studio 的优势:

• 支持多模态(可以发图片给 Gemma 4 分析)

• 支持多轮对话历史管理

• 支持导出对话记录

• 支持 Prompt 模板

场景五:LangChain/LlamaIndex 集成

如果你在构建 AI 应用,可以通过 LangChain 或 LlamaIndex 集成本地 Gemma 4。

LangChain 示例:

from langchain_community.llms import Ollama

from langchain_core.prompts import ChatPromptTemplate

llm = Ollama(model="gemma4:26b")

prompt = ChatPromptTemplate.from_messages([

("system", "你是一个专业的技术文档写作助手。"),

("user", "{input}")

])

chain = prompt | llm

response = chain.invoke({"input": "帮我写一个 Python 快速排序的文档"})

print(response)

LlamaIndex 示例(RAG 应用):

from llama_index.llms.ollama import Ollama

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader

documents = SimpleDirectoryReader("./docs").load_data()

llm = Ollama(model="gemma4:e4b", request_timeout=60.0)

index = VectorStoreIndex.from_documents(documents)

query_engine = index.as_query_engine(llm=llm)

response = query_engine.query("这份文档的主要观点是什么?")

print(response)

性能对比:本地 vs 云端

最后给一个综合对比,帮助判断是否值得本地部署:

场景

本地 Gemma 4

云端 API

建议

日常对话、简单问答

✅ 够用

✅ 更好

本地可省钱

代码补全

✅ 够用

✅ 更好

本地用 E2B

长文档分析

⚠️ 受上下文限制

✅ 无限制

云端更稳

复杂推理、多步任务

⚠️ 质量中等

✅ 质量高

看预算

敏感数据处理

✅ 隐私安全

⚠️ 需评估

必须本地

离线环境

✅ 唯一选择

❌ 不可用

必须本地

高并发服务

⚠️ 需 vLLM 优化

✅ 弹性扩展

云端更省心

微调定制模型

✅ Unsloth 支持

⚠️ 成本高

本地更灵活

总结

Gemma 4 的本地部署现在已经相当成熟。无论你是技术背景还是非技术人员,都能在几分钟内跑起来。

快速选型指南:

• 想快速体验 → LM Studio,图形界面,下载安装就能用

• 要开发集成 → Ollama,API 稳定,兼容 OpenAI 格式

• 需要微调或内存吃紧 → Unsloth,内存效率最高,还能训练

硬件选择建议:

• 8GB RAM 笔记本 → E4B,日常对话够用

• 16GB RAM / 16GB VRAM 显卡 → 26B MoE,性价比最高

• 24GB+ VRAM / 48GB+ Mac → 31B Dense,最强推理能力

什么时候选本地?

• 数据隐私要求高,不能离开本地

• 需要离线环境工作

• API 调用量大,成本敏感

• 想做模型微调

什么时候选云端?

• 需要处理超长上下文(100K+)

• 复杂多步推理任务

• 高并发、低延迟服务

• 不想折腾硬件

本地部署让你拥有完全私密的 AI 助手,不受 API 限流和定价影响,数据永远不离开你的设备。这不仅是成本优化,更是数据主权的体现。


参考资料

官方文档

• Google DeepMind Gemma 4 官方页面 https://deepmind.google/models/gemma/gemma-4/

• Ollama Gemma 4 模型页 https://ollama.com/library/gemma4

• HuggingFace Gemma 4 模型卡 https://huggingface.co/google/gemma-4-4b-it

部署教程

• Gemma 4 本地部署教学 - CloudInsight https://cloudinsight.cc/zh/blog/gemma-4-local-deployment

• Gemma 4 + Ollama + OpenClaw 本地 AI Agent 教程 - ABMedia https://abmedia.io/gemma-4-ollama-openclaw-local-ai-agent-tutorial

• Gemma 4 本地部署对接 Claude Code 实测 - 腾讯云开发者社区 https://cloud.tencent.com/developer/article/2651403

工具链接

• Ollama 官网:https://ollama.com

• LM Studio 官网:https://lmstudio.ai

• Unsloth GitHub:https://github.com/unslothai/unsloth

• vLLM 文档:https://docs.vllm.ai

• OpenClaw GitHub:https://github.com/openclaw/openclaw

• Continue.dev 官网:https://continue.dev

• Cherry Studio 官网:https://cherry-ai.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 超级AI技术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Gemma 4:你应该知道的技术特性
    • 与上一代对比
    • 模型命名规则
    • 关键能力
    • 性能基准
  • 为什么选择本地部署 Gemma 4?
    • 数据隐私与合规
    • 离线可用
    • 零 API 成本
  • 硬件需求:你的机器能跑哪个版本?
    • 模型版本概览
    • 关键技术特性
  • 方式一:Ollama 快速部署(推荐新手)
    • 安装 Ollama
    • 下载 Gemma 4 模型
    • 开始对话
    • API 集成
    • 量化版本选择
  • 方式二:LM Studio 图形化界面(最易上手)
    • 安装 LM Studio
    • 搜索并下载模型
    • 加载模型并设置参数
    • 开始对话(LM Studio)
    • 作为 API Server 使用
  • 方式三:Unsloth 推理与微调环境
    • 安装 Unsloth
    • 使用 Unsloth 进行推理
    • 使用 vLLM 进行生产级推理
    • 从推理无缝切换到微调
  • 三种方式选择指南
  • 常见问题排除
    • OOM(Out of Memory)错误
    • 推理速度太慢
    • 模型下载失败或中断
    • 模型输出乱码或质量异常
  • 本地模型集成实战:从编程助手到 AI Agent
    • 场景一:替代 Claude Code 做编程助手
      • 测试环境
    • 场景二:用 OpenClaw 搭建本地 AI Agent
    • 场景三:Continue.dev 本地代码补全
    • 场景四:Cherry Studio 桌面聊天应用
    • 场景五:LangChain/LlamaIndex 集成
    • 性能对比:本地 vs 云端
  • 总结
  • 参考资料
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档