
这是一篇迟到的测评。过去一段时间一直忙于工作中的无聊且无奈的项目工作,一直到最近才又能抽出些时间追赶当前的AI发展。本篇还是基于ollama,在Mac笔记本下验证本地部署Claude Code,有哪些可用的开源/云端模型推荐,以及不同模型到底该怎么选择,仅供大家参考。
为了给大家一个最真实、最落地的参考,我花了3天时间,在自己的MacBook Pro(M4芯片,24GB内存)上,完成了基于Ollama安装Claude Code的全流程验证,并且选取了目前使用频率较高的4个模型——minimax-m2.5:cloud、qwen3:8b、kimi-k2.5:cloud、glm-4.7-flash,针对相同的编码案例、办公场景、推理任务进行了全方位测试。
全程无滤镜、无夸大,纯实测视角,把每个模型的优缺点、适用范围、实操体验一一拆解,文末还整理了模型选择速查表,新手也能快速对号入座。
先跟大家同步一下本次实测的核心前提,保证测试结果的公平性:
设备:MacBook Pro(M4芯片,24GB内存,512GB固态),系统版本Sequoia 15.6.1 (24G90)
工具:Ollama v0.16.3(最新版本,支持launch命令快速启动Claude Code)
模型:minimax-m2.5:cloud(云端)、qwen3:8b(本地)、kimi-k2.5:cloud(云端)、glm-4.7-flash(本地)
测试案例:统一选取4类高频场景(基础编码、复杂代码调试、办公文档处理、多模态推理),每个场景设置相同的任务指令,对比模型的响应速度、输出质量、容错率、易用性
测试环境:全程关闭其他后台应用,仅保留Ollama和Claude Code,本地模型未进行量化优化(默认配置),云端模型保证网络稳定(500M宽带)
Mac本地Ollama安装+Claude Code部署.ollama的安装已经在上篇文章中详细描述,本篇基于ollama快速安装Claude Code并拉取模型即可。安装方法:
1、mac 终端中 输入ollama,输出列表如下:

选中Launch Claude Code,并按向右箭头按钮,即可展开支持快速按照的模型列表:

依次选中并Enter确认即可拉取模型。
Ollama支持本地模型和云端模型的拉取,其中qwen3:8b、glm-4.7-flash是本地模型(需要下载模型文件到本地),minimax-m2.5:cloud、kimi-k2.5:cloud是云端模型(无需下载,推理在远端进行,仅占用少量本地资源)。
qwen3:8b、glm-4.7-flash我拉取到本地后占用的资源大小分别是5.2GB和19GB(刚好用claude code验证一下):

除了直接使用ollama安装,也可以在终端依次输入以下命令,拉取对应模型,每个命令输入后回车,等待拉取完成即可(本地模型下载时间取决于网络速度,云端模型拉取仅需1-2秒):
拉取minimax-m2.5:cloud(云端模型)ollama pull minimax-m2.5:cloud# 拉取qwen3:8b(本地模型)ollama pull qwen3:8b# 拉取kimi-k2.5:cloud(云端模型)ollama pull kimi-k2.5:cloud# 拉取glm-4.7-flash(本地模型)ollama pull glm-4.7-flash补充说明:拉取本地模型时,建议确保Mac剩余存储空间≥30GB,避免因空间不足导致下载失败;拉取云端模型时,需要确保网络通畅,无需担心存储空间问题。
完成上述步骤后,即可通过Ollama的launch命令快速启动Claude Code,并关联已拉取的4个模型,具体操作如下:
1. 首先安装Claude Code(终端输入以下命令,回车后自动安装):
curl -fsSL https://claude.ai/install.sh | bash2.安装完成后,启动Claude Code并关联模型,终端输入命令:
ollama launch claude3. 启动后,终端会弹出模型选择提示,此时可以看到我们之前拉取的4个模型(本地模型会标注“local”,云端模型无标注),输入对应模型的序号,即可关联该模型,开始测试。
补充说明:每次启动Claude Code后,都可以重新选择模型,切换模型时无需重启Ollama,直接输入对应序号即可,操作非常便捷。
相信大家都已经了解过,上下文是大模型能记住并处理的对话 / 文本长度,单位 token。上下文越长:记得越久、能读长文本、逻辑更连贯;而反之越短:容易遗忘前文、长内容报错、占用资源少过大超出模型 / 硬件限制会卡顿、溢出、生成失败。上述几种大模型默认上下文长度:
glm-4.7-flash(Ollama)
qwen3:8b(Ollama)
MiniMax M2.5:cloud
- 架构:MoE(混合专家),总参数 229B,激活参数 ~10BKimi K2.5:cloud- 上下文:256,000 tokens (256K)
- 架构:MoE,总参数 1T,激活参数 32B- 原生多模态(支持文本、图像、视频)
到这里,Mac本地基于Ollama安装Claude Code,并关联4个模型的全流程就完成了,整个过程下来,小白也能轻松上手,没有复杂的配置步骤,核心就是“安装Ollama→拉取模型→配置上下文→启动Claude Code”四步走。
接下来,进入核心实测环节——4个模型的全方位对比,结合相同的测试案例,拆解各自的优缺点、适用范围,每一个结论都基于我实际操作的体验,不吹不黑,客观呈现。
本次测试选取了4类高频场景,覆盖编码、办公、推理等日常使用场景,每个场景设置相同的任务指令,从响应速度、输出质量、容错率、易用性4个维度进行评分(满分10分),最终结合评分和实际体验,拆解每个模型的优缺点和适用范围。
为了保证测试的公平性,所有模型均测试以下4个相同案例,每个案例的任务指令完全一致,测试完成后,对比各模型的输出结果和操作体验:
案例1(基础编码):生成一个简单的Python爬虫脚本,爬取某静态网页的标题、正文内容,要求代码可直接运行,添加注释,处理简单的反爬(比如设置请求头)。
案例2(复杂代码调试):提供一段存在3处错误(语法错误、逻辑错误、依赖包错误)的Java代码,要求模型找出所有错误,给出修改方案,并解释错误原因,修改后的代码可直接运行。
案例3(办公文档处理):提供一段1000字左右的杂乱文本(包含标题、正文、无关内容),要求模型进行结构化整理,生成规范的Word文档格式(分章节、设置标题层级、添加段落间距),并提取核心要点。
案例4(多模态推理):上传一张包含简单表格的图片(表格内容为3列5行,包含姓名、年龄、职业),要求模型识别图片中的表格内容,提取数据,生成可编辑的Excel表格代码,并计算年龄平均值。
响应速度:指令发出到完整输出的耗时快慢
输出质量:内容准确性、逻辑性、格式规范度
容错率:复杂 / 模糊指令理解能力、幻觉控制水平
易用性:部署 / 调用门槛、上下文稳定性、上手成本
核心优点:
明显短板
核心优点
明显短板
核心优点
明显短板
核心优点
明显短板
4个模型的表现各有优劣,没有绝对的“最好”,只有最适合自己的,结合大家的使用场景和需求,给大家整理了清晰的选择指南,新手直接对号入座,无需纠结:
如果是企业办公、高频处理文档、中等复杂度编码,优先选minimax-m2.5:cloud:办公能力突出,响应快,成本可控,适配企业级场景,同时兼顾编码需求,易用性高。
如果是新手入门、基础编码、离线使用、预算有限,优先选qwen3:8b:轻量化易部署,无使用成本,基础需求完全满足,适合学生、新手开发者,断网环境也能使用。
如果是复杂编码、多模态推理、科研任务、大规模复杂任务,优先选kimi-k2.5:cloud:全能型表现,性能顶级,Agent集群协作能力突出,适合高级开发者、科研人员、企业技术人员,网络稳定场景首选。
如果是本地高效编码、需要离线使用、对编码质量有要求,优先选glm-4.7-flash:本地模型中编码能力最优,运行高效,兼顾性能和轻量化,适合中高级开发者、网络不稳定的用户,数据隐私要求高的场景首选。
新手/学生:qwen3:8b(易上手、无成本、基础需求满足)→ 进阶后可切换到glm-4.7-flash(本地)或minimax-m2.5:cloud(云端)。
中高级开发者:glm-4.7-flash(本地高效编码)、kimi-k2.5:cloud(复杂任务),根据是否需要离线使用选择。
企业办公人员:minimax-m2.5:cloud(办公高效)、kimi-k2.5:cloud(复杂办公任务),根据任务复杂度选择。
科研人员:kimi-k2.5:cloud(大规模文献处理、多模态推理、Agent协作),性能和效率最优。
网络不稳定/数据隐私要求高:glm-4.7-flash(本地、高效)、qwen3:8b(本地、轻量化),优先选glm-4.7-flash(性能更优)。
本地模型(qwen3:8b、glm-4.7-flash):需要下载模型文件,占用本地存储空间,建议Mac预留≥30GB存储空间,16GB内存以上运行更流畅;无需网络,数据安全,但性能略逊于云端模型。
云端模型(minimax-m2.5:cloud、kimi-k2.5:cloud):无需下载模型,占用本地资源少,响应快、性能强,但依赖网络,断网无法使用,需要注册Ollama Cloud账号(部分功能需订阅)。
Ollama配置注意:本地模型一定要修改Context Length(建议64000 tokens),否则会出现内容截断、记忆不足的问题;云端模型无需修改,自动启用完整上下文。
模型拉取注意:本地模型下载时间取决于网络速度,建议在网络稳定时拉取;云端模型拉取速度快,无需担心存储空间。
成本提醒:本地模型无使用成本;云端模型中,kimi-k2.5:cloud性价比最高,minimax-m2.5:cloud成本可控,适合高频使用。
在本次实测过程中,我遇到了几个常见问题,相信大家在操作过程中也可能遇到,整理了详细的解决方法,帮大家避坑,节省时间:
解决方法:在安装命令前添加“sudo”,提升权限,终端输入命令:sudo curl -fsSL https://ollama.com/install.sh | sh,输入Mac开机密码,回车后等待安装完成即可。
解决方法:检查网络连接,确保网络稳定;如果下载中断,再次输入拉取命令,Ollama会自动续传,无需重新下载;也可以更换网络(比如手机热点),提升下载速度。
解决方法:检查模型是否拉取成功,终端输入命令“ollama list”,查看已拉取的模型;如果未拉取成功,重新输入拉取命令;如果已拉取成功,重启Ollama(终端输入“ollama stop”,再输入“ollama start”),重新启动Claude Code即可。
解决方法:关闭其他后台应用,释放内存;检查Mac存储空间,确保预留足够的空间;修改Ollama配置,降低模型运行内存;如果仍卡顿,建议选择更轻量化的模型(比如qwen3:8b)。
解决方法:检查网络连接,确保网络稳定(建议500M以上宽带);关闭VPN,避免网络干扰;如果仍有延迟,切换到本地模型,或稍后再试。
本次Mac本地基于Ollama安装Claude Code,以及4个热门模型的实测,到这里就全部结束了。整体来看,4个模型各有定位,适配不同的用户和场景:
对于大多数用户来说,无需纠结于“哪个最好”,根据自己的使用场景、设备配置、网络情况,选择最适合自己的模型即可。如果经常在线、需要处理复杂任务,优先选云端模型;如果经常出差、网络不稳定、注重数据隐私,优先选本地模型。
最后,希望这篇实测推文,能够帮到大家,无论是Ollama安装Claude Code的实操,还是4个模型的选择,都能让大家少走弯路。如果大家在操作过程中遇到其他问题,或者有其他想测试的模型,欢迎在评论区留言,我会第一时间回复、补充实测!