首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >实测|Mac本地Claude Code,4大热门模型(minimax/qwen/kimi/glm)对比

实测|Mac本地Claude Code,4大热门模型(minimax/qwen/kimi/glm)对比

作者头像
程序员架构进阶
发布2026-05-06 10:02:54
发布2026-05-06 10:02:54
9830
举报
文章被收录于专栏:架构进阶架构进阶

一 引言

这是一篇迟到的测评。过去一段时间一直忙于工作中的无聊且无奈的项目工作,一直到最近才又能抽出些时间追赶当前的AI发展。本篇还是基于ollama,在Mac笔记本下验证本地部署Claude Code,有哪些可用的开源/云端模型推荐,以及不同模型到底该怎么选择,仅供大家参考。

为了给大家一个最真实、最落地的参考,我花了3天时间,在自己的MacBook Pro(M4芯片,24GB内存)上,完成了基于Ollama安装Claude Code的全流程验证,并且选取了目前使用频率较高的4个模型——minimax-m2.5:cloud、qwen3:8b、kimi-k2.5:cloud、glm-4.7-flash,针对相同的编码案例、办公场景、推理任务进行了全方位测试。

全程无滤镜、无夸大,纯实测视角,把每个模型的优缺点、适用范围、实操体验一一拆解,文末还整理了模型选择速查表,新手也能快速对号入座。

二 测试环境

先跟大家同步一下本次实测的核心前提,保证测试结果的公平性:

设备:MacBook Pro(M4芯片,24GB内存,512GB固态),系统版本Sequoia 15.6.1 (24G90)

工具:Ollama v0.16.3(最新版本,支持launch命令快速启动Claude Code)

模型:minimax-m2.5:cloud(云端)、qwen3:8b(本地)、kimi-k2.5:cloud(云端)、glm-4.7-flash(本地)

测试案例:统一选取4类高频场景(基础编码、复杂代码调试、办公文档处理、多模态推理),每个场景设置相同的任务指令,对比模型的响应速度、输出质量、容错率、易用性

测试环境:全程关闭其他后台应用,仅保留Ollama和Claude Code,本地模型未进行量化优化(默认配置),云端模型保证网络稳定(500M宽带)

三 前置准备

3.1 ollama安装

Mac本地Ollama安装+Claude Code部署.ollama的安装已经在上篇文章中详细描述,本篇基于ollama快速安装Claude Code并拉取模型即可。安装方法:

1、mac 终端中 输入ollama,输出列表如下:

选中Launch Claude Code,并按向右箭头按钮,即可展开支持快速按照的模型列表:

依次选中并Enter确认即可拉取模型。

3.2 可选模型

Ollama支持本地模型和云端模型的拉取,其中qwen3:8b、glm-4.7-flash是本地模型(需要下载模型文件到本地),minimax-m2.5:cloud、kimi-k2.5:cloud是云端模型(无需下载,推理在远端进行,仅占用少量本地资源)。

qwen3:8b、glm-4.7-flash我拉取到本地后占用的资源大小分别是5.2GB和19GB(刚好用claude code验证一下):

除了直接使用ollama安装,也可以在终端依次输入以下命令,拉取对应模型,每个命令输入后回车,等待拉取完成即可(本地模型下载时间取决于网络速度,云端模型拉取仅需1-2秒):

代码语言:javascript
复制

拉取minimax-m2.5:cloud(云端模型)ollama pull minimax-m2.5:cloud# 拉取qwen3:8b(本地模型)ollama pull qwen3:8b# 拉取kimi-k2.5:cloud(云端模型)ollama pull kimi-k2.5:cloud# 拉取glm-4.7-flash(本地模型)ollama pull glm-4.7-flash

补充说明:拉取本地模型时,建议确保Mac剩余存储空间≥30GB,避免因空间不足导致下载失败;拉取云端模型时,需要确保网络通畅,无需担心存储空间问题。

3.3 启动Claude Code,关联4个模型

完成上述步骤后,即可通过Ollama的launch命令快速启动Claude Code,并关联已拉取的4个模型,具体操作如下:

1. 首先安装Claude Code(终端输入以下命令,回车后自动安装):

代码语言:javascript
复制
curl -fsSL https://claude.ai/install.sh | bash

2.安装完成后,启动Claude Code并关联模型,终端输入命令:

代码语言:javascript
复制
ollama launch claude

3. 启动后,终端会弹出模型选择提示,此时可以看到我们之前拉取的4个模型(本地模型会标注“local”,云端模型无标注),输入对应模型的序号,即可关联该模型,开始测试。

补充说明:每次启动Claude Code后,都可以重新选择模型,切换模型时无需重启Ollama,直接输入对应序号即可,操作非常便捷。

3.4 几个大模型的默认上下文长度

相信大家都已经了解过,上下文是大模型能记住并处理的对话 / 文本长度,单位 token。上下文越长:记得越久、能读长文本、逻辑更连贯;而反之越短:容易遗忘前文、长内容报错、占用资源少过大超出模型 / 硬件限制会卡顿、溢出、生成失败。上述几种大模型默认上下文长度:

glm-4.7-flash(Ollama)

  • 默认上下文:32768 (32K) tokens
  • 最大支持:198K tokens(官方标称 200K,Ollama 限制 198K)

qwen3:8b(Ollama)

  • 默认上下文:40960 (40K) tokens
  • 原生最大:32768 (32K) tokens
  • 扩展最大:131072 (128K) tokens(YaRN 技术)

MiniMax M2.5:cloud

  • 默认上下文:204,800 tokens (204K)
  • 最大支持:1M tokens(通过 Lightning Attention 技术)

- 架构:MoE(混合专家),总参数 229B,激活参数 ~10BKimi K2.5:cloud- 上下文:256,000 tokens (256K)

- 架构:MoE,总参数 1T,激活参数 32B- 原生多模态(支持文本、图像、视频)

到这里,Mac本地基于Ollama安装Claude Code,并关联4个模型的全流程就完成了,整个过程下来,小白也能轻松上手,没有复杂的配置步骤,核心就是“安装Ollama→拉取模型→配置上下文→启动Claude Code”四步走。

接下来,进入核心实测环节——4个模型的全方位对比,结合相同的测试案例,拆解各自的优缺点、适用范围,每一个结论都基于我实际操作的体验,不吹不黑,客观呈现。

四 核心实测:4大模型全方位对比(相同案例,公平PK)

本次测试选取了4类高频场景,覆盖编码、办公、推理等日常使用场景,每个场景设置相同的任务指令,从响应速度、输出质量、容错率、易用性4个维度进行评分(满分10分),最终结合评分和实际体验,拆解每个模型的优缺点和适用范围。

4.1 测试案例统一说明(4类场景,所有模型均测试相同任务)

为了保证测试的公平性,所有模型均测试以下4个相同案例,每个案例的任务指令完全一致,测试完成后,对比各模型的输出结果和操作体验:

案例1(基础编码):生成一个简单的Python爬虫脚本,爬取某静态网页的标题、正文内容,要求代码可直接运行,添加注释,处理简单的反爬(比如设置请求头)。

案例2(复杂代码调试):提供一段存在3处错误(语法错误、逻辑错误、依赖包错误)的Java代码,要求模型找出所有错误,给出修改方案,并解释错误原因,修改后的代码可直接运行。

案例3(办公文档处理):提供一段1000字左右的杂乱文本(包含标题、正文、无关内容),要求模型进行结构化整理,生成规范的Word文档格式(分章节、设置标题层级、添加段落间距),并提取核心要点。

案例4(多模态推理):上传一张包含简单表格的图片(表格内容为3列5行,包含姓名、年龄、职业),要求模型识别图片中的表格内容,提取数据,生成可编辑的Excel表格代码,并计算年龄平均值。

4.2 测评维度与说明

响应速度:指令发出到完整输出的耗时快慢

输出质量:内容准确性、逻辑性、格式规范度

容错率:复杂 / 模糊指令理解能力、幻觉控制水平

易用性:部署 / 调用门槛、上下文稳定性、上手成本

4.3 单模型综合评价

4.3.1 qwen3:8b(本地 Ollama)

核心优点:

  • 本地运行速度领先,响应几乎无延迟
  • 8B 级模型中代码能力突出,适配日常开发
  • 部署简单、隐私性强、断网可用、零使用成本

明显短板

  • 复杂推理与长文本能力弱于云端
  • 幻觉现象相对明显,复杂任务稳定性一般适用人群:程序员日常编码、本地轻量开发、注重隐私与无成本使用的用户

4.3.2 glm-4.7-flash(本地 Ollama)

核心优点

  • 长文本理解与总结能力突出,格式规整
  • 中文表达自然,幻觉少,办公场景表现稳定

明显短板

  • 生成速度偏慢,硬件占用更高
  • 代码与逻辑推理略逊于同阶开源模型适用人群:文案写作、报告总结、长文档阅读,偏爱本地模型且追求高质量输出的用户

4.3.3 minimax-m2.5(云端)

核心优点

  • 全场景速度最快,性价比极高
  • 推理、编码、工具调用能力均衡且强劲
  • 高并发稳定,适配自动化与 Agent 场景

明显短板

  • 文学润色与细腻表达略弱于 kimi
  • 必须联网,按 token 计费有一定使用成本适用人群:高频使用者、自动化脚本、Skill / 工具调用、追求高效低成本的职场人

4.3.4 kimi-k2.5(云端)

核心优点

  • 长文本、办公写作、内容质量全场最优
  • 多轮对话记忆牢固,指令容错率顶尖
  • 复杂内容梳理与格式呈现能力突出

明显短板

  • 速度略逊于 minimax,使用成本更高适用人群:重度办公、长文章阅读、多轮深度对话、对输出品质要求极高的用户

五、实测总结:4个模型怎么选?新手直接对号入座

4个模型的表现各有优劣,没有绝对的“最好”,只有最适合自己的,结合大家的使用场景和需求,给大家整理了清晰的选择指南,新手直接对号入座,无需纠结:

5.1 按使用场景选择

如果是企业办公、高频处理文档、中等复杂度编码,优先选minimax-m2.5:cloud:办公能力突出,响应快,成本可控,适配企业级场景,同时兼顾编码需求,易用性高。

如果是新手入门、基础编码、离线使用、预算有限,优先选qwen3:8b:轻量化易部署,无使用成本,基础需求完全满足,适合学生、新手开发者,断网环境也能使用。

如果是复杂编码、多模态推理、科研任务、大规模复杂任务,优先选kimi-k2.5:cloud:全能型表现,性能顶级,Agent集群协作能力突出,适合高级开发者、科研人员、企业技术人员,网络稳定场景首选。

如果是本地高效编码、需要离线使用、对编码质量有要求,优先选glm-4.7-flash:本地模型中编码能力最优,运行高效,兼顾性能和轻量化,适合中高级开发者、网络不稳定的用户,数据隐私要求高的场景首选。

5.2 按人群选择

新手/学生:qwen3:8b(易上手、无成本、基础需求满足)→ 进阶后可切换到glm-4.7-flash(本地)或minimax-m2.5:cloud(云端)。

中高级开发者:glm-4.7-flash(本地高效编码)、kimi-k2.5:cloud(复杂任务),根据是否需要离线使用选择。

企业办公人员:minimax-m2.5:cloud(办公高效)、kimi-k2.5:cloud(复杂办公任务),根据任务复杂度选择。

科研人员:kimi-k2.5:cloud(大规模文献处理、多模态推理、Agent协作),性能和效率最优。

网络不稳定/数据隐私要求高:glm-4.7-flash(本地、高效)、qwen3:8b(本地、轻量化),优先选glm-4.7-flash(性能更优)。

5.3 关键提醒(避坑指南)

本地模型(qwen3:8b、glm-4.7-flash):需要下载模型文件,占用本地存储空间,建议Mac预留≥30GB存储空间,16GB内存以上运行更流畅;无需网络,数据安全,但性能略逊于云端模型。

云端模型(minimax-m2.5:cloud、kimi-k2.5:cloud):无需下载模型,占用本地资源少,响应快、性能强,但依赖网络,断网无法使用,需要注册Ollama Cloud账号(部分功能需订阅)。

Ollama配置注意:本地模型一定要修改Context Length(建议64000 tokens),否则会出现内容截断、记忆不足的问题;云端模型无需修改,自动启用完整上下文。

模型拉取注意:本地模型下载时间取决于网络速度,建议在网络稳定时拉取;云端模型拉取速度快,无需担心存储空间。

成本提醒:本地模型无使用成本;云端模型中,kimi-k2.5:cloud性价比最高,minimax-m2.5:cloud成本可控,适合高频使用。

六、实操补充:常见问题解决(实测踩坑汇总)

在本次实测过程中,我遇到了几个常见问题,相信大家在操作过程中也可能遇到,整理了详细的解决方法,帮大家避坑,节省时间:

6.1 问题1:Ollama安装失败,终端提示“权限不足”

解决方法:在安装命令前添加“sudo”,提升权限,终端输入命令:sudo curl -fsSL https://ollama.com/install.sh | sh,输入Mac开机密码,回车后等待安装完成即可。

6.2 问题2:拉取本地模型时,下载速度慢、下载中断

解决方法:检查网络连接,确保网络稳定;如果下载中断,再次输入拉取命令,Ollama会自动续传,无需重新下载;也可以更换网络(比如手机热点),提升下载速度。

6.3 问题3:启动Claude Code后,无法选择模型,提示“模型未找到”

解决方法:检查模型是否拉取成功,终端输入命令“ollama list”,查看已拉取的模型;如果未拉取成功,重新输入拉取命令;如果已拉取成功,重启Ollama(终端输入“ollama stop”,再输入“ollama start”),重新启动Claude Code即可。

6.4 问题4:本地模型运行时,Mac卡顿、闪退

解决方法:关闭其他后台应用,释放内存;检查Mac存储空间,确保预留足够的空间;修改Ollama配置,降低模型运行内存;如果仍卡顿,建议选择更轻量化的模型(比如qwen3:8b)。

6.5 问题5:云端模型响应延迟、输出中断

解决方法:检查网络连接,确保网络稳定(建议500M以上宽带);关闭VPN,避免网络干扰;如果仍有延迟,切换到本地模型,或稍后再试。

七、最后总结

本次Mac本地基于Ollama安装Claude Code,以及4个热门模型的实测,到这里就全部结束了。整体来看,4个模型各有定位,适配不同的用户和场景:

  • kimi-k2.5:cloud 是全能型王者,适合对性能要求高、处理复杂任务的用户,网络稳定场景首选;
  • minimax-m2.5:cloud 是企业办公利器,办公文档处理能力突出,兼顾编码,成本可控;
  • glm-4.7-flash 是本地高效之选,编码能力突出,支持离线,兼顾性能和轻量化,数据隐私有保障;
  • qwen3:8b 是新手入门首选,轻量化易部署,无使用成本,基础需求完全满足,离线场景适配。

对于大多数用户来说,无需纠结于“哪个最好”,根据自己的使用场景、设备配置、网络情况,选择最适合自己的模型即可。如果经常在线、需要处理复杂任务,优先选云端模型;如果经常出差、网络不稳定、注重数据隐私,优先选本地模型。

最后,希望这篇实测推文,能够帮到大家,无论是Ollama安装Claude Code的实操,还是4个模型的选择,都能让大家少走弯路。如果大家在操作过程中遇到其他问题,或者有其他想测试的模型,欢迎在评论区留言,我会第一时间回复、补充实测!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序员架构进阶 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一 引言
  • 二 测试环境
  • 三 前置准备
    • 3.1 ollama安装
    • 3.2 可选模型
    • 3.3 启动Claude Code,关联4个模型
    • 3.4 几个大模型的默认上下文长度
  • 四 核心实测:4大模型全方位对比(相同案例,公平PK)
    • 4.1 测试案例统一说明(4类场景,所有模型均测试相同任务)
    • 4.2 测评维度与说明
    • 4.3 单模型综合评价
    • 4.3.1 qwen3:8b(本地 Ollama)
    • 4.3.2 glm-4.7-flash(本地 Ollama)
    • 4.3.3 minimax-m2.5(云端)
    • 4.3.4 kimi-k2.5(云端)
  • 五、实测总结:4个模型怎么选?新手直接对号入座
    • 5.1 按使用场景选择
    • 5.2 按人群选择
    • 5.3 关键提醒(避坑指南)
  • 六、实操补充:常见问题解决(实测踩坑汇总)
    • 6.1 问题1:Ollama安装失败,终端提示“权限不足”
    • 6.2 问题2:拉取本地模型时,下载速度慢、下载中断
    • 6.3 问题3:启动Claude Code后,无法选择模型,提示“模型未找到”
    • 6.4 问题4:本地模型运行时,Mac卡顿、闪退
    • 6.5 问题5:云端模型响应延迟、输出中断
  • 七、最后总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档