MiniMax M3火了，但我劝你先别急着吹

王中阳AI编程

发布于 2026-06-04 11:20:21

520

文章被收录于专栏：Go语言学习专栏Go语言学习专栏

MiniMax M3 发布那天，群里有人甩了一张跑分图，配文就四个字：「国产之光」。

我点开看了一眼，然后把手机放下了。

不是我不看好国产模型。说真的，国产模型这一年进步太快了，快到我有时候觉得跟不上。

但问题是，每次新模型出来都是同一套剧本。先甩跑分图，再喊最强，再喊封神，再喊吊打。然后过两周，真正用起来的人开始发现各种问题。然后热度过去，下一个模型出来，循环重来。

所以这篇我不打算吹 MiniMax M3。关于它的公开可靠材料还不够多，第三方长期评测、真实开发者工作流反馈、稳定性测试，都还没到可以下定论的时候。

我更想聊的是，为什么国产模型的评价标准，正在从跑分崇拜进入一个更现实的阶段。如果你是做 Agent 开发的，或者正在从传统开发转向 AI 方向，这个视角比看热闹重要得多。

跑分和真实场景之间，隔着一个太平洋

过去我们评价模型，特别喜欢看数学、代码、推理、知识问答这些分数。

这当然重要。但坦率的讲，现在头部模型在标准题上的差距，已经不像早期那么一眼定生死了。一个模型在某个 benchmark 上高一点，另一个在另一个任务上强一点，这些都不能直接说明你把它接进 Agent 工作流以后它就一定稳定。

我给你举个例子。

假设两个模型，一个在 MMLU 上高 3 分，另一个低 3 分。你把它们分别接进 Agent 工作流，让它们改一个项目里的十几个文件。高 3 分的那个改到第 5 个文件就开始前后矛盾了，低 3 分的那个稳稳改完了。

你选哪个。

真正麻烦的问题，全藏在日常任务里。

多轮对话会不会越来越跑偏。长上下文里前面埋的约束它还能不能记住。让它改十几个文件会不会前后不一致。工具调用失败之后，它是能自我修复，还是开始一本正经胡说八道。

这些东西，榜单很难完全测出来。

这也是为什么我一直跟学员讲，学 AI 开发不能只追最强模型。你要学会做模型选型。什么任务用 Claude，什么任务用 GPT，什么任务用国产模型，什么任务甚至用小模型就够了。

真正的 Agent 工程师，不是模型粉丝，是调度员。

Agent 场景才是照妖镜

现在 AI 模型的主战场，已经不只是聊天了。

它正在进入写代码、查资料、调用工具、拆解任务、执行流程这些场景。模型不只是回答问题，而是要参与做事。

这对模型的要求完全不一样。

聊天模型可以偶尔漂亮一下。Agent 模型必须长期靠谱。

我是真的觉得，一个模型如果只是单轮回答很惊艳，但多步任务经常掉链子，它就很难变成生产力工具。因为真实工作不是一次问答。真实工作是先理解目标，再拆任务，再调用工具，再根据结果修正，再继续执行。这里面任何一步不稳定，整个链路都会断。

有个学员，之前用某个模型跑 Agent 任务，前两步都正常，第三步调用工具返回了一个报错，模型直接开始编造结果。不是修，是编。他把截图发给我，我当时就愣住了。

所以我看 MiniMax M3 这类模型，第一反应不是问它有没有赢过谁，而是问它能不能稳定完成一件复杂的事。代码任务是不是能持续修改，长上下文是不是能扛住，工具调用是不是足够稳，失败后的自我纠错是不是可靠。

这些才是 Agent 时代的硬指标。

与其追模型，不如练这三件事

很多同学看到新模型就会焦虑。又出新模型了，我是不是又要学一个。

其实不用。

模型更新越快，越说明你不能把核心能力押在某一个模型上。你真正要练的是三件事。

第一，任务拆解能力。 你能不能把一个模糊目标，拆成模型能执行的步骤。

第二，评估能力。 你能不能判断模型的回答哪里靠谱，哪里需要核查，哪里只是说得好听。

第三，工程整合能力。 你能不能把模型接到工具、数据库、知识库、自动化流程里面，让它真的帮你完成业务。

模型会一代代变，但这三种能力不会过时。

说实话，我自己也追过不少「最强模型」。追到最后发现，追模型不如追能力。模型换了一茬又一茬，能拆任务、能评估结果、能把模型接进工作流的人，永远是稀缺的。

所以我对 MiniMax M3 的态度很简单：值得关注，但不值得跪拜。

如果它在成本、速度、稳定性、Agent 任务上真的能持续打出来，那它会是国产模型很重要的一步。但如果只是发布时声量很大，真实开发者用下来不稳定，那它也只能算 AI 圈又一次短暂热闹。

技术圈最不缺热闹。缺的是能长期解决问题的东西。

如果你也在学 AI Agent 开发，或者正在从传统开发转向 AI 方向，可以把这篇文章收藏下来。以后每次看到新模型发布，都别急着激动，先拿这套标准去测一遍。

你会发现，能看懂模型的人，永远比只会追热点的人走得更远。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-06-03，如有侵权请联系 cloudcommunity@tencent.com 删除

开发

本文分享自王中阳微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度