
MiniMax M3 发布那天,群里有人甩了一张跑分图,配文就四个字:「国产之光」。
我点开看了一眼,然后把手机放下了。
不是我不看好国产模型。说真的,国产模型这一年进步太快了,快到我有时候觉得跟不上。
但问题是,每次新模型出来都是同一套剧本。先甩跑分图,再喊最强,再喊封神,再喊吊打。然后过两周,真正用起来的人开始发现各种问题。然后热度过去,下一个模型出来,循环重来。

所以这篇我不打算吹 MiniMax M3。关于它的公开可靠材料还不够多,第三方长期评测、真实开发者工作流反馈、稳定性测试,都还没到可以下定论的时候。
我更想聊的是,为什么国产模型的评价标准,正在从跑分崇拜进入一个更现实的阶段。如果你是做 Agent 开发的,或者正在从传统开发转向 AI 方向,这个视角比看热闹重要得多。

过去我们评价模型,特别喜欢看数学、代码、推理、知识问答这些分数。
这当然重要。但坦率的讲,现在头部模型在标准题上的差距,已经不像早期那么一眼定生死了。一个模型在某个 benchmark 上高一点,另一个在另一个任务上强一点,这些都不能直接说明你把它接进 Agent 工作流以后它就一定稳定。
我给你举个例子。
假设两个模型,一个在 MMLU 上高 3 分,另一个低 3 分。你把它们分别接进 Agent 工作流,让它们改一个项目里的十几个文件。高 3 分的那个改到第 5 个文件就开始前后矛盾了,低 3 分的那个稳稳改完了。
你选哪个。
真正麻烦的问题,全藏在日常任务里。
多轮对话会不会越来越跑偏。长上下文里前面埋的约束它还能不能记住。让它改十几个文件会不会前后不一致。工具调用失败之后,它是能自我修复,还是开始一本正经胡说八道。
这些东西,榜单很难完全测出来。
这也是为什么我一直跟学员讲,学 AI 开发不能只追最强模型。你要学会做模型选型。什么任务用 Claude,什么任务用 GPT,什么任务用国产模型,什么任务甚至用小模型就够了。
真正的 Agent 工程师,不是模型粉丝,是调度员。
现在 AI 模型的主战场,已经不只是聊天了。
它正在进入写代码、查资料、调用工具、拆解任务、执行流程这些场景。模型不只是回答问题,而是要参与做事。
这对模型的要求完全不一样。
聊天模型可以偶尔漂亮一下。Agent 模型必须长期靠谱。
我是真的觉得,一个模型如果只是单轮回答很惊艳,但多步任务经常掉链子,它就很难变成生产力工具。因为真实工作不是一次问答。真实工作是先理解目标,再拆任务,再调用工具,再根据结果修正,再继续执行。这里面任何一步不稳定,整个链路都会断。
有个学员,之前用某个模型跑 Agent 任务,前两步都正常,第三步调用工具返回了一个报错,模型直接开始编造结果。不是修,是编。他把截图发给我,我当时就愣住了。
所以我看 MiniMax M3 这类模型,第一反应不是问它有没有赢过谁,而是问它能不能稳定完成一件复杂的事。代码任务是不是能持续修改,长上下文是不是能扛住,工具调用是不是足够稳,失败后的自我纠错是不是可靠。
这些才是 Agent 时代的硬指标。
很多同学看到新模型就会焦虑。又出新模型了,我是不是又要学一个。
其实不用。
模型更新越快,越说明你不能把核心能力押在某一个模型上。你真正要练的是三件事。
第一,任务拆解能力。 你能不能把一个模糊目标,拆成模型能执行的步骤。
第二,评估能力。 你能不能判断模型的回答哪里靠谱,哪里需要核查,哪里只是说得好听。
第三,工程整合能力。 你能不能把模型接到工具、数据库、知识库、自动化流程里面,让它真的帮你完成业务。
模型会一代代变,但这三种能力不会过时。
说实话,我自己也追过不少「最强模型」。追到最后发现,追模型不如追能力。模型换了一茬又一茬,能拆任务、能评估结果、能把模型接进工作流的人,永远是稀缺的。
所以我对 MiniMax M3 的态度很简单:值得关注,但不值得跪拜。
如果它在成本、速度、稳定性、Agent 任务上真的能持续打出来,那它会是国产模型很重要的一步。但如果只是发布时声量很大,真实开发者用下来不稳定,那它也只能算 AI 圈又一次短暂热闹。
技术圈最不缺热闹。缺的是能长期解决问题的东西。
如果你也在学 AI Agent 开发,或者正在从传统开发转向 AI 方向,可以把这篇文章收藏下来。以后每次看到新模型发布,都别急着激动,先拿这套标准去测一遍。
你会发现,能看懂模型的人,永远比只会追热点的人走得更远。