我让 MiniMax M3 给自己做了一次海外社区反馈抓取,结果它抓得比我想的准多了。
任务丢过去之后,M3 没有给我一堆那种“综上所述”的废话摘要,而是直接把噪音筛掉,把真正有用的信号拎了出来。
它首先抓到的,是讨论语境变了。
科技大V @tphuang 根本没把 M3 放在“国模互卷”那种语境里看,而是直接把它扔进全球前沿模型的坐标系里打量。
实测层面的反馈更实在。
开发者 Jiayuan 的玩法特别典型:先用 M3 写代码,再拉来 Opus 4.8 和 GPT-5.5 做对抗式 code review,三方互相挑刺一轮之后,最后硬是把一个 PR 合进了主分支。
还有一些 KOL 把 M3 扔进了更偏“交付物”的深水区。Cedric 的结论很干脆:在设计美学和 3D 表现上,M3 已经压过了 Qwen3.7 Max。J A Z I I 的横向对比更扎心:同一组 prompt,Opus 4.8 确实跑得更快,但 M3 多花了点时间、多喂了一次修正 prompt 之后,最终两边的输出质量几乎站在同一水平线上了。
这也解释了为什么 M3 能抓到如此清晰的海外信号。不仅是M3相比上个版本有巨大进步,还因为它正在被放进 coding、code review、前端开发、3D 生成、Agent workflow 和平台工具链这些更具体、更高门槛的场景里测试。