JetBrains 把 120 亿参数模型开源了：Mellum2 到底适合谁用？

DevLlama

发布于 2026-06-05 11:17:48

200

前两年，大家聊 AI 编程工具，关键词大多是“更聪明”。

谁的模型更强？谁的上下文更长？谁能一次生成更大的代码块？谁能把一个需求从头写到尾？

但真正把 AI 工具接进日常开发流程之后，很多团队会发现：最难受的地方，不一定是模型不够强，而是系统太慢、太贵、太难稳定跑起来。

一个请求进来，先判断要不要查代码库；

查完以后，要不要总结上下文；

总结完以后，要不要交给更大的模型推理；

中间还可能有规划、路由、验证、改写、压缩、格式化……

这些步骤单独看都不复杂，但它们在真实 AI 工作流里出现得非常频繁。每一步都丢给最强的大模型，当然省事，但结果往往是：延迟上去了，成本上去了，吞吐量下来了。

这也是 JetBrains 这次开源 Mellum2 值得关注的地方。

它不是一个用来“挑战最强通用大模型”的项目，而更像是给 AI 软件工程系统准备的一个快速、专用、可自托管的中间层模型。

简单说：

如果你正在做 IDE AI、RAG、Agent 工作流、企业内部私有 AI，Mellum2 可能不是那个负责“最后一击”的超级大脑，但它很适合做系统里的“高频小脑”。

下面我们就来拆一下，Mellum2 到底是什么，为什么 JetBrains 要把它开源，以及普通开发者可以怎么看这件事。

1. Mellum2 是什么？

根据 JetBrains 官方博客，Mellum2 是一个 120 亿参数的模型，从零开始训练，目标是服务真实生产环境里的 AI 工作流。

它这次开源，重点解决的是生产 AI 系统里三个非常现实的问题：

• 延迟：响应要快，尤其是高频步骤不能拖慢整个链路
• 吞吐量：单位时间内要能处理更多请求
• 成本：不能所有任务都依赖最贵、最大的模型

JetBrains 对 Mellum 的定位其实很有意思。

Mellum 最早主要服务于代码补全场景，也就是 JetBrains IDE 里的 AI completion 相关能力。到了 Mellum2，它的能力范围扩大了：不仅能处理代码，也能处理自然语言，适合放进更复杂的 AI 工作流里。

官方提到的典型用途包括：

1. 路由和编排 AI 工作负载
2. RAG 问答中的上下文总结和回答生成
3. Agent 流水线里的子任务处理
4. 私有化、本地化 AI 部署

这几个词听起来有点“架构味”，但放到实际场景里就很好理解。

比如你做了一个 AI 编程助手，用户输入一句：

“帮我看看这个模块为什么启动失败。”

系统可能先要判断：这是代码搜索任务、日志分析任务、依赖排查任务，还是需要直接调用更强模型做推理？

这个“判断任务类型”的步骤，就不一定需要最强模型。

再比如 RAG 场景里，系统从代码库检索出一堆相关文件片段，需要先压缩成一段干净上下文，再交给后续模型。

这个“总结上下文”的步骤，也不一定非要用最大模型。

Mellum2 想解决的，就是这些高频、重复、对延迟敏感，但又不一定需要最强模型的中间环节。

2. 它和普通大模型的思路不太一样

现在很多模型都在卷多模态、长上下文、复杂推理、全能 Agent。

这条路线当然重要，前沿模型也会继续把能力边界往前推。

但 JetBrains 这次强调了另一个方向：焦点模型（focused model）。

Mellum2 并不是多模态模型。官方说得很直接：它专门针对自然语言和代码数据训练。

这意味着它不是为了“什么都做一点”设计的，而是尽量在软件工程相关场景里保持轻量、高速、可靠。

这点其实很符合 JetBrains 的产品基因。

JetBrains 做 IDE，不是一天两天了。它非常清楚开发者真正使用工具时的体验：补全慢半秒，你就会觉得卡；跳转不准一次，你就会不信任；一次操作要等好几秒，你就会下意识关掉这个功能。

AI 工具也是一样。

在 demo 里，一个大模型等 20 秒生成一段惊艳的代码，大家会觉得“哇，好强”。

但在 IDE 里，如果你每写几行代码都要等 20 秒，那再强也很难长期用下去。

所以 Mellum2 的价值，不在于它是不是“全场最强”，而在于它能不能成为 AI 系统里那些高频环节的稳定组件。

官方也提到，在代码生成、科学、数学和推理基准测试中，Mellum2 面对同等规模模型并不落下风，同时推理时间缩短到不到一半。

这个表述很关键。

它不是在讲“我一定比所有模型都强”，而是在讲：同规模竞争里能力够用，同时速度明显更快。

对生产系统来说，这往往比单点 benchmark 更有意义。

3. 为什么“快”在 AI 工作流里这么重要？

很多人第一次用 AI 工具，会很自然地把注意力放在“答案质量”上。

这没错，但做过系统的人都知道：一旦进入生产环境，问题会变成立体的。

你要考虑：

• 请求量上来以后，服务能不能扛住？
• 用户等待时间会不会过长？
• 多个步骤串起来，总延迟会不会爆炸？
• 每一步都调用大模型，账单能不能接受？
• 私有代码和内部知识能不能放到外部模型里？

举个简单例子。

假设一个 Agent 工作流有 5 个步骤：

1. 判断用户意图
2. 检索相关代码
3. 总结上下文
4. 生成修改方案
5. 检查修改是否符合要求

如果每一步都调用超大模型，单步哪怕只慢 2 秒，总体体验也会很快变差。

更现实的是，很多步骤根本不需要“天才级推理”。

判断用户意图、路由工具、压缩上下文、生成简短摘要、做初步验证……这些任务更像系统里的流水线工位。

你需要的不是一个每次都深度思考的超级专家，而是一个响应快、成本低、稳定干活的专职助手。

这就是 Mellum2 的切入点。

它适合把大模型从一些高频琐碎任务里“解放”出来，让更强模型只处理真正需要复杂推理的环节。

这对开发者也有启发：未来构建 AI 应用，不一定是“一个最大模型打天下”，而更可能是多个模型、工具、检索系统、规则系统一起协作。

4. Mellum2 适合哪些场景？

根据 JetBrains 官方描述，我觉得可以把 Mellum2 的适用场景拆成四类。

4.1 AI 路由：先判断，再分发

在复杂 AI 系统里，路由是非常常见的能力。

用户说一句话，系统要判断：

• 这是代码生成，还是代码解释？
• 需要调用搜索工具吗？
• 需要读项目文件吗？
• 需要交给更强模型吗？
• 是否可以用便宜模型直接解决？

如果路由做得好，整个系统会更快、更省钱。

Mellum2 可以用来分析传入 prompt，为每个任务选择合适的模型或工具。

这类任务的特点是：量大、频繁、对速度敏感，而且不一定需要最强模型。

4.2 RAG：检索之后先做总结

RAG 不是“搜到资料丢给模型”这么简单。

真实系统里，检索出来的内容往往很长、很碎、噪声很多。

这时就需要一个中间步骤：把相关内容提炼、压缩、整理成更适合后续模型使用的上下文。

Mellum2 可以承担这类总结任务。

尤其在代码库问答、内部文档问答、知识库检索这类场景里，一个快速的本地模型会很有吸引力。

4.3 Agent 子任务：别什么都让主模型做

现在很多 Agent 系统喜欢把任务拆成多个阶段：

• 收集上下文
• 制定计划
• 执行操作
• 自检结果
• 生成最终说明

如果每个阶段都交给同一个大型模型，系统会变重，也更难控成本。

Mellum2 更适合处理其中一些快速、专门的子任务，比如上下文整理、初步分类、结果校验、短文本生成等。

这有点像团队协作：不是所有事情都要 CTO 亲自干，很多高频流程交给靠谱的专项同事，效率反而更高。

4.4 私有 AI：代码和数据留在自己手里

企业用 AI，最敏感的问题之一就是数据。

代码库、内部文档、业务知识、客户信息，这些内容不是所有团队都愿意交给外部服务处理。

Mellum2 开源后，可以在本地运行，也可以自托管部署。

这对于需要私有化 AI 能力的团队来说，意义很直接：

不是所有 AI 能力都必须走外部 API，至少一部分高频环节可以放在自己的基础设施里。

当然，具体能不能落地，还要看硬件、推理框架、吞吐需求和团队维护能力。但方向上，它给了开发者更多选择。

5. 普通开发者要不要马上用？

这里我建议分情况看。

如果你只是普通 IDE 用户，平时主要用 JetBrains IDE、Cursor、Claude Code、Copilot 这类工具写代码，那你不一定需要马上下载 Mellum2 来折腾。

因为它不是一个“装上就能让你立刻写代码快 10 倍”的消费级工具。

它更偏底层模型组件，适合 AI 工程、平台工程、企业内部工具团队使用。

但如果你符合下面几种情况，就值得关注：

• 你正在做 AI 编程助手或 IDE 插件
• 你在搭建企业内部 RAG / Agent 系统
• 你希望降低大模型 API 成本
• 你希望部分 AI 能力本地化或私有化
• 你的工作流里有大量分类、路由、总结、验证类任务

这时 Mellum2 的定位就比较清晰了：

它不是替代所有大模型，而是补齐系统里“快模型”这一层。

很多 AI 应用刚开始做原型时，一个强模型就够了。

但一旦进入生产，架构往往会变成：

• 便宜快速模型处理高频简单任务
• 强模型处理复杂推理和关键生成
• 检索系统提供上下文
• 工具调用负责真实执行
• 规则和评估系统负责约束输出

Mellum2 切的就是第一类位置。

6. 这件事背后的趋势：AI 产品不再只拼“单模型智商”

我觉得 JetBrains 这篇文章最值得注意的一句话，大意是：未来属于协同系统，而不是单一模型。

这句话很像软件工程里的老道理。

一个成熟系统，从来不是靠一个巨大的函数解决所有问题。

它会拆模块、分职责、做缓存、做队列、做降级、做监控。

AI 应用也是一样。

早期大家会觉得，只要模型足够强，其他问题都能被模型能力覆盖。

但现在越来越明显：真正可用的 AI 产品，需要工程化。

它需要：

• 清楚哪些任务该用大模型
• 哪些任务该用小模型
• 哪些任务该用传统代码
• 哪些任务该用检索
• 哪些任务必须人工确认

Mellum2 的开源，某种程度上就是这个趋势的体现。

JetBrains 没有把它包装成“万能模型”，而是很明确地说：它面向软件工程系统里的路由、问答、子智能体和私有 AI。

这个定位反而更务实。

对于开发者来说，这比单纯追一个“更强模型排行榜”更值得思考。

以后我们做 AI 应用，可能要少问一句：

哪个模型最强？

多问一句：

这个步骤到底需要多强的模型？

这个问题一变，架构就会跟着变。

7. 小结

简单总结一下 Mellum2：

• JetBrains 开源的 120 亿参数模型
• 从零开始训练，面向真实 AI 工作流
• 专注自然语言和代码，不走多模态路线
• 重点解决延迟、吞吐量和成本问题
• 适合路由、RAG、Agent 子任务、私有化部署
• 面向“协同系统”，而不是“单模型包打天下”

如果你是普通用户，可以把它理解成 JetBrains 在 AI 工程化方向上的一次重要布局。

如果你是正在做 AI 系统的开发者，那它更像一个提醒：别把所有事情都丢给最大模型，很多中间环节其实需要的是更快、更便宜、更可控的模型组件。

AI 编程工具的下一阶段，可能不会只是谁更会写代码。

而是谁能把模型、工具、上下文、私有化、成本和速度组合得更好。

Mellum2 的开源，正好踩在这个节点上。

如果你最近也在研究 AI Agent、RAG 或企业内部 AI 平台，可以把它加入观察列表。

觉得有用可以收藏一下，后面如果你想看 Mellum2 的本地部署、推理框架选择、以及它和其他开源代码模型的对比，我也可以继续整理一篇实测版。

今天的分享就到这里。后续我会持续为大家带来实用的技术干货和前沿的技术资讯。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-06-04，如有侵权请联系 cloudcommunity@tencent.com 删除

开源

本文分享自 DevLlama 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度