IT时代网6月30日消息,美团正式发布新一代万亿参数大模型LongCat-2.0并对外开源。作为业界首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数模型,LongCat-2.0总参数1.6T,平均激活约48B,从零开始预训练,原生支持1M超长上下文。
LongCat团队对国产算力的探索始于2023年,三年来从千卡起步逐步攻克算子适配、通信优化、分布式稳定性等难题,最终在五万卡集群上完成全流程训练。预训练数据规模超30T tokens,通过HCCL异常处理和自动故障恢复将月均日故障率降低70%以上,训练MFU提升1.5倍,实现稳态日吞吐超1T tokens/day。
架构设计上,LongCat-2.0采用LongCat Sparse Attention稀疏注意力机制,在1M超长上下文中保持精准信息定位;零计算专家实现token级动态激活(33B~56B),简单token不消耗算力;MOPD架构融合Agent、Reasoning、Interaction三组专家能力,推理时动态调度最擅长专家。
评测显示,LongCat-2.0在SWE-bench Pro中获得59.5,领先Gemini 3.1 Pro和GPT-5.5;在Terminal-Bench 2.1中取得70.8。预览版已通过OpenRouter开放调用,跻身全球大模型调用量前三,成为最受全球Agent开发者欢迎的模型之一。
创作声明:本文借助AI辅助创作