为什么越来越多企业放弃自研大模型？

AI智享空间

发布于 2026-06-08 13:18:46

三年前，“自研大模型”还是各家技术团队的勋章；三年后，它悄悄变成了不少 CTO 的心病。

2023 年前后，一股“自研热”席卷国内各行各业。大厂、中厂、甚至一些百人规模的科技公司，都在内部立项，要搞“属于自己的大模型”。PPT 里写满了愿景：数据自主、能力定制、不受制于人。

两年过去了，大多数项目悄无声息地停掉了，或者缩减成了一个小规模的微调实验小组。

这不是因为这些公司的工程师不够努力，而是大家都踩了同一批坑。

本文不讲理论，只讲这些企业到底遇到了什么，最终为什么选择放弃。

一、算力这道坎，一开始就没算清楚

很多团队在立项时的预算估算是这样的：买几台 A100，花几个月训练，上线搞定。

现实是什么？

训练一个 70B 参数规模的模型，光是一轮预训练，就需要数百张 A100 跑几个月。电费、机器折旧、运维人力，全部算进去，没有几千万根本玩不转。更别说训练失败了要重来，超参数不对要调，数据质量差要重新清洗……每一次迭代都在烧钱。

更心痛的是：买来的卡，不一定用满。训练完了，这批硬件就进入“吃灰”状态——推理用不完这么多算力，养着又是固定成本，卖掉又亏损。

大多数企业低估的不是技术难度，而是算力的持续投入成本。它不是一次性支出，而是一个无底洞。

二、数据问题，比你想象的麻烦十倍

很多团队一开始信心满满：“我们有海量业务数据，正好用来训练专属模型。”

等到真正动手，才发现这些数据：

格式混乱：PDF、Word、数据库导出的 CSV、客服聊天记录……光是清洗统一格式就要几个月；
质量堪忧：业务数据里充斥着错别字、重复内容、过时信息，直接喂给模型，训出来的东西比通用模型还差；
涉及隐私：客户姓名、合同金额、员工信息……这些数据能不能用？怎么脱敏？法务一介入，立刻卡住；
量不够：以为自己有几亿条数据，结果去重、过滤之后，真正有效的训练数据可能只有几百万条，根本不够。

数据工程本身就是一个独立的重型工程，很多公司没有专门的数据团队，活生生让算法工程师去兼职做，效率极低，质量也无法保证。

三、人才稀缺，而且根本留不住

能独立完成大模型预训练的工程师，国内市场上屈指可数，而且绝大多数都集中在头部大厂。

中等规模的企业能给出的薪资，往往比不过 BAT、字节、华为。好不容易招到一个懂 Transformer 架构调优的人，干了半年发现更好的机会，走了。走之前的代码注释写得七零八落，文档一行没有，下一个人接手如同重新开始。

更现实的问题是：训练大模型需要的不是一个全才，而是一个团队——数据工程师、预训练工程师、RLHF 工程师、推理优化工程师、评测工程师……每个角色都是稀缺工种，凑齐一个团队的成本，比大多数企业预想的高出一个量级。

四、训出来了，效果却让人尴尬

假设前三关都过了，模型真的训出来了。然后呢？

很多团队发现，自研模型在通用能力上，跑分比 GPT-4 低一大截；在专业领域，又因为数据不够，效果和 fine-tune 一个开源模型差不多，甚至还不如。

更头疼的是幻觉问题：模型会一本正经地编造数据、引用不存在的文件、给出错误的法律条款。在对精准性要求极高的金融、医疗、法律等场景，这几乎是不可接受的。

解决幻觉问题需要大量的对齐工程（RLHF、DPO 等），这又是另一套工程体系，需要重新组队、重新采集标注数据。

很多团队在这一步陷入了“训练—上线—发现问题—重新训练”的死循环，项目周期从半年拖到两年，迟迟无法真正落地。

五、上线之后，运维才是噩梦的开始

就算模型上线了，故事也没有结束。

推理服务需要 GPU，而 GPU 成本比 CPU 贵得多。一旦有并发请求，延迟飙升，用户体验崩溃。要解决这个问题，需要做模型量化、推理加速、负载均衡……又是一套新的工程活。

外部模型提供商（如 OpenAI、Claude、通义、文心）会定期更新版本，能力越来越强，价格越来越低。而自研模型的迭代，受限于团队规模和计算资源，往往跟不上这个节奏。

慢慢地，一个令人沮丧的现实浮现出来：自研模型的成本在涨，外部 API 的能力在涨、价格在降。两条曲线朝着相反方向运动，差距越来越大。

六、大多数企业，其实并不需要自研

冷静下来，问一个根本问题：企业为什么要自研大模型？

通常的答案是：数据安全、能力定制、不依赖第三方。

但仔细拆解一下：

数据安全：私有化部署的开源模型（Llama、Qwen、DeepSeek 等）完全可以跑在本地，数据不出内网，这个问题可以解决，不需要自研；
能力定制：针对业务场景做 SFT（监督微调）或者 RAG（检索增强生成），成本只有预训练的几百分之一，效果往往更好；
不依赖第三方：这是一个合理的担忧，但用多家供应商 + 私有化部署的开源模型组合，已经可以大幅降低单一依赖风险。

换句话说：企业真正需要的，是“用好大模型的能力”，而不是“拥有大模型本身”。

七、行业正在回归理性

放弃自研，不是认输，而是认清了边界。

现在越来越多的企业走上了一条更务实的路：

用开源模型（DeepSeek、Qwen、Llama）做底座；
针对业务场景做精细化微调；
结合 RAG 架构，把内部知识库接进来；
在需要最强能力的地方，调用顶级商业 API。

这套组合拳，成本是自研的几十分之一，落地周期从两年缩短到几个月，而且效果在大多数业务场景下完全够用。

真正在做自研大模型的，是那些以模型能力本身作为核心竞争力的公司——AI 原生企业、大型云厂商、有海量专有数据且强依赖模型能力差异化的行业龙头。对他们来说，自研是护城河。对其他大多数企业来说，自研是一个成本极高的弯路。

结尾

技术选型没有对错，只有适不适合。大模型这条路上，最贵的教训往往不是技术失败，而是在错误的方向上投入了两年时间、几千万预算，最后发现终点和起点的距离，其实用调用 API 三个月就能到达。认清这一点，不是退步，是成熟。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-06-07，如有侵权请联系 cloudcommunity@tencent.com 删除

开源

本文分享自 AI智享空间微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度