首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >为什么越来越多企业放弃自研大模型?

为什么越来越多企业放弃自研大模型?

作者头像
AI智享空间
发布2026-06-08 13:18:46
发布2026-06-08 13:18:46
10
举报

三年前,“自研大模型”还是各家技术团队的勋章;三年后,它悄悄变成了不少 CTO 的心病。

2023 年前后,一股“自研热”席卷国内各行各业。大厂、中厂、甚至一些百人规模的科技公司,都在内部立项,要搞“属于自己的大模型”。PPT 里写满了愿景:数据自主、能力定制、不受制于人。

两年过去了,大多数项目悄无声息地停掉了,或者缩减成了一个小规模的微调实验小组。

这不是因为这些公司的工程师不够努力,而是大家都踩了同一批坑。

本文不讲理论,只讲这些企业到底遇到了什么,最终为什么选择放弃。


一、算力这道坎,一开始就没算清楚

很多团队在立项时的预算估算是这样的:买几台 A100,花几个月训练,上线搞定。

现实是什么?

训练一个 70B 参数规模的模型,光是一轮预训练,就需要数百张 A100 跑几个月。电费、机器折旧、运维人力,全部算进去,没有几千万根本玩不转。更别说训练失败了要重来,超参数不对要调,数据质量差要重新清洗……每一次迭代都在烧钱。

更心痛的是:买来的卡,不一定用满。训练完了,这批硬件就进入“吃灰”状态——推理用不完这么多算力,养着又是固定成本,卖掉又亏损。

大多数企业低估的不是技术难度,而是算力的持续投入成本。它不是一次性支出,而是一个无底洞。


二、数据问题,比你想象的麻烦十倍

很多团队一开始信心满满:“我们有海量业务数据,正好用来训练专属模型。”

等到真正动手,才发现这些数据:

  • 格式混乱:PDF、Word、数据库导出的 CSV、客服聊天记录……光是清洗统一格式就要几个月;
  • 质量堪忧:业务数据里充斥着错别字、重复内容、过时信息,直接喂给模型,训出来的东西比通用模型还差;
  • 涉及隐私:客户姓名、合同金额、员工信息……这些数据能不能用?怎么脱敏?法务一介入,立刻卡住;
  • 量不够:以为自己有几亿条数据,结果去重、过滤之后,真正有效的训练数据可能只有几百万条,根本不够。

数据工程本身就是一个独立的重型工程,很多公司没有专门的数据团队,活生生让算法工程师去兼职做,效率极低,质量也无法保证。


三、人才稀缺,而且根本留不住

能独立完成大模型预训练的工程师,国内市场上屈指可数,而且绝大多数都集中在头部大厂。

中等规模的企业能给出的薪资,往往比不过 BAT、字节、华为。好不容易招到一个懂 Transformer 架构调优的人,干了半年发现更好的机会,走了。走之前的代码注释写得七零八落,文档一行没有,下一个人接手如同重新开始。

更现实的问题是:训练大模型需要的不是一个全才,而是一个团队——数据工程师、预训练工程师、RLHF 工程师、推理优化工程师、评测工程师……每个角色都是稀缺工种,凑齐一个团队的成本,比大多数企业预想的高出一个量级。


四、训出来了,效果却让人尴尬

假设前三关都过了,模型真的训出来了。然后呢?

很多团队发现,自研模型在通用能力上,跑分比 GPT-4 低一大截;在专业领域,又因为数据不够,效果和 fine-tune 一个开源模型差不多,甚至还不如。

更头疼的是幻觉问题:模型会一本正经地编造数据、引用不存在的文件、给出错误的法律条款。在对精准性要求极高的金融、医疗、法律等场景,这几乎是不可接受的。

解决幻觉问题需要大量的对齐工程(RLHF、DPO 等),这又是另一套工程体系,需要重新组队、重新采集标注数据。

很多团队在这一步陷入了“训练—上线—发现问题—重新训练”的死循环,项目周期从半年拖到两年,迟迟无法真正落地。


五、上线之后,运维才是噩梦的开始

就算模型上线了,故事也没有结束。

推理服务需要 GPU,而 GPU 成本比 CPU 贵得多。一旦有并发请求,延迟飙升,用户体验崩溃。要解决这个问题,需要做模型量化、推理加速、负载均衡……又是一套新的工程活。

外部模型提供商(如 OpenAI、Claude、通义、文心)会定期更新版本,能力越来越强,价格越来越低。而自研模型的迭代,受限于团队规模和计算资源,往往跟不上这个节奏。

慢慢地,一个令人沮丧的现实浮现出来:自研模型的成本在涨,外部 API 的能力在涨、价格在降。两条曲线朝着相反方向运动,差距越来越大。


六、大多数企业,其实并不需要自研

冷静下来,问一个根本问题:企业为什么要自研大模型?

通常的答案是:数据安全、能力定制、不依赖第三方。

但仔细拆解一下:

  • 数据安全:私有化部署的开源模型(Llama、Qwen、DeepSeek 等)完全可以跑在本地,数据不出内网,这个问题可以解决,不需要自研;
  • 能力定制:针对业务场景做 SFT(监督微调)或者 RAG(检索增强生成),成本只有预训练的几百分之一,效果往往更好;
  • 不依赖第三方:这是一个合理的担忧,但用多家供应商 + 私有化部署的开源模型组合,已经可以大幅降低单一依赖风险。

换句话说:企业真正需要的,是“用好大模型的能力”,而不是“拥有大模型本身”


七、行业正在回归理性

放弃自研,不是认输,而是认清了边界。

现在越来越多的企业走上了一条更务实的路:

  • 用开源模型(DeepSeek、Qwen、Llama)做底座;
  • 针对业务场景做精细化微调;
  • 结合 RAG 架构,把内部知识库接进来;
  • 在需要最强能力的地方,调用顶级商业 API。

这套组合拳,成本是自研的几十分之一,落地周期从两年缩短到几个月,而且效果在大多数业务场景下完全够用。

真正在做自研大模型的,是那些以模型能力本身作为核心竞争力的公司——AI 原生企业、大型云厂商、有海量专有数据且强依赖模型能力差异化的行业龙头。对他们来说,自研是护城河。对其他大多数企业来说,自研是一个成本极高的弯路。


结尾

技术选型没有对错,只有适不适合。大模型这条路上,最贵的教训往往不是技术失败,而是在错误的方向上投入了两年时间、几千万预算,最后发现终点和起点的距离,其实用调用 API 三个月就能到达。认清这一点,不是退步,是成熟。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-06-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI智享空间 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、算力这道坎,一开始就没算清楚
  • 二、数据问题,比你想象的麻烦十倍
  • 三、人才稀缺,而且根本留不住
  • 四、训出来了,效果却让人尴尬
  • 五、上线之后,运维才是噩梦的开始
  • 六、大多数企业,其实并不需要自研
  • 七、行业正在回归理性
  • 结尾
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档