
三年前,“自研大模型”还是各家技术团队的勋章;三年后,它悄悄变成了不少 CTO 的心病。
2023 年前后,一股“自研热”席卷国内各行各业。大厂、中厂、甚至一些百人规模的科技公司,都在内部立项,要搞“属于自己的大模型”。PPT 里写满了愿景:数据自主、能力定制、不受制于人。
两年过去了,大多数项目悄无声息地停掉了,或者缩减成了一个小规模的微调实验小组。
这不是因为这些公司的工程师不够努力,而是大家都踩了同一批坑。
本文不讲理论,只讲这些企业到底遇到了什么,最终为什么选择放弃。
很多团队在立项时的预算估算是这样的:买几台 A100,花几个月训练,上线搞定。
现实是什么?
训练一个 70B 参数规模的模型,光是一轮预训练,就需要数百张 A100 跑几个月。电费、机器折旧、运维人力,全部算进去,没有几千万根本玩不转。更别说训练失败了要重来,超参数不对要调,数据质量差要重新清洗……每一次迭代都在烧钱。
更心痛的是:买来的卡,不一定用满。训练完了,这批硬件就进入“吃灰”状态——推理用不完这么多算力,养着又是固定成本,卖掉又亏损。
大多数企业低估的不是技术难度,而是算力的持续投入成本。它不是一次性支出,而是一个无底洞。
很多团队一开始信心满满:“我们有海量业务数据,正好用来训练专属模型。”
等到真正动手,才发现这些数据:
数据工程本身就是一个独立的重型工程,很多公司没有专门的数据团队,活生生让算法工程师去兼职做,效率极低,质量也无法保证。
能独立完成大模型预训练的工程师,国内市场上屈指可数,而且绝大多数都集中在头部大厂。
中等规模的企业能给出的薪资,往往比不过 BAT、字节、华为。好不容易招到一个懂 Transformer 架构调优的人,干了半年发现更好的机会,走了。走之前的代码注释写得七零八落,文档一行没有,下一个人接手如同重新开始。
更现实的问题是:训练大模型需要的不是一个全才,而是一个团队——数据工程师、预训练工程师、RLHF 工程师、推理优化工程师、评测工程师……每个角色都是稀缺工种,凑齐一个团队的成本,比大多数企业预想的高出一个量级。
假设前三关都过了,模型真的训出来了。然后呢?
很多团队发现,自研模型在通用能力上,跑分比 GPT-4 低一大截;在专业领域,又因为数据不够,效果和 fine-tune 一个开源模型差不多,甚至还不如。
更头疼的是幻觉问题:模型会一本正经地编造数据、引用不存在的文件、给出错误的法律条款。在对精准性要求极高的金融、医疗、法律等场景,这几乎是不可接受的。
解决幻觉问题需要大量的对齐工程(RLHF、DPO 等),这又是另一套工程体系,需要重新组队、重新采集标注数据。
很多团队在这一步陷入了“训练—上线—发现问题—重新训练”的死循环,项目周期从半年拖到两年,迟迟无法真正落地。
就算模型上线了,故事也没有结束。
推理服务需要 GPU,而 GPU 成本比 CPU 贵得多。一旦有并发请求,延迟飙升,用户体验崩溃。要解决这个问题,需要做模型量化、推理加速、负载均衡……又是一套新的工程活。
外部模型提供商(如 OpenAI、Claude、通义、文心)会定期更新版本,能力越来越强,价格越来越低。而自研模型的迭代,受限于团队规模和计算资源,往往跟不上这个节奏。
慢慢地,一个令人沮丧的现实浮现出来:自研模型的成本在涨,外部 API 的能力在涨、价格在降。两条曲线朝着相反方向运动,差距越来越大。
冷静下来,问一个根本问题:企业为什么要自研大模型?
通常的答案是:数据安全、能力定制、不依赖第三方。
但仔细拆解一下:
换句话说:企业真正需要的,是“用好大模型的能力”,而不是“拥有大模型本身”。
放弃自研,不是认输,而是认清了边界。
现在越来越多的企业走上了一条更务实的路:
这套组合拳,成本是自研的几十分之一,落地周期从两年缩短到几个月,而且效果在大多数业务场景下完全够用。
真正在做自研大模型的,是那些以模型能力本身作为核心竞争力的公司——AI 原生企业、大型云厂商、有海量专有数据且强依赖模型能力差异化的行业龙头。对他们来说,自研是护城河。对其他大多数企业来说,自研是一个成本极高的弯路。
技术选型没有对错,只有适不适合。大模型这条路上,最贵的教训往往不是技术失败,而是在错误的方向上投入了两年时间、几千万预算,最后发现终点和起点的距离,其实用调用 API 三个月就能到达。认清这一点,不是退步,是成熟。