很多公司的云账单从去年开始出现了一个共同的变化趋势:AI 相关的支出占比越来越高了。以前云账单里最大头的是计算和存储,现在打开账单,光是 GPU 实例费加上各类模型 API 调用费,就可能已经超过传统云服务的总和。
这个变化带来的问题是:你以前那套 FinOps 方法论,还能管住 AI 成本吗?
答案是:能管一部分,但远远不够。
AI 正在从两个方向同时重塑 FinOps:一个是 AI 怎么帮助 FinOps 本身提效,也就是用 AI 做 FinOps;另一个是 FinOps 怎么管住 AI 这类新型云资源的成本,也就是 FinOps for AI。这两个方向看起来相似,实际上解决的问题完全不同。
本文想集中聊的是后面这个方向——当 AI 成为云账单的主角,FinOps 的工作方式应该发生什么变化,为什么这些变化正在发生,以及企业目前真实面临的挑战是什么。
在说 AI 之前,先回顾一下 FinOps 的基本框架。FinOps不是什么新鲜概念,它是一套云成本管理的实践方法论,核心无非几件事:搞清楚钱花在哪里(可见性)、想办法少花钱(优化)、把钱分摊到该负责的地方(归属),然后持续循环改进。这套框架在传统云时代已经被证明有效。
到了 AI 时代,很多 FinOps 团队开始发现,这套方法论套在 AI 成本上,要么不适用,要么适用起来难度高出一个数量级。
先说还管用的部分。成本归属的基本逻辑没有变——AI 服务产生的费用,依然需要归属到具体的团队、项目、产品。这个目标没有变,只是实现路径更复杂了。费率优化的思路没有变——无论是 GPU 实例还是模型 API,费率折扣的核心逻辑都是买的越多越便宜,问题只是谁该买、买多少。预算管理的基本框架没有变——你需要预测未来的 AI 支出,你需要为超支设立预警,你需要定期回顾预算执行情况。这个流程没有变,只是 AI 市场的变化速度让预测变得更难了。
然后说不那么管用的部分。
传统云成本有一个相对稳定的特征:用量可预测,价格相对稳定,新 SKU 发布频率可控。你可以根据过去三个月的 CPU 小时消耗,较为准确地预测下个月的支出,误差通常可以控制在正负 10% 以内。这个预测能力是 FinOps 方法论的重要基础,因为它让预算变得可信。
AI 成本不是这样的。Token 消耗的波动性远高于 CPU 核小时——用户每次提问的长短不同、模型版本更新后消耗模式可能发生变化、新的 AI 功能上线会导致用量突然跃升,这些变量加在一起,让 AI 成本预测的难度高了很多。更要命的是,模型 API 的价格调整频率在近两年实际上是在加快而不是减慢。你可能 Q1 做了一版 AI 成本预测,Q2 收到通知说某个模型厂商调整了 API 价格,整个预测全部作废。这种事情在传统云领域几乎不会发生,但在 AI 领域已经开始成为常态。
所以我的判断是:FinOps 的框架没有过时,但 FinOps 团队需要为 AI 场景单独建立一套预测、分摊和优化的方法论,而不是试图把老的 FinOps 流程直接套用过来。
说几个我观察到的最明显的变化。
数据分析的深度要求提升了一个层次。 传统 FinOps 的数据分析,通常是对着云账单做汇总分析,按资源类型分组、按标签归因,这个过程基本是结构化的、可以自动化的。AI 成本的分析要复杂得多。你需要理解 Token 消耗的模式,理解不同模型版本的单价差异,理解用户输入 Token 和模型输出 Token 是分别计费的。你需要把 AI 成本和业务指标关联起来看——「这一百万元的大模型 API 费用,带来了多少转化?多少效率提升?多少用户满意度改进?」这些问题是传统 FinOps 报表回答不了的。
成本优化的思路从「选型」变成了「架构」。 传统云的 Right-sizing 通常是选一个更小规格的实例,这个决定相对直接。AI 成本优化的维度要广得多:应该用 GPT-4 还是 GPT-4o Mini?应该调用云厂商的托管模型还是自己部署开源模型?应该用 RAG 架构还是纯长上下文?这些架构选择直接影响 AI 成本,而且每个选择都有权衡——更便宜的方案通常意味着效果上的某种牺牲,这不是 FinOps 团队自己能做的决定,需要和 AI 产品团队一起权衡。
成本责任主体的范围急剧扩大。 在传统云时代,云成本的主要责任人在工程和运维团队,这些人对云资源有基本概念,知道什么叫实例规格、什么叫按量付费。AI 时代,产品经理、营销人员甚至客服人员,都可能直接掏钱使用 AI 服务,但他们中的大多数人对「这个服务花了多少钱」完全没有概念。更麻烦的是,他们使用的 AI 能力可能嵌入在他们日常使用的 SaaS 工具里,他们根本不知道自己每点一下鼠标,背后都在产生模型 API 调用费用。这不是他们的问题,这是 FinOps 团队的失职——你没有把成本可见性传递到这些新的用 AI 的人。
预测性成本管理从「加分项」变成了「必选项」。 传统 FinOps 通常是月度回顾——到了月底看看账单超没超,分析一下原因,制定改进计划。这在传统云场景下是可以接受的,因为传统云成本的变化相对缓慢,月度回顾足够及时。AI 成本的变化速度快很多,一次新产品功能的 AI 功能发布,可能下周就会让 AI 账单翻倍。如果等你月底看账单才发现超支,能做的补救已经很有限了。你需要周级甚至日级的 AI 成本可见性,配合预测能力,提前知道「按目前的调用量,这个月的 AI 账单大概会是多少,是否会超过预算」。
说完 FinOps for AI,再简短提一下 AI for FinOps,因为这是另一个正在快速发展的方向——用 AI 的能力来提升 FinOps 本身的工作效率。
自然语言查询账单是我觉得目前最实用的方向。大多数企业的云成本数据散落在多个云平台、多个账号、多个服务里,查一个数据需要写 SQL 或者导 Excel,等数据团队跑完数据才能看到。AI 改变了这个过程——你直接用自然语言问「过去三个月,哪个产品的 GPU 成本增速最快」,几秒钟出结果,还能追问原因。这在以前是不可想象的效率提升。
异常检测是另一个明显提效的场景。传统 FinOps 的异常检测通常是基于规则——账单突然超过某个阈值,或者某个服务用量突然飙升,这种规则简单粗暴但有效。AI 让异常检测变得智能得多——AI 模型可以学习你的云消费模式,自动识别「这个用量今天比平时高了 40%,但原因是今天有个批量任务,不是有问题」还是「这个用量异常,而且原因是某个服务的配置问题导致了资源浪费」。前者是正常波动,后者需要告警。这种智能判断,以前需要经验丰富的 FinOps 工程师花时间分析才能判断出来,现在 AI 可以自动完成大部分。
成本报告生成的自动化也在开始普及。每个季度给管理层汇报 AI 成本,通常要花几天时间准备 PPT 和数据。AI 开始可以自动生成报告初稿,分析数据趋势,识别主要成本驱动因素,甚至可以基于数据生成初步的建议。这个工作目前还需要人工复核,但效率提升已经非常明显。
聊几个我在实际工作中看到的真实挑战。
挑战一:AI 成本归因难。 一家公司的 AI API 账单上显示月支出 80 万,但没有人能说清楚这 80 万是怎么分布的。原因是多个团队的多个应用都在用同一个 API key,而且这些应用之间没有统一的调用日志收集机制,成本归属只能靠估算。这不是技术问题,这是组织问题——AI 服务在企业内部的使用方式还缺乏规范,大家各自为战,没有统一的成本记账规则。
挑战二:AI 模型选型缺乏成本视角。 产品团队在选 AI 模型的时候,通常是从效果角度出发——GPT-4 效果最好,就用 GPT-4。很少有人会同时算一笔账:如果这个功能一天被调用一万次,GPT-4 和 GPT-4o Mini 的月成本差异是多少,这个效果差异值不值得这个差价。FinOps 团队通常不参与这个决策,所以这个成本视角是缺失的。最好的结果是产品团队在某个功能上线之后才发现成本超预期,最坏的结果是成本一直超但没人知道。
挑战三:AI 成本预测缺少历史数据。 AI 是新事物,大多数企业的 AI 应用规模真正起来也就这一两年。这意味着用于做 AI 成本预测的历史数据积累还不够,预测模型还没跑顺。传统云服务的预测可以用过去 12 个月的数据建立基准,AI 成本预测可能只有过去 3 个月的数据,而且这 3 个月的用量增长曲线可能还处于快速上升期,参考价值有限。这是个时间问题,也是个学习曲线问题——AI 用量越大、积累的数据越多,预测才能越准。
挑战四:GPU 资源预留的决策风险。 GPU 资源相对稀缺,购买 GPU 预留实例需要提前锁定承诺,这个决定比预留 EC2 实例风险更高。你需要预测未来的 GPU 需求量,但 AI 业务的增长曲线往往比传统云业务更难预测。买多了浪费,买少了影响业务,这个权衡对 FinOps 团队来说是新课题。
虽然挑战很多,但我对 AI 成本管理的未来是乐观的。这个领域正在快速成熟。
全自动化闭环是最终目标——从成本异常检测,到根因分析,到优化建议,到执行验证,全部由 AI 系统自动完成,人工只负责审核重大决策。这在某些场景下已经开始实现,比如自动化的 GPU 实例类型推荐、闲置资源的自动回收。但完整闭环还需要时间。
成本意识向 AI 使用者的渗透是另一个趋势。现在的状态是:FinOps 团队在努力管 AI 成本,但 AI 的使用者——那些产品经理、那些数据科学家、那些工程师——大多数没有成本意识。未来的方向是让成本可见性成为 AI 使用工具的标准配置,就像现在云服务器的仪表盘会显示 CPU 和内存使用率一样,AI 工具也应该让使用者实时看到自己行为的成本影响。这需要 FinOps 团队和产品团队一起推动。
碳排放成本纳入 AI 成本管理体系是正在发生的另一个变化。AI 推理有碳足迹,尤其是在大规模 GPU 集群上训练和推理时。越来越多的企业开始要求 AI 服务提供 per-request 的碳排放数据,这个数据维度在传统的 FinOps 框架里完全不存在,但现在开始变得重要了。
AI 正在深刻地改变 FinOps 的工作内容和方法论,但 FinOps 的核心目标没有变——让组织的每一分钱都花得值。
变化的是实现路径。传统云成本管理,FinOps 团队是核心执行者。AI 成本管理,FinOps 团队更像是规则的制定者和协调者——你需要把成本意识传递给更广泛的利益相关方,你需要建立让成本可见性渗透到 AI 使用场景的机制,你需要和 AI 产品团队一起在效果和成本之间找到平衡点。
这不是 FinOps 的终结,而是 FinOps 能力的扩展。如果你在做 FinOps 工作,现在是最好的时机去学习 AI 相关的知识——云成本管理的本质没有变,但游戏规则正在重写,你有机会参与这个重写的过程。