Token 经济学入门，别让 AI 每次从零认识你！

AI 生命克劳德

发布于 2026-05-22 21:13:04

1130

文章被收录于专栏：HUMAN3.0HUMAN3.0

我相信大多数凭感觉用AI的人其实并不了解的token经济学。但是作为一名使用AI的专业人士，你需要弄清楚自己到底在为哪些东西付费，不是么？同意的话请务必看完，未来可能会为你省一笔不小的费用开支。

Cursor 要钱，Claude Code 要钱，ChatGPT 要钱，API 要钱。你以为自己只是让 AI 帮忙改几行代码，结果一看消耗，怎么又跑掉一大截。

问题不只在“模型贵”。

更大的问题是，很多人根本不知道自己到底在为哪些东西付费。

这就是我想写《AI成本账》第二篇的原因。

如果第一篇讲的是：AI 收费时代来了，别让 Token 白白烧掉。

那这一篇就从更基础的地方开始：Token 账单到底由什么组成？

读完这篇，你至少能拿走三件事：

看懂 AI 账单里的 4 类 Token；
识别开发者最容易踩的 5 个成本坑；
建立一套更省钱的 AI 使用习惯。

这篇建议收藏。以后每次觉得 AI 账单变贵，都可以回来对照一下。

先看懂 4 类 Token

很多人把 Token 理解成“字数”。

这不算错，但不够用。

在真实的 AI 使用里，你不是只为模型最后回你那几句话付费。你还在为上下文、工具调用、历史对话、文件内容、缓存命中、内部推理一起付费。

大体可以先记住 4 类。

第一类：输入 Token。

你发给模型的所有内容，基本都算输入。

包括提示词、系统消息、项目说明、文件内容、对话历史、工具返回结果。有时候你只问了一句“帮我改这个 bug”，但工具在背后塞进去了几十个文件、几轮历史和一大堆日志。

你看到的是一句话，模型看到的是一大包上下文。

第二类：输出 Token。

模型返回给你的内容，就是输出。

代码、解释、重构方案、测试建议、总结报告，都在这里。多数模型的输出 Token 单价会明显高于输入 Token，所以那种“让 AI 多解释几遍、顺便输出完整文件”的习惯，长期看并不便宜。

第三类：缓存 Token。

这是很多人没用好的一类。

如果一段稳定上下文会被反复使用，比如系统提示、工具定义、项目规则、长期不变的代码说明，就不应该每次都按完整输入重新付费。OpenAI 和 Anthropic 都提供了 Prompt Caching 相关能力。缓存命中后，重复输入的成本和延迟都有机会明显下降。

这里的关键不是“有没有缓存功能”，而是你的工作流能不能让前缀稳定。

每次都把内容顺序改来改去、临时塞不同文件、工具输出乱进上下文，缓存就很容易失效。

第四类：推理 / thinking Token。

一些模型在生成最终答案前，会使用内部思考或 extended thinking。你可能看不到完整思考过程，但它仍然会消耗计算资源，并按供应商规则计费。

这类 Token 很适合复杂架构判断、疑难 bug、跨模块推理。

但如果你只是让模型格式化 JSON、改变量名、修拼写，还让它开高强度推理，那就是拿重型设备拧螺丝。

AI 账单变贵，常常不是因为你问得多

很多人一看到成本上涨，第一反应是：是不是我用太多了？

有时候是。

但在开发工作流里，更常见的浪费不是“问太多”，而是“每一问都太重”。

同样一个问题，你可以只给相关函数，也可以把半个仓库都喂进去。

同样一次修复，你可以先 grep 定位，也可以让 Agent 自己在 50 个文件里慢慢摸。

同样一段上下文，你可以缓存稳定前缀，也可以每一轮都重新发送。

差别不在使用频率，而在上下文组织方式。

下面这 5 个坑，是我认为开发者最容易踩的。

坑一：每次都把整个仓库塞给 AI

这是 AI 编程里最常见的浪费。

很多工具很聪明，会自动帮你找上下文。但自动上下文不是免费的。它一旦每轮都带上几十个文件，你就会在自己没察觉的时候，为大量没变化的内容反复付费。

尤其是这种场景：

项目规则每轮都带；
类型定义每轮都带；
测试文件每轮都带；
相关性不高的工具类每轮也带；
历史对话越滚越长。

你以为自己在问一个 bug，实际模型每轮都在重新读一遍“项目小百科”。

更好的做法是：先搜索，再喂上下文。

开发者至少要养成一个习惯：在问 AI 前，先用 rg、grep、IDE 搜索，把真正相关的函数、调用链、错误日志找出来。

不要上来就说“这是我的项目，你帮我看看”。

更好的提问方式是：

这是报错日志，这是入口函数，这是相关调用链。我怀疑问题在 A 或 B。你先判断还需要哪些文件，不要直接假设全局上下文。

这句话能省很多 Token。

因为你把“搜索空间”先收窄了。

坑二：工具调用循环失控

Agent 最容易让人成本失控的地方，是工具调用循环。

它说“我查一下”。

调用工具。

拿到一大段输出。

再把完整上下文发回模型。

再说“我再看一下”。

再调用工具。

再把新的输出塞进去。

几轮下来，你可能已经为同一批上下文付了好几次钱。

这不是 Agent 不好，而是工作流没有约束。

更好的方式是让 Agent 先规划，再行动。

你可以这样要求：

先列出你需要检查的文件、命令和信息。不要马上执行。等我确认后，再按批次读取，避免重复工具调用。

如果是已知流程，就尽量用脚本替代 Agent 循环。

比如批量检查文件格式、扫描关键字、统计日志、转换数据，这些事不需要模型每一步都思考。脚本一次跑完，输出一个压缩后的结果，再交给模型判断，通常更便宜，也更稳定。

Agent 负责判断，脚本负责搬砖。

这个分工很重要。

坑三：简单任务也用高端模型

很多人默认把所有任务都交给高端模型。

这在体验上很舒服，在账单上很浪费。

修拼写、格式化 JSON、生成正则、解释一段短代码、重命名变量、补单元测试样例，这些任务并不总需要高端模型。

高端模型真正应该用在什么地方？

我更建议留给这几类任务：

架构设计；
模块边界判断；
高风险重构；
多文件复杂 bug；
方案取舍；
最终审查。

日常执行、格式处理、简单改写、低风险实现，可以走便宜模型、本地模型、脚本，或者交给工具链。

成熟的 AI 工作流，一定会有模型路由。

不是因为便宜模型更高级，而是因为不同任务本来就应该用不同成本的工具。

你不会用挖掘机拧螺丝，也不应该让高端推理模型做所有杂活。

坑四：稳定上下文没有缓存

Prompt Caching 是这一篇里最值得收藏的点。

OpenAI 官方文档提到，Prompt Caching 可以降低延迟，并在符合条件时降低输入 Token 成本。Anthropic 的文档也明确说明，缓存读取 Token 可以按基础输入价格的一小部分计费。

翻译成人话就是：如果一段内容每次都一样，就尽量别让模型每次重新付全价。

哪些内容适合缓存？

系统提示；
工具定义；
项目规则；
AGENTS.md / CLAUDE.md；
稳定的业务背景；
长期不变的接口说明；
固定代码库摘要。

但缓存不是魔法。它吃的是“稳定前缀”。

如果你每次都把动态内容放在最前面，或者频繁改变系统提示、工具顺序、文件顺序，缓存就容易被打断。

更好的组织方式是：

稳定内容放前面，动态问题放后面。

长期规则放前面，当轮任务放后面。

项目背景放前面，临时日志放后面。

这不是写提示词的小技巧，这是在设计更便宜的调用结构。

坑五：“以防万一”把上下文越塞越大

很多人喂上下文时，心里会有一个声音：

这个文件也许有用，塞进去。

这个测试也许相关，塞进去。

这个类型定义也许模型需要，也塞进去。

最后一个很小的 bug，变成了一个巨大上下文任务。

上下文越多，模型确实知道得更多，但成本也更高，注意力也更分散。

AI 不怕信息少，怕的是信息杂。

更好的方式是让模型主动要上下文。

你可以先给最小信息：

这是错误现象、相关入口和我已经排除的可能性。你先判断还需要哪些文件，不要一次性要求我提供整个仓库。

如果模型说需要某个函数、某个类型、某个测试，再补。

这比“以防万一全塞进去”更省，也更利于定位问题。

长对话里也一样。跑了很多轮以后，要定期让模型总结旧上下文，保留结论、决策和待办，删掉原始噪音。

不要让历史对话变成一个越来越重的背包。

一张开发者省钱清单

如果你暂时记不住太多，就先收藏这张清单。

以后每次用 AI 写代码前，过一遍：

先 rg，再提问。
只给相关函数和报错，不默认喂整个仓库。
让 Agent 先列计划，再批量读文件。
工具输出先压缩，再放进上下文。
简单任务走便宜模型、脚本或本地工具。
高端模型只用于架构、复杂推理和最终审查。
稳定提示、项目规则、工具定义尽量走缓存。
稳定内容放前面，动态问题放后面。
长对话定期总结，别让历史无限滚大。
每周看一次用量，找出最贵的那类任务。

这 10 条看起来不复杂，但真正做到以后，AI 使用方式会变得完全不同。

你不再是凭感觉把任务丢给模型。

你开始像管理一个小团队一样管理 AI：谁负责搜索，谁负责执行，谁负责判断，谁负责复盘。

Token 经济学，其实是工作流经济学

所以，Token 经济学不是让你变抠。

它真正要训练的是一种成本意识。

你要知道什么时候该花钱，什么时候不该花钱；什么时候该让模型思考，什么时候该让脚本执行；什么时候该给长上下文，什么时候该先做检索；什么时候该用高端模型，什么时候便宜模型已经够用。

这背后不是省几块钱的问题。

它会反过来逼你把工作流搭得更清楚。

一个人如果每次都让 AI 从零理解他的项目、偏好、规范、历史决策，他当然会越用越贵。

但如果他把高频任务沉淀成模板，把项目规则沉淀成文档，把稳定上下文放进缓存，把复杂任务拆给不同模型和工具，AI 就不再只是一个随叫随到的聊天框。

它会慢慢变成一套可复用的能力系统。

这也是《AI成本账》想持续讨论的东西。

省 Token 只是入口。

真正重要的是：用成本意识倒逼个人工作流升级。

下一篇，我会把这件事再往前推一步。

看懂 Token 账单只是开始。真正有用的是回到自己的 AI 使用记录里，找出到底是哪类任务最贵。

是订阅太多，还是上下文太重？

是 Agent 在反复摸路，还是简单任务用了太贵的模型？

如果看不到精确 Token，又该用什么指标替代？

所以下一篇《AI成本账》，我会给你一张 AI 成本体检表，带你做一次自己的 AI 使用成本检查。

资料来源

OpenAI：API Pricing
OpenAI：Prompt Caching
Anthropic：Claude Pricing
Anthropic：Prompt Caching
Anthropic：Context windows / extended thinking token behavior

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-05-21，如有侵权请联系 cloudcommunity@tencent.com 删除

缓存

本文分享自深空矩阵微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度