
让 AI 像人一样"看屏幕、点鼠标"完成一个网页任务,平均要花 45 倍的钱、30 倍的时间——和"老老实实调一个 API"的同款任务相比。
而且这个差距,不是模型再迭代两代就能抹平的。它是物理底盘差。
···
任务很普通,普通到像每周给一个内部小后台做的运维:
在管理后台找到那个名叫 "Smith"、订单数最多的客户,定位他最近一笔待发货的订单,把他所有待审核的评价全部通过,然后把这单标记为已送达。
中间要筛选、要翻页、要跨表查、要既读又写。一个真人用后台 30 秒能干完。
让 AI 替你干,有两条路:
A 路(截屏点击派):模型每一步先截一张图,看图,决定下一步点哪儿,发出鼠标动作,等页面变化,再截一张图……Anthropic 这两年主推的 Computer Use 就是这条路。
B 路(API 派):把后台的功能挂成结构化工具,模型通过 JSON 把"筛选哪个字段、改哪条记录"写成一次工具调用,直接打到后端。
同一个模型(Claude Sonnet)、同一个任务,跑下来:
截屏点击派 | API 派 | |
|---|---|---|
步数 | 53 步 | 8 步 |
耗时 | 17 分钟 | 不到 20 秒 |
输入 token | 55 万 | 1.2 万 |
55 万 vs 1.2 万。这不是"贵了一些"——是数量级差。换算成钱,45 倍。换算成时间,30 倍。

···
很多人第一反应是"等模型迭代呗,截屏 agent 现在贵以后会便宜"。
不会。
模型读一段 JSON 工具调用,是几十个 token——{"filter":"name=Smith","action":"approve_review"} 这种。模型读一张 1280×800 的网页截图,是几千个 token。差是 50 倍量级,每一步都是。
更要命的是滚雪球:
API 派呢?8 个工具调用,每个几十 token,结束。
所以"贵 45 倍"不是 implementation 问题,是"用眼睛"和"用嘴巴"两种行为本身的成本就差一个量级。模型再聪明,眼睛要看的像素也不会变少。
一个必须先看才能动手的 agent,永远要为"看"这件事付钱——不管模型多好。
···
实测下就会发现截屏 agent 第一次跑根本走不完,必须人工写一份 14 步详细 walkthrough 的 prompt 喂进去,它才能勉强完成任务。
什么意思?意思是所谓"通用、自主、像人一样用电脑"的 agent,在一个 900 个客户、600 个订单的小型管理后台里,没有保姆级 prompt 就走不到终点。
而 API 派那边,模型对着 8 个结构化工具,零额外指引,一次就跑通。
一个 agent 看得越"原始"(HTML、截图、自由文本),你越要花时间给它写脚手架;它看到的越结构化(API 返回的 JSON),你越能甩手。 结构化在帮 agent 省力,而不是给它戴镣铐。
给 AI 一张图让它看,听起来很 AGI;给 AI 一个 schema 让它填,听起来很无聊。后者是干活的,前者是表演的。
···
Computer Use 有它该在的位置,只是被吹得错位了。
它真正适合的场景,只有一种:
那个目标系统就是没 API,而且短期内也不会有。
具体说就是这几类:
这些场景里,Computer Use 是唯一选项——不是因为它好,是因为别的路被物理地堵死了。它真正的工程价值是"给没 API 的系统强行包一层 API",而不是"成为 agent 的统一交互形态"。
为了"通用、统一、像人"这种概念去走截屏路径,是花钱买氛围。

···
评估任何 agent 落地方案,第一个问题不是"哪家模型最聪明",是"目标系统有没有 API、有没有 MCP、能不能挂结构化工具"。
按这个顺序排一下成本:
差的不是 2 倍 3 倍,是数量级。这意味着任何一个能从"截屏路"换到"API 路"的环节,省下的都不是优化、是免费的钱。
我自己的资讯管线,从第一天就是这个原则——能调 API 的(公众号、GitHub、HN、RSS、Reddit)一律走 API,绝不让模型读 HTML。倒不是有什么远见,是穷,自己付 token 钱,截屏跑一次的成本心疼。
但回头看,"穷"反而救了这件事。这个领域早期有钱乱烧的人,做出的东西大概率撑不到第二轮融资——因为他们的成本曲线是被 vision token 拖着走的,不是被业务量拖着走的。
···
不管是供应商 demo、团队的某个新人、还是某个自媒体——你就问一句:
这个目标系统有 API 吗?有的话你为什么不走 API?
如果对方答不上来,或者开始解释"统一交互范式更优雅",你心里就有数了。
45 倍不是暂时的,是永久的。 愿不愿意为"优雅"每月多付 45 倍的账单,是你的选择。但至少,账单的真实数字应该有人告诉你。