让 AI 像人一样"看屏幕、点鼠标"完成一个网页任务，账单贵 45 倍

随机比特

发布于 2026-05-08 19:28:28

1010

让 AI 像人一样"看屏幕、点鼠标"完成一个网页任务，平均要花 45 倍的钱、30 倍的时间——和"老老实实调一个 API"的同款任务相比。

而且这个差距，不是模型再迭代两代就能抹平的。它是物理底盘差。

···

一个网页任务，两条路同时跑

任务很普通，普通到像每周给一个内部小后台做的运维：

在管理后台找到那个名叫 "Smith"、订单数最多的客户，定位他最近一笔待发货的订单，把他所有待审核的评价全部通过，然后把这单标记为已送达。

中间要筛选、要翻页、要跨表查、要既读又写。一个真人用后台 30 秒能干完。

让 AI 替你干，有两条路：

A 路（截屏点击派）：模型每一步先截一张图，看图，决定下一步点哪儿，发出鼠标动作，等页面变化，再截一张图……Anthropic 这两年主推的 Computer Use 就是这条路。

B 路（API 派）：把后台的功能挂成结构化工具，模型通过 JSON 把"筛选哪个字段、改哪条记录"写成一次工具调用，直接打到后端。

同一个模型（Claude Sonnet）、同一个任务，跑下来：

	截屏点击派	API 派
步数	53 步	8 步
耗时	17 分钟	不到 20 秒
输入 token	55 万	1.2 万

55 万 vs 1.2 万。这不是"贵了一些"——是数量级差。换算成钱，45 倍。换算成时间，30 倍。

···

为什么差这么多？因为眼睛比嘴巴贵

很多人第一反应是"等模型迭代呗，截屏 agent 现在贵以后会便宜"。

不会。

模型读一段 JSON 工具调用，是几十个 token——{"filter":"name=Smith","action":"approve_review"} 这种。模型读一张 1280×800 的网页截图，是几千个 token。差是 50 倍量级，每一步都是。

更要命的是滚雪球：

截屏派每走一步 → 截一张新图 → 几千 token 喂进去 → 模型决策 → 输出动作 → 等画面响应 → 再截一张
53 步意味着这个循环跑 53 次，每次的"输入"都比上一次更厚（要带历史画面做上下文）

API 派呢？8 个工具调用，每个几十 token，结束。

所以"贵 45 倍"不是 implementation 问题，是"用眼睛"和"用嘴巴"两种行为本身的成本就差一个量级。模型再聪明，眼睛要看的像素也不会变少。

一个必须先看才能动手的 agent，永远要为"看"这件事付钱——不管模型多好。

···

还有一个细节

实测下就会发现截屏 agent 第一次跑根本走不完，必须人工写一份 14 步详细 walkthrough 的 prompt 喂进去，它才能勉强完成任务。

什么意思？意思是所谓"通用、自主、像人一样用电脑"的 agent，在一个 900 个客户、600 个订单的小型管理后台里，没有保姆级 prompt 就走不到终点。

而 API 派那边，模型对着 8 个结构化工具，零额外指引，一次就跑通。

一个 agent 看得越"原始"（HTML、截图、自由文本），你越要花时间给它写脚手架；它看到的越结构化（API 返回的 JSON），你越能甩手。 结构化在帮 agent 省力，而不是给它戴镣铐。

给 AI 一张图让它看，听起来很 AGI；给 AI 一个 schema 让它填，听起来很无聊。后者是干活的，前者是表演的。

···

那 Computer Use 是不是没用？不是

Computer Use 有它该在的位置，只是被吹得错位了。

它真正适合的场景，只有一种：

那个目标系统就是没 API，而且短期内也不会有。

具体说就是这几类：

遗留系统：90 年代写的 Java Swing 桌面工具，公司里没人敢动它，但每天还得有人点；
强时变 UI：网页天天改版、改了 DOM 结构都不通知你，写爬虫维护成本比让 AI 看图还高；
合规不开放接口的内网工具：政府、银行、医院里那些只能浏览器登录、不让你拿 token 的系统；
人机混合流：有些步骤必须人扫脸或人按确认，agent 中间穿插一下。

这些场景里，Computer Use 是唯一选项——不是因为它好，是因为别的路被物理地堵死了。它真正的工程价值是"给没 API 的系统强行包一层 API"，而不是"成为 agent 的统一交互形态"。

为了"通用、统一、像人"这种概念去走截屏路径，是花钱买氛围。

···

决策原则：先看你目标系统有没有 API

评估任何 agent 落地方案，第一个问题不是"哪家模型最聪明"，是"目标系统有没有 API、有没有 MCP、能不能挂结构化工具"。

按这个顺序排一下成本：

直接 tool calling：最便宜，每步几十 token；
走 MCP / 结构化框架：稍贵，多了一层协议开销；
Computer Use（截屏点击）：贵 OOM 量级，每步几千 token。

差的不是 2 倍 3 倍，是数量级。这意味着任何一个能从"截屏路"换到"API 路"的环节，省下的都不是优化、是免费的钱。

我自己的资讯管线，从第一天就是这个原则——能调 API 的（公众号、GitHub、HN、RSS、Reddit）一律走 API，绝不让模型读 HTML。倒不是有什么远见，是穷，自己付 token 钱，截屏跑一次的成本心疼。

但回头看，"穷"反而救了这件事。这个领域早期有钱乱烧的人，做出的东西大概率撑不到第二轮融资——因为他们的成本曲线是被 vision token 拖着走的，不是被业务量拖着走的。

···

takeaway

不管是供应商 demo、团队的某个新人、还是某个自媒体——你就问一句：

这个目标系统有 API 吗？有的话你为什么不走 API？

如果对方答不上来，或者开始解释"统一交互范式更优雅"，你心里就有数了。

45 倍不是暂时的，是永久的。 愿不愿意为"优雅"每月多付 45 倍的账单，是你的选择。但至少，账单的真实数字应该有人告诉你。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-05-06，如有侵权请联系 cloudcommunity@tencent.com 删除

管理

本文分享自随机比特微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度