首页
学习
活动
专区
圈层
工具
发布

BrowserAct Skill:AI Agent 卡在人机验证这事,终于有人专门下手了

老鬼看浏览器自动化项目,一般不先看功能表,先看它怎么处理“卡死”。

因为 AI Agent 跑网页任务,最烦的不是点不动按钮,是跑到一半突然来个验证页、登录态乱掉、Cookie 串号,Agent 还一本正经地继续点空气。啧,这种场面见多了。

BrowserAct 这个开源 Skill 抓的就是这个脏活。它不是又做一个“让 Agent 控浏览器”的壳,而是把 Agent 最容易翻车的几段链路补上:环境层做指纹、代理这类隔离;执行层处理验证码和受保护页面;真搞不定时,直接生成远程链接,让人类接管一下,处理完再把任务还给 Agent。README 里把这套叫三层 progressive layers。

这就很现实。

以前做 AI 插件或者小工具,最怕的就是演示时顺,批量跑就炸。一个账号还好,多个浏览器并发,Cookie、Profile、IP、登录态混在一起,网站一眼就看出你不是正常人。BrowserAct 的多会话隔离算是它比较抓人的地方:每个任务独立 Cookie、指纹、代理;也能在同一个浏览器里共享登录态但分开执行。

不过这块我得泼点冷水:这种能力只适合用在你有权限的自动化、测试、数据整理和内部流程里。拿它去硬薅别人站点、绕规则批量抓,最后出问题别怪工具。工具越顺手,边界越要自己兜住。

另一个细节我挺喜欢:它不是把 HTML 一大坨塞给模型,而是做了面向 LLM 的紧凑文本输出,页面元素带索引,Agent 可以按编号点、按编号输入,不用自己解析 DOM。README 里说这种 indexed text format 比 JSON 或 HTML 更省 token。

别小看 token。

很多 Agent 工具跑慢、跑贵,不是模型不聪明,是每一步页面状态都喂得太肥。老鬼试工具前一般会先想:日志能不能看、命令能不能短、出错能不能回滚。BrowserAct 至少在“让模型少吃废话”这点上,方向是对的。

还有个 Skill Forge,思路更懒一点:让 AI 先探索网站结构,生成可复用的抓取 Skill,之后同类任务不用每次重新摸路。官方描述里甚至提到 500、5000 条记录这种重复抽取场景。

仓库现在是 MIT 协议,GitHub 上显示约 2.4k star、91 fork,暂无 release。 兄弟们要是平时用 Claude Code、Cursor、Codex CLI 这类工具做浏览器自动化,又经常被登录态、验证页、并发任务折磨,可以扫一眼。

我会把它当成 Agent 浏览器链路里的“救火工具”先试,不指望它解决所有反爬问题,但遇到卡验证、远程接管、多账号隔离这些破事,它确实戳中了痛点。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OeQhusXJz8c4ow0zaQaBeOUw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券