BrowserAct Skill：AI Agent 卡在人机验证这事，终于有人专门下手了

文章来源：企鹅号 - Java面试那些事儿

老鬼看浏览器自动化项目，一般不先看功能表，先看它怎么处理“卡死”。

因为 AI Agent 跑网页任务，最烦的不是点不动按钮，是跑到一半突然来个验证页、登录态乱掉、Cookie 串号，Agent 还一本正经地继续点空气。啧，这种场面见多了。

BrowserAct 这个开源 Skill 抓的就是这个脏活。它不是又做一个“让 Agent 控浏览器”的壳，而是把 Agent 最容易翻车的几段链路补上：环境层做指纹、代理这类隔离；执行层处理验证码和受保护页面；真搞不定时，直接生成远程链接，让人类接管一下，处理完再把任务还给 Agent。README 里把这套叫三层 progressive layers。

这就很现实。

以前做 AI 插件或者小工具，最怕的就是演示时顺，批量跑就炸。一个账号还好，多个浏览器并发，Cookie、Profile、IP、登录态混在一起，网站一眼就看出你不是正常人。BrowserAct 的多会话隔离算是它比较抓人的地方：每个任务独立 Cookie、指纹、代理；也能在同一个浏览器里共享登录态但分开执行。

不过这块我得泼点冷水：这种能力只适合用在你有权限的自动化、测试、数据整理和内部流程里。拿它去硬薅别人站点、绕规则批量抓，最后出问题别怪工具。工具越顺手，边界越要自己兜住。

另一个细节我挺喜欢：它不是把 HTML 一大坨塞给模型，而是做了面向 LLM 的紧凑文本输出，页面元素带索引，Agent 可以按编号点、按编号输入，不用自己解析 DOM。README 里说这种 indexed text format 比 JSON 或 HTML 更省 token。

别小看 token。

很多 Agent 工具跑慢、跑贵，不是模型不聪明，是每一步页面状态都喂得太肥。老鬼试工具前一般会先想：日志能不能看、命令能不能短、出错能不能回滚。BrowserAct 至少在“让模型少吃废话”这点上，方向是对的。

还有个 Skill Forge，思路更懒一点：让 AI 先探索网站结构，生成可复用的抓取 Skill，之后同类任务不用每次重新摸路。官方描述里甚至提到 500、5000 条记录这种重复抽取场景。

仓库现在是 MIT 协议，GitHub 上显示约 2.4k star、91 fork，暂无 release。兄弟们要是平时用 Claude Code、Cursor、Codex CLI 这类工具做浏览器自动化，又经常被登录态、验证页、并发任务折磨，可以扫一眼。

我会把它当成 Agent 浏览器链路里的“救火工具”先试，不指望它解决所有反爬问题，但遇到卡验证、远程接管、多账号隔离这些破事，它确实戳中了痛点。

发表于: 1天前2026-06-25 11:22:35
原文链接：https://page.om.qq.com/page/OeQhusXJz8c4ow0zaQaBeOUw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

BrowserAct Skill：AI Agent 卡在人机验证这事，终于有人专门下手了

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐