老鬼看浏览器自动化项目,一般不先看功能表,先看它怎么处理“卡死”。
因为 AI Agent 跑网页任务,最烦的不是点不动按钮,是跑到一半突然来个验证页、登录态乱掉、Cookie 串号,Agent 还一本正经地继续点空气。啧,这种场面见多了。
BrowserAct 这个开源 Skill 抓的就是这个脏活。它不是又做一个“让 Agent 控浏览器”的壳,而是把 Agent 最容易翻车的几段链路补上:环境层做指纹、代理这类隔离;执行层处理验证码和受保护页面;真搞不定时,直接生成远程链接,让人类接管一下,处理完再把任务还给 Agent。README 里把这套叫三层 progressive layers。
这就很现实。
以前做 AI 插件或者小工具,最怕的就是演示时顺,批量跑就炸。一个账号还好,多个浏览器并发,Cookie、Profile、IP、登录态混在一起,网站一眼就看出你不是正常人。BrowserAct 的多会话隔离算是它比较抓人的地方:每个任务独立 Cookie、指纹、代理;也能在同一个浏览器里共享登录态但分开执行。
不过这块我得泼点冷水:这种能力只适合用在你有权限的自动化、测试、数据整理和内部流程里。拿它去硬薅别人站点、绕规则批量抓,最后出问题别怪工具。工具越顺手,边界越要自己兜住。
另一个细节我挺喜欢:它不是把 HTML 一大坨塞给模型,而是做了面向 LLM 的紧凑文本输出,页面元素带索引,Agent 可以按编号点、按编号输入,不用自己解析 DOM。README 里说这种 indexed text format 比 JSON 或 HTML 更省 token。
别小看 token。
很多 Agent 工具跑慢、跑贵,不是模型不聪明,是每一步页面状态都喂得太肥。老鬼试工具前一般会先想:日志能不能看、命令能不能短、出错能不能回滚。BrowserAct 至少在“让模型少吃废话”这点上,方向是对的。
还有个 Skill Forge,思路更懒一点:让 AI 先探索网站结构,生成可复用的抓取 Skill,之后同类任务不用每次重新摸路。官方描述里甚至提到 500、5000 条记录这种重复抽取场景。
仓库现在是 MIT 协议,GitHub 上显示约 2.4k star、91 fork,暂无 release。 兄弟们要是平时用 Claude Code、Cursor、Codex CLI 这类工具做浏览器自动化,又经常被登录态、验证页、并发任务折磨,可以扫一眼。
我会把它当成 Agent 浏览器链路里的“救火工具”先试,不指望它解决所有反爬问题,但遇到卡验证、远程接管、多账号隔离这些破事,它确实戳中了痛点。