首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >各家都在养“龙虾”, AstronClaw + Playwright 爬虫版,是这么跑的

各家都在养“龙虾”, AstronClaw + Playwright 爬虫版,是这么跑的

作者头像
AI进修生
发布2026-03-31 18:26:52
发布2026-03-31 18:26:52
4950
举报
文章被收录于专栏:AI进修生AI进修生

最近 AI 圈有个挺有意思的现象:各家大模型厂商都开始养“龙虾”。

讯飞也发布了一个龙虾——AstronClaw

借着 AstronClaw,本文也聊聊有意思的 龙虾 skills 工具。

养虾地址:https://agent.xfyun.cn/astron-claw?ch=astronclaw_cg_E0k2

像这些云端养龙虾的配置都是很简单的,点击一下,云服务器就创建 AstronClaw 实例,可以直接网页端发消息,当然了,我们可以链接企微或者飞书、钉钉这些,填两个密钥就成:上篇文章有企微机器人 Bot获取方式。

AstronClaw 支持星火X2、MiniMax-M2.5、Kimi-K2.5、GLM-5; 7×24 小时在线,以 Sandbox 沙箱隔离。

Skills 市场

AstronClaw 里面有一个 Skills 市场。这些 skills 点击 一下就能安装,而且可以下载下来,一般这些都是开源的。

爬虫版 Playwright —— Playwright_Scraper_Skill

AI Agent 的浏览器能力有两层:

第一层是 浏览器控制能力(Playwright MCP)。 AI 可以像人一样操作网页,比如点击、输入、执行 JS。

第二层是 网页抓取能力(Playwright Scraper Skill)。 在浏览器能力基础上,增加反爬策略,用来抓取复杂网站。

  • Playwright 是浏览器自动化库
  • Playwright MCP 是把它变成 AI 可以调用的工具
  • Playwright_Scraper_Skill 是基于它写的具体爬虫逻辑

说到爬虫,这里补个题外话:AI 读网页,其实 token 消耗非常大。比如一篇普通技术博客,AI 读取一次网页就可能返回 8000–15000 token。如果你一次读 3~5 篇参考文章,光“读网页”这一件事就可能消耗几万 token。

问题是:网页看起来没有那么多内容。而其实:AI 读的不是文章,而是整个网页。

网页里面不仅有正文,还有:导航栏、侧边栏、广告、推荐文章、评论区、页脚、脚本结构。真正的正文可能只占 30% 左右。所以 AI 在读网页的时候,其实有 70% token 是垃圾信息。

So:不要把整个网页给 AI,只给正文。

为了做到这件事,有三种方式:

  • 第一种是 web_fetch: 最简单的方法,抓网页转文本。缺点是不识别正文,噪音多,浪费 token,且易被反爬。
  • 第二种是 Jina Reader: 专业正文提取服务,输出干净的 Markdown。缺点是每天仅 200 次免费额度。
  • 第三种是 Scrapling + html2text: 组合方案。先用 Scrapling 绕过反爬抓取,再精确定位正文标签(article/main),最后转 Markdown。内容干净且无调用限制。

实际策略: 普通博客用 Jina Reader;公众号或反爬站用 Scrapling;静态页面用 web_fetch。

Markdown_Converter

通过企微使用AstronClaw:我有些 HTML 文档可能会用这个先转换成 Markdown,然后再让 AI 来读。比如那个 OpenCLaw 使用那个飞机导出的聊天记录就是 HTML 的。

还有一个我觉得挺实用的 skill:Agent Browser。智能体浏览器,它有一个视频录制、可录制操作过程的功能。

特点

说明

🚀 快速

Rust 实现,有 Node.js 备用

🎯 精准交互

通过快照获取元素引用(@e1、@e2),再进行点击/填表

📸 截图/快照

支持全页截图、PDF 导出

🎬 视频录制

可录制操作过程

🌐 网络拦截

Mock 响应、模拟网络状况

💾 状态保存

保存登录态,下次直接恢复

📺 无头/有头

支持后台运行或显示浏览器窗口

典型用途: 自动化填表、抓取动态内容、UI 测试、批量操作。

利用它的截屏功能,你看它可以直接把 OpenCLaw 官网给截下来,一条很长。这个其实我们以往和 AI 聊天的时候,有时候有些东西不好复制,我们往往也采用长截屏的方式。有些网站不能复制,但是它不能拦截截屏这种动作,都可以用用。比如有权限的飞书可以试试。

由于这些云上主机安装的这种 OpenCLaw 不能进行桌面控制等操作,所以录屏是录不了的。

FreeRide

管理来自 OpenRouter 的免费 AI 模型,自动按质量排名模型。

FreeRide 是给 OpenClaw 配的,不是直接对话的工具。

使用流程:

1. 配置免费模型:freeride auto 2. 重启 OpenClaw:openclaw gateway restart 3. 正常发消息对话

本质: 它帮你把 OpenClaw 的默认模型从付费(如 GPT-4o、Claude)换成 OpenRouter 上的免费模型,省钱。

Hot-finder

多源热门内容搜索与 Excel 数据导出,覆盖 HackerNews、Reddit、B 站、YouTube 等平台。

  • “帮我找最近一周的 AI 热门视频”
  • “搜索 Reddit 科技板块的爆款帖子”
  • “导出 B 站热门前 20”

Deep_Research_Pro: 拆解为子问题,多元搜索,标注来源,不需付费 API。

Wed_1.0.1: What Would Elon Do? 这个 skills 应用了马斯克的第一性原理。

  • 1. First Principles Breakdown(第一性原理拆解)
  • 2. 10x Moonshot Reframe(10 倍思维)

如果这是 SpaceX 任务,我们在构建什么?:

qmd

用于本地搜索与索引(BM25/向量/重排),并支持 MCP 模式。

我觉得这个在用于个人的系统上很有用,自己在构建那种本地的 Agent 系统的时候,让它和你对话越来越了解你,比如我:个人写作系统。向量化你们过往之前的聊天记录:

qmd 是一个本地文档搜索/索引工具,可以帮你快速在本地文件里找到内容。启动后,它就是一个 MCP Server,可以被 Claude Code、OpenClaw 等工具直接调用来搜索你的本地文档。

  • ~/notes/ — 各种 Markdown
  • ~/projects/ — 项目文档
  • ~/books/ — 电子书

用 qmd 索引后,直接问 AI:"在我之前的笔记里关于 XXX 的内容是什么?"AI 就能通过 MCP 调用 qmd 搜到。

超拟人合成: 将文字转化为自然流畅的人声。

讯飞曾经也开源过一个:astron-agent。一个企业级、商业友好的 Agentic Workflow 开发平台,融合了 AI 工作流编排、模型管理、AI 与 MCP 工具集、RPA 自动化和团队空间等特性。

企业微信里有一个点,就是你新加入的机器人可以附带以前的聊天记录:

另外,像主动型智能体 Proactive_Agent 可以主动性的向你发出建议。

还有图中的超级设计 SuperDesign 用于精美网页实现。这个估计是用了原来那个 Claude Code 官方的那个前端编码规范,从他的 skills 提示词可以看出来一些。因为我自己是在用那个规范在让 AI 的前端表现好上许多。

官方:3月20日10:00之前,订阅任一AstronClaw套餐, 所有模型无限量使用、对 话不扣积分。一杯奶茶钱即可养只龙虾, 满足日常办公、数据处理、自动化任务 等多种场景。快来一起养虾:

AstronClaw | 养虾地址:https://agent.xfyun.cn/astron-claw?ch=astronclaw_cg_E0k2

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI进修生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Skills 市场
  • 爬虫版 Playwright —— Playwright_Scraper_Skill
  • Markdown_Converter
  • FreeRide
  • Hot-finder
  • qmd
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档