国内通用智能体（本地操作型 Agent）深度测评对比

掘金安东尼

发布于 2026-05-29 08:56:06

2770

一、是什么

「通用智能体（General Agent）」在 2026 年的语境里，特指一类**「从对话到执行」**的本地操作型 AI：它不只是回答问题，而是能听懂自然语言后，真正在你的电脑上动手——整理文件、操作软件、跑数据、生成文档、调浏览器、收发消息，完成多步骤任务。

这一波热潮的源头是开源框架 OpenClaw（业内昵称「小龙虾」）：

一个轻量、自托管的本地 AI Agent 框架，GitHub 星标已超过 24 万；
核心范式是「本地网关 + 心跳调度（heartbeat scheduler）」：把大模型的推理转化为对宿主机文件、系统、网络接口的物理操作，并支持 7×24 常驻、主动巡检；
通过 Skills（技能） 扩展能力，通过 20+ 聊天渠道（WhatsApp / Telegram / Discord / 飞书 / 钉钉 / 企微 / 微信）作为入口；
数据留在本机，主打隐私与可控。

2026 年初，OpenClaw 出圈后，国内大厂几乎在同一时间「集体下场养虾」，推出各自的「类 Claw」产品。所谓「龙虾大战」的本质，是一场围绕同一开源内核的产品化与渠道争夺战。

二、为什么重要

交互范式迁移：从「Chat（你问它答）」到「Act（它替你做）」，是大模型从「玩具」变「生产力工具」的关键一跃。本地操作能力意味着 Agent 能触达企业/个人电脑里那些没有 API、只有 GUI 的存量软件。
大模型变现的高频入口：钛媒体的行业分析点破了大厂动机的「三重焦虑」——大模型变现路径不清，龙虾是高频 token 消耗入口；囤积的闲置算力需要出口；技术趋势明朗，需抢占生态位。换言之，Agent 不只是产品，更是把推理算力卖出去的「计价器」。
生态卡位：谁的 Agent 成为用户日常入口，谁就掌握下一代「AI 操作系统」的分发权。微信/企微（腾讯）、飞书（字节）、钉钉（阿里）之争，会原样复制到 Agent 层。

三、关键玩家与生态

整个赛道可粗分三类玩家（钛媒体框架）：云厂商（腾讯、阿里、华为，整合企业服务生态）、大模型厂商（百度、智谱、Kimi、MiniMax，展示模型能力）、硬件厂商（小米，利用系统权限优势）。

腾讯系（本文重点）

腾讯是少数同时铺了「办公 / 通用 / 编程」三条产品线的玩家。需要先理清一个常被搞混的点：WorkBuddy 并不是 CodeBuddy「迭代」而来的版本，二者由同一个腾讯云 CodeBuddy 团队出品、共享同一个底座，是面向不同人群的并行产品——CodeBuddy 管开发（2025-09 正式发布），WorkBuddy 管办公（2026-03 上线），合起来打通「开发—办公」全链路。

产品	定位	关键特征
WorkBuddy	桌面级办公智能体	CodeBuddy 团队出品、与 CodeBuddy 同源共底座（非其迭代版，而是并行的「办公线」），2026-03-09 上线；深度集成企业微信 + 腾讯文档；兼容 OpenClaw 的 Skills，但「更易用、更安全」——从下载安装到连企微最快 1 分钟，免部署；支持多 Agent 并行、MCP 协议、Skills 扩展；自主规划交付多模态复杂任务（数据处理、文案、PPT）。内测期 2000+ 员工参与。
QClaw	通用本地助手	基于开源 OpenClaw 内核产品化；接入微信 / QQ 聊天框（号称让 agent「钻进 14 亿人的聊天框」）；本地常驻、心跳调度、数据留本机；可自由更换底模（Claude / GPT / DeepSeek / Kimi）；可装自定义 Skills。已推出海外版 QClaw（QClaw SG / Global），主打降低 Agent 部署门槛。
CodeBuddy / CodeBuddy Code	编程智能体（注意：与阿里的 Qoder 是两家产品，常被混淆）	三形态（IDE / 插件 / CLI）+ Agent SDK；CodeBuddy Code 2.0「90% 代码 AI 自己写」；隔离沙箱执行；支持 Skills / 插件市场 / Subagents / 自定义指令 / Agent Hooks；内置多模型（Kimi 2.5、Gemini、GPT、DeepSeek、GLM-4）；与腾讯云 CloudBase 深度集成、可一键部署。

WorkBuddy vs QClaw 的取舍逻辑：WorkBuddy = 「好用派」，封装掉部署/换模/安全的复杂度，绑死腾讯办公生态，面向不想折腾的职场用户；QClaw = 「开放派」，保留开源内核与换模自由，面向开发者与极客。一封一开，覆盖两类人群。

其他大厂

厂商	产品	形态 / 特点
字节	ArkClaw	火山引擎云上 SaaS 版 OpenClaw，开箱即用、免本地部署
字节	UI-TARS Desktop	2026-02 开源，基于自研 Seed-VL 多模态，纯视觉识别并操作任意软件界面（GUI Agent 路线，不依赖 API/无障碍树）
阿里	Qoder / QoderWork	2025-08 发布的 agentic coding 平台，Qoder 1.0 提出「从 AI IDE 迈向智能体自主开发工作台」；QoderWork 进一步定位桌面级通用智能体
阿里	CoPaw	通义实验室桌面智能体，主打「本地 + 云端」统一体验
百度	红手指 Operator	旗舰款，强调强自主操作能力
百度	DuClaw	轻量版，面向个人开发者
智谱	AutoClaw	本地一键部署版
Moonshot/Kimi	KimiClaw	云端托管服务
MiniMax	MaxClaw	一键云部署方案
小米 / 华为	—	同样下场，小米侧重系统级权限优势

四、多维度对比

按「从对话到执行」的本地操作型通用智能体这一口径，把可比的产品拉到同一张表（编程专用的 CodeBuddy/Qoder 单列说明）：

维度	WorkBuddy	QClaw	ArkClaw（字节）	UI-TARS（字节）	CoPaw（阿里）	AutoClaw（智谱）
底层架构	OpenClaw 兼容内核（封装）	开源 OpenClaw 内核	云 SaaS 化 OpenClaw	自研纯视觉（Seed-VL）	本地+云端混合	OpenClaw 本地版
部署形态	本地桌面，免部署	本地桌面	云端 SaaS	本地桌面	本地+云	本地一键
主要场景	办公（文档/数据/PPT）	通用个人助理	通用，企业云场景	通用 GUI 操作	通用	通用
入口/渠道	企微、腾讯文档	微信、QQ	火山生态	桌面直接操作	通义生态	多渠道
模型自由度	封装（弱）	高（可换底模）	中	锁自研 Seed-VL	中（偏通义）	高
本地操作	文件/办公软件	文件/系统/浏览器	云侧为主	任意 GUI（视觉）	文件/系统	文件/系统
上手门槛	极低（1 分钟）	中（需配模型/Skills）	低	中	低	中
隐私模型	本地+企业云	本地优先	云端托管	本地	混合	本地

几个关键判断：

路线分叉：绝大多数产品是「OpenClaw 套壳 + 渠道/生态加成」，唯有字节 UI-TARS 走纯视觉 GUI 路线，技术上最独立，也最有可能突破「只能操作有 API 的软件」这一天花板，但成本与稳定性是代价。
真壁垒不在模型：当底模可自由替换、内核又是同一份开源代码时，差异化只剩渠道（微信/企微/钉钉）、工程化封装（免部署、稳定性）、生态集成（文档/云）。腾讯在「渠道 + 封装」两项上明显占优。
编程 Agent 自成一档：CodeBuddy Code（腾讯）与 Qoder（阿里）面向开发者，强调沙箱执行、Subagents、多模型与云部署一体化，与通用办公 Agent 不是同一战场，不宜混为一谈。

五、争议与风险

1. 安全：集成越深，攻击面越大（最该警惕的一点）

安全内参发布的《OpenClaw 与 5 款国产类 Claw 智能体安全评测》给出了反直觉但极重要的数据。评测以 MITRE ATT&CK 框架的 13 类攻击行为、7 个链路阶段、205 条样例、1200+ 轮对抗交互衡量「攻击成功率」（越低越安全）：

产品	攻击成功率	主要弱点
QClaw（腾讯）	54.85%（最高）	凭据访问 85.71%、数据外传 80%——「容易偷凭据、容易外传数据」
AutoClaw（智谱）	49.51%	规划层失控
KimiClaw（Kimi）	40.78%	执行链条过顺，缺刹车
ArkClaw（字节）	29.61%	执行后状态被持续利用
OpenClaw（原版）	19.42%	前期探测不够紧
MaxClaw（MiniMax）	16.02%（最低）	探测敏感度低（侧面更稳）

核心结论是 「智能体安全不是模型安全」：同一框架换底模，风险画像就变；同一底模在不同框架里表现差异巨大。真正的危险，是系统把一次「正常诊断」自动演进成「完整攻击链」的能力。QClaw 因深度接入微信/QQ、且开放可换模，集成面最广，恰恰评测最不安全——这说明腾讯主打的「易用 + 深度集成」与「安全」之间存在结构性张力。

提醒：评测分值是相对比较，且各产品仍在快速迭代，腾讯很可能已针对性加固。引用时应核对最新版本，而非把这组数字当永久结论。

2. 同质化与「伪创新」

钛媒体直言市场分「好用派」与「噱头派」，后者把「原本只是 API 调用的自动化脚本，包装成『智能体』」，存在功能堆砌、交互繁冗、成本模糊、稳定性差的问题。当 30+ 衍生项目都基于同一开源内核时，多数产品缺乏真正的技术护城河。

3. 商业与成本

Token 成本不透明：常驻 + 心跳调度 + 多步骤执行，意味着持续烧 token，普通用户对账单无感知、易超预期。
需求真伪存疑：行业判断认为「龙虾非泡沫，但距离大众应用仍远」——普通用户的需求已被对话式大模型满足，Agent 的高门槛、权限风险、成本让人望而却步。
生态绑定：WorkBuddy 绑企微、CoPaw 绑通义、ArkClaw 绑火山，选型即站队，迁移成本高。

六、个人结论

一句话定性：这是一场围绕开源框架 OpenClaw 的渠道与工程化竞赛，技术同质化严重，腾讯靠「微信/企微入口 + 免部署封装」占据有利身位，但「集成越深、攻击面越大」的安全悖论尚未解决。

判断：值得持续跟进，但当前阶段「观望 + 小范围试用」优于 All in。

跟进理由：从对话到执行是确定性趋势；腾讯把渠道（微信 14 亿用户）与办公生态（企微/腾讯文档）这两张牌打到了 Agent 上，一旦稳定性与安全过关，分发优势会迅速放大。
不宜重投理由：①安全评测显示本地操作型 Agent（尤其 QClaw）攻击面大、风险实打实；②底层多为 OpenClaw 套壳，护城河靠渠道而非技术，格局未定；③token 成本与稳定性对普通用户仍是劝退项。

下一步行动建议：

自用试水：在隔离/非敏感环境装 QClaw（开源可换模，可观察其本地操作真实能力与 token 消耗），办公场景试 WorkBuddy（看企微/腾讯文档集成是否真省事）。
编程线单独评估：若关注 coding agent，直接对比 CodeBuddy Code 2.0 vs 阿里 Qoder vs Claude Code，关注沙箱、Subagents、多模型与部署一体化。
盯技术分叉：重点观察字节 UI-TARS 纯视觉路线能否突破「只能操作有 API 软件」的天花板——这才是可能改变格局的变量。
安全红线：任何本地操作型 Agent 都不要授予真实凭据/生产环境权限，先在沙箱里跑，等权限模型与审计能力成熟再上敏感场景。