为什么钉钉、飞书、企微都在做 CLI？这个开源项目给出了最极致的答案

tunsuy

发布于 2026-04-09 11:19:48

2140

文章被收录于专栏：有文化的技术人有文化的技术人

❝AI Agent 很聪明，但面对真实的专业软件，它就是个"睁眼瞎"。CLI-Anything 说：我来治。❞

先说一个扎心的事实

2026年了，AI Agent 能写代码、能做分析、能聊天能画画——但你让它打开 Blender 建个模？让它用 GIMP 修张图？让它在 LibreOffice 里排个版？

「抱歉，臣妾做不到。」

目前的"AI操控软件"方案，大多是这样的：

「GUI自动化（RPA）」：截图、找按钮、点鼠标。界面一更新就全崩。
「有限的API」：只覆盖10%的功能，剩下的？自己想办法。
「重新造轮子」：用Python重写一遍软件的核心逻辑。好不容易写完，原软件90%的专业功能没了。

这就是 AI Agent 世界里最大的"断裂带"——「推理能力爆表，软件操控能力约等于零」。

CLI-Anything：一行命令，让任何软件变成 Agent 的原生工具

「CLI-Anything」 是一个来自香港大学数据科学实验室（HKUDS）的开源项目，GitHub 地址：https://github.com/HKUDS/CLI-Anything。

它的核心理念只有一句话：

❝「不重写软件，不模拟GUI，不阉割功能——直接生成一套结构化的CLI接口，让AI Agent像用命令行一样操控任何专业软件。」❞

怎么理解？举个例子。

你有一份 Blender 的源码（或者从 GitHub clone 下来也行），在 Claude Code 里敲一行命令：

/cli-anything ./blender

接下来，全自动的 7 阶段流水线开始工作：

「分析源码」 → 把GUI操作映射到API
「架构设计」 → 规划命令分组和状态模型
「代码实现」 → 生成完整的 Click CLI，带 REPL、JSON输出、撤销/重做
「规划测试」 → 自动生成测试计划
「编写测试」 → 实现单元测试 + 端到端测试
「生成文档」 → 写入测试结果
「打包发布」 → pip install 即可全局使用

整个过程，「零人工干预」。

完成后你会得到一个 cli-anything-blender 命令，Agent 可以这样用它：

# 创建场景
cli-anything-blender scene new --name ProductShot

# 添加物体
cli-anything-blender object add-mesh --type cube --location 0 0 1

# 渲染——调用的是真正的 Blender 引擎！
cli-anything-blender render execute --output render.png --engine CYCLES

注意最后一行：「它调用的是真正的 Blender 渲染引擎」，输出的是真正的渲染图片，不是什么Pillow糊弄事的替代品。

为什么是CLI？不是MCP？不是API？

很多人第一反应是：MCP 不香吗？为什么要走CLI这条路？

CLI-Anything 的选择有深层逻辑：

「1. CLI 是人和 AI 的最大公约数」

命令行是纯文本输入、纯文本输出——这恰好是大语言模型最擅长的格式。不需要协议适配，不需要序列化/反序列化的开销，一个 --help 就能让 Agent 自动发现所有能力。

「2. 零依赖，零配置」

不需要启动MCP Server，不需要配置OAuth，不需要安装SDK。pip install -e . 之后，which cli-anything-blender 就能找到它。Agent 发现工具的方式和人类完全一样。

「3. 确定性和可组合性」

同样的命令永远产出同样的结果。命令之间可以自由组合成流水线，这对 Agent 的行为可预测性至关重要。

「4. 实战验证」

Claude Code 每天通过命令行执行数以千计的真实任务。CLI 不是"理论上可行"，而是"已经在跑了"。

1917 项测试，100% 通过率，覆盖 21 款软件

空口白话没意义，直接上硬数据。

CLI-Anything 目前已经为 「21款」 不同领域的专业软件生成了完整的 CLI 接口：

软件	领域	测试数
Blender	3D建模与渲染	208
Inkscape	矢量图形	202
Audacity	音频制作	161
LibreOffice	办公套件	158
Kdenlive	视频剪辑	155
Shotcut	视频剪辑	154
OBS Studio	直播与录制	153
Draw.io	图表绘制	138
GIMP	图像编辑	107
Ollama	本地LLM推理	98
Mubu	知识管理	96
ComfyUI	AI图像生成	70
RenderDoc	GPU帧捕获分析	59
MuseScore	乐谱编辑	56
AnyGen	AI内容生成	50
AdGuardHome	网络广告拦截	36
Zoom	视频会议	22
NotebookLM	AI研究助手	21
Sketch	UI设计	19
FreeCAD	参数化3D CAD	新增
Browser	浏览器自动化	新增
「合计」		「1917+」

「全部 1917 项测试，100% 通过。」

这里面不只有"跑通了"的单元测试，还有硬核的端到端验证：

LibreOffice 导出 PDF → 检查 %PDF- 魔术字节
Blender 渲染 → 验证输出 PNG 的像素内容
Audacity 处理音频 → 检查 RMS 电平和时长

「不是mock，不是stub，是真刀真枪调用真实软件。」

五分钟上手指南

方式一：Claude Code（推荐）

# 1. 添加插件市场
/plugin marketplace add HKUDS/CLI-Anything

# 2. 安装插件
/plugin install cli-anything

# 3. 对准任何软件，一键生成
/cli-anything ./gimp

# 4. 觉得覆盖不够？迭代优化
/cli-anything:refine ./gimp "我要更多滤镜和批处理功能"

方式二：OpenClaw / OpenCode / Codex / Copilot CLI

CLI-Anything 不绑定任何单一平台。它为 「6 个主流 AI 编程工具」 提供了原生接入：

Claude Code（插件）
OpenCode（斜杠命令）
OpenClaw（SKILL.md）
Codex（Skill）
Qodercli（插件）
GitHub Copilot CLI（插件）

挑你顺手的，装上就用。

方式三：直接使用生成好的CLI

社区已经生成了 20+ 个即装即用的 CLI，全在 「CLI-Hub」 上：

# 比如安装 Ollama 的 CLI
pip install git+https://github.com/HKUDS/CLI-Anything.git#subdirectory=ollama/agent-harness

# 直接用
cli-anything-ollama --help
cli-anything-ollama model list --json

一行 pip install，Agent 立刻拥有操控对应软件的全部能力。

它比"GUI Agent"强在哪？

最近 GUI Agent（Computer Use 类方案）很火，但 CLI-Anything 走了一条完全不同的路。来做个对比：

维度	GUI Agent	CLI-Anything
交互方式	截图 + 点击坐标	结构化文本命令
稳定性	界面一改就崩	命令行接口稳定
速度	截图→识别→操作，数秒级	直接命令调用，毫秒级
功能覆盖	能看到的按钮才能点	完整API能力，包括隐藏功能
输出格式	非结构化截图	结构化JSON
Token消耗	每步都要发截图，巨贵	纯文本交互，极省
可组合性	几乎不可能串联	天然支持管道和脚本

不是说 GUI Agent 没价值——但在专业软件操控这个场景，CLI 方案碾压级优于截图点击。

CLI-Hub：让 Agent 自己找工具

CLI-Anything 还做了一件很酷的事：「CLI-Hub 元技能」。

装上这个元技能后，你的 Agent 不需要知道"要用什么CLI"，它会自己去 CLI-Hub 浏览目录，找到合适的工具，自动安装，然后使用。

# 安装元技能
openclaw skills install cli-anything-hub

# 然后直接甩任务
"帮我用合适的工具把这段音频降噪并导出为 MP3"

Agent 会自己发现 cli-anything-audacity、自动安装、调用降噪命令、导出文件。「全程零人工介入。」

这才是 Agent 真正该有的样子——不是"我告诉你用什么工具"，而是"你自己去找"。

架构上的几个硬核设计

如果你是技术人，这几个设计值得关注：

1. 真实软件集成，零妥协

CLI 生成合法的项目文件（ODF、MLT XML、SVG），然后调用真实软件后端渲染。如果后端缺失，测试直接 「fail」 而不是 skip。

这意味着每一个通过的测试都经过了真实软件的验证。

2. 双模交互

每个 CLI 都支持两种模式：

「子命令模式」：适合脚本和流水线，cli-anything-gimp --json project new
「REPL 模式」：适合交互式 Agent 会话，直接输入命令名即进入

3. 统一的 REPL 皮肤

所有 CLI 共享 repl_skin.py——统一的品牌横幅、风格化提示符、命令历史、进度指示器。无论操控哪个软件，交互体验一致。

4. SKILL.md 自动生成

每个 CLI 自动附带一份 SKILL.md，包含 YAML 元数据、命令文档、使用示例和 Agent 专用指南。这让任何 Agent 框架都能即时发现和使用这个 CLI。

适用场景远比你想的广

不只是"创意软件"。CLI-Anything 的射程覆盖了几乎所有有源码的软件类型：

「创意与媒体」：Blender、GIMP、Inkscape、Audacity、Kdenlive、Shotcut、Krita、OBS Studio
「办公与生产力」：LibreOffice、Mubu、Zotero
「AI平台」：ComfyUI、Ollama、NotebookLM、AnyGen、Novita
「开发工具」：iTerm2、RenderDoc、Browser
「图表与可视化」：Draw.io、Mermaid、FreeCAD
「通信协作」：Zoom
「网络基础设施」：AdGuardHome、Teltonika RMS
「UI设计」：Sketch

而且这个列表每天都在增长。社区贡献者来自全球，最近两周就新增了 FreeCAD（258个命令！）、iTerm2、Zotero、RenderDoc、Browser 等多个 CLI。

局限性（实话实说）

任何项目都有局限，CLI-Anything 也不例外：

「依赖强大的基座模型」。要可靠地生成 CLI，你需要 Claude Opus 4.6、Sonnet 4.6 或 GPT-5.4 这个级别的模型。小模型可能产出不完整的 CLI。
「需要源码」。如果目标软件只有编译后的二进制，效果会大打折扣。
「可能需要多次迭代」。一次 /cli-anything 不一定能覆盖所有功能，通常需要跑几次 /refine 来补齐。

但在我看来，这些更像是"当前阶段的限制"而非"根本性缺陷"——模型能力在快速提升，逆向工程工具在进化，迭代优化本身也是自动化的。