❝AI Agent 很聪明,但面对真实的专业软件,它就是个"睁眼瞎"。CLI-Anything 说:我来治。❞
2026年了,AI Agent 能写代码、能做分析、能聊天能画画——但你让它打开 Blender 建个模?让它用 GIMP 修张图?让它在 LibreOffice 里排个版?
「抱歉,臣妾做不到。」
目前的"AI操控软件"方案,大多是这样的:
这就是 AI Agent 世界里最大的"断裂带"——「推理能力爆表,软件操控能力约等于零」。
「CLI-Anything」 是一个来自香港大学数据科学实验室(HKUDS)的开源项目,GitHub 地址:https://github.com/HKUDS/CLI-Anything。
它的核心理念只有一句话:
❝「不重写软件,不模拟GUI,不阉割功能——直接生成一套结构化的CLI接口,让AI Agent像用命令行一样操控任何专业软件。」❞
怎么理解?举个例子。
你有一份 Blender 的源码(或者从 GitHub clone 下来也行),在 Claude Code 里敲一行命令:
/cli-anything ./blender
接下来,全自动的 7 阶段流水线开始工作:
pip install 即可全局使用整个过程,「零人工干预」。
完成后你会得到一个 cli-anything-blender 命令,Agent 可以这样用它:
# 创建场景
cli-anything-blender scene new --name ProductShot
# 添加物体
cli-anything-blender object add-mesh --type cube --location 0 0 1
# 渲染——调用的是真正的 Blender 引擎!
cli-anything-blender render execute --output render.png --engine CYCLES
注意最后一行:「它调用的是真正的 Blender 渲染引擎」,输出的是真正的渲染图片,不是什么Pillow糊弄事的替代品。
很多人第一反应是:MCP 不香吗?为什么要走CLI这条路?
CLI-Anything 的选择有深层逻辑:
「1. CLI 是人和 AI 的最大公约数」
命令行是纯文本输入、纯文本输出——这恰好是大语言模型最擅长的格式。不需要协议适配,不需要序列化/反序列化的开销,一个 --help 就能让 Agent 自动发现所有能力。
「2. 零依赖,零配置」
不需要启动MCP Server,不需要配置OAuth,不需要安装SDK。pip install -e . 之后,which cli-anything-blender 就能找到它。Agent 发现工具的方式和人类完全一样。
「3. 确定性和可组合性」
同样的命令永远产出同样的结果。命令之间可以自由组合成流水线,这对 Agent 的行为可预测性至关重要。
「4. 实战验证」
Claude Code 每天通过命令行执行数以千计的真实任务。CLI 不是"理论上可行",而是"已经在跑了"。
空口白话没意义,直接上硬数据。
CLI-Anything 目前已经为 「21款」 不同领域的专业软件生成了完整的 CLI 接口:
软件 | 领域 | 测试数 |
|---|---|---|
Blender | 3D建模与渲染 | 208 |
Inkscape | 矢量图形 | 202 |
Audacity | 音频制作 | 161 |
LibreOffice | 办公套件 | 158 |
Kdenlive | 视频剪辑 | 155 |
Shotcut | 视频剪辑 | 154 |
OBS Studio | 直播与录制 | 153 |
Draw.io | 图表绘制 | 138 |
GIMP | 图像编辑 | 107 |
Ollama | 本地LLM推理 | 98 |
Mubu | 知识管理 | 96 |
ComfyUI | AI图像生成 | 70 |
RenderDoc | GPU帧捕获分析 | 59 |
MuseScore | 乐谱编辑 | 56 |
AnyGen | AI内容生成 | 50 |
AdGuardHome | 网络广告拦截 | 36 |
Zoom | 视频会议 | 22 |
NotebookLM | AI研究助手 | 21 |
Sketch | UI设计 | 19 |
FreeCAD | 参数化3D CAD | 新增 |
Browser | 浏览器自动化 | 新增 |
「合计」 | 「1917+」 |
「全部 1917 项测试,100% 通过。」
这里面不只有"跑通了"的单元测试,还有硬核的端到端验证:
%PDF- 魔术字节「不是mock,不是stub,是真刀真枪调用真实软件。」
# 1. 添加插件市场
/plugin marketplace add HKUDS/CLI-Anything
# 2. 安装插件
/plugin install cli-anything
# 3. 对准任何软件,一键生成
/cli-anything ./gimp
# 4. 觉得覆盖不够?迭代优化
/cli-anything:refine ./gimp "我要更多滤镜和批处理功能"
CLI-Anything 不绑定任何单一平台。它为 「6 个主流 AI 编程工具」 提供了原生接入:
挑你顺手的,装上就用。
社区已经生成了 20+ 个即装即用的 CLI,全在 「CLI-Hub」 上:
# 比如安装 Ollama 的 CLI
pip install git+https://github.com/HKUDS/CLI-Anything.git#subdirectory=ollama/agent-harness
# 直接用
cli-anything-ollama --help
cli-anything-ollama model list --json
一行 pip install,Agent 立刻拥有操控对应软件的全部能力。
最近 GUI Agent(Computer Use 类方案)很火,但 CLI-Anything 走了一条完全不同的路。来做个对比:
维度 | GUI Agent | CLI-Anything |
|---|---|---|
交互方式 | 截图 + 点击坐标 | 结构化文本命令 |
稳定性 | 界面一改就崩 | 命令行接口稳定 |
速度 | 截图→识别→操作,数秒级 | 直接命令调用,毫秒级 |
功能覆盖 | 能看到的按钮才能点 | 完整API能力,包括隐藏功能 |
输出格式 | 非结构化截图 | 结构化JSON |
Token消耗 | 每步都要发截图,巨贵 | 纯文本交互,极省 |
可组合性 | 几乎不可能串联 | 天然支持管道和脚本 |
不是说 GUI Agent 没价值——但在专业软件操控这个场景,CLI 方案碾压级优于截图点击。
CLI-Anything 还做了一件很酷的事:「CLI-Hub 元技能」。
装上这个元技能后,你的 Agent 不需要知道"要用什么CLI",它会自己去 CLI-Hub 浏览目录,找到合适的工具,自动安装,然后使用。
# 安装元技能
openclaw skills install cli-anything-hub
# 然后直接甩任务
"帮我用合适的工具把这段音频降噪并导出为 MP3"
Agent 会自己发现 cli-anything-audacity、自动安装、调用降噪命令、导出文件。「全程零人工介入。」
这才是 Agent 真正该有的样子——不是"我告诉你用什么工具",而是"你自己去找"。
如果你是技术人,这几个设计值得关注:
CLI 生成合法的项目文件(ODF、MLT XML、SVG),然后调用真实软件后端渲染。如果后端缺失,测试直接 「fail」 而不是 skip。
这意味着每一个通过的测试都经过了真实软件的验证。
每个 CLI 都支持两种模式:
cli-anything-gimp --json project new所有 CLI 共享 repl_skin.py——统一的品牌横幅、风格化提示符、命令历史、进度指示器。无论操控哪个软件,交互体验一致。
每个 CLI 自动附带一份 SKILL.md,包含 YAML 元数据、命令文档、使用示例和 Agent 专用指南。这让任何 Agent 框架都能即时发现和使用这个 CLI。
不只是"创意软件"。CLI-Anything 的射程覆盖了几乎所有有源码的软件类型:
而且这个列表每天都在增长。社区贡献者来自全球,最近两周就新增了 FreeCAD(258个命令!)、iTerm2、Zotero、RenderDoc、Browser 等多个 CLI。
任何项目都有局限,CLI-Anything 也不例外:
/cli-anything 不一定能覆盖所有功能,通常需要跑几次 /refine 来补齐。但在我看来,这些更像是"当前阶段的限制"而非"根本性缺陷"——模型能力在快速提升,逆向工程工具在进化,迭代优化本身也是自动化的。
「CLI-Anything 做了一件看起来简单但极其深远的事:它让"AI Agent操控真实专业软件"这件事,从"理论上可行"变成了"一行命令就能用"。」
21款软件、1917项测试、6个平台支持、全球社区贡献——这不是一个实验室demo,是一个正在快速成长的生态。
如果你是 AI 开发者,强烈建议你花 5 分钟试一下。
如果你维护一款开源软件,考虑用 CLI-Anything 给它加一层 Agent 接口——这可能是你的软件进入 AI 时代最快的方式。