agents-hive 是面向 ReAct Agent 的工程化执行底座与质量控制平面。它不只是让模型接上工具,而是把一次复杂任务从入口、计划、工具调用、权限审批、SubAgent 协作、记忆上下文、IM 触达、执行轨迹、质量评测到优化回滚,收束到同一条可追踪、可复盘、可治理的运行链路。
它解决的不是"怎么让模型调用函数",而是更难的生产问题:Agent 为什么做这个决策、调用了哪些能力、是否越权、失败发生在哪一步、能不能重放和评估、下一次能否避免同类错误。
一句话概括:agents-hive = Agent Runtime + Agent Harness + Quality Control Plane + Ops Workbench
🔒 工具权限规则统一治理与审批语义收敛
本次更新彻底解决了多入口权限不一致、审批逻辑混乱的问题,建立了统一的安全契约体系。
Web/CLI/APIIM 全通道统一权限网关PolicyConsistency黄金矩阵ToolRuntime统一抽象安全契约固化检查
- • ✅ 全系统权限语义统一,消除不同入口权限不一致问题
- • ✅ 普通IM文本消息不再触发HITL审批,大幅提升交互流畅度
- • ✅ 引入PolicyConsistency黄金矩阵,确保权限策略一致性
- • ✅ ToolRuntime完成统一抽象,为后续多运行时扩展奠定基础
- • ✅ 安全契约固化,所有工具调用必须通过统一安全检查
- • ✅ 完善Metrics基础设施,权限与审批数据可全量观测
- • ✅ 提供Dual-write迁移窗口,平滑升级不影响现有业务
📊 Run质量治理
从工具调用层面建立可观测、可度量的质量体系,实现精细化运营。
统一生产指标工具策略全维度量化成功率/延迟/成本统计发现与授权隔离tool_search 元数据类型化细粒度能力授权控制记忆注入隔离owner/domain 双重隔离避免上下文交叉污染
- • ✅ 统一工具策略生产指标,实现精细化运营
- • ✅ 工具搜索元数据类型化,能力发现与授权完全隔离
- • ✅ 记忆注入增加owner/domain隔离,避免上下文污染
🧪 Agent质量治理(重磅升级)
这是本次更新最核心的部分,我们把Agent的优化从"玄学改Prompt"变成了标准化的工程流程。
线上运行失败采集回归测试发布上线质量闭环✅ LLM Judge 语义评测✅ Golden Case 真实路径✅ 回归门禁强制通过✅ 抽样评测自动回滚✅ 外部Benchmark接入✅ Evidence分级机制
- • ✅ 解决静态Pass误用问题,引入evidence level分级机制
- • ✅ Golden case可跑真实Agent执行路径(AgentRunEvalRunner)
- • ✅ 支持语义质量可量化评测(LLM Judge + rubric评分体系)
- • ✅ 线上失败自动晋升为回归测试用例,形成完整case生命周期
- • ✅ 业务域必须通过回归门禁才能上线,杜绝低级错误
- • ✅ 线上抽样评测驱动自动回滚告警,提前发现质量问题
- • ✅ 支持外部benchmark接入(adapter + CLI),方便横向对比
🌟 为什么选择 agents-hive
- • 不是聊天壳:Web、CLI、HTTP API、IM Channel 都进入同一套会话、权限、工具、记忆和审计链路
- • 不是工具集合:工具、Skill、MCP、自定义扩展和插件进程统一纳入能力发现、准入、审批和运行策略
- • 不是一次性 demo:Replay / Journal / Trace / Trajectory 让每一步执行都能复盘,失败可以归因
- • 不是黑盒自动优化:质量候选池、prompt smoke eval、优化建议、人工审批和 rollback 组成可控闭环
- • 不是单 Agent 孤岛:Master Agent、Plan Runtime、SubAgent、远程 ACP Agent 共同支撑长任务协作
⭐ 欢迎star~ 支持项目发展:https://github.com/chef-guo/agents-hive
觉得有用欢迎推荐给身边做Agent工程化的朋友和同事!