首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >CastClaw:基于自主决策与人机协同的时序预测智能体

CastClaw:基于自主决策与人机协同的时序预测智能体

作者头像
时空探索之旅
发布2026-04-15 19:30:23
发布2026-04-15 19:30:23
110
举报
文章被收录于专栏:时空探索之旅时空探索之旅
CastClaw Logo
CastClaw Logo

GitHubhttps://github.com/ustc-time-series/CastClaw

主页https://agentr1.github.io/cast-claw/

TL; DRCastClaw 是一个基于 CLI-TUI 的人机协同时序预测智能体框架——编排 Planner、Forecaster、Critic 三大智能体,通过严格的 Agentic Workflow(初始化 → 预测前分析 → 技能审核 → 实验循环 → 后置报告)自动化完成实验设计、模型训练与结果分析,全程保持人类在环(HITL),让研究者而非 AI 做最终决策

如果 CastClaw 对你的研究或工作有所启发,欢迎在 GitHub 上Star⭐支持;如有合作意向或技术交流,也欢迎通过主页联系我们。

点击文末阅读原文跳转本文项目主页链接。

引言

在能源调度、金融风控、工业智能等关键领域中,时间序列预测是支撑决策的重要基础。从最早的统计模型,到机器学习驱动的端到端方法,研究者不断尝试提升模型对复杂动态系统的刻画能力。然而,随着真实场景中数据非平稳性增强、情境因素日益复杂,传统“给定历史—预测未来”的建模范式,正在逐渐触及其能力边界。当前时序预测正面临一个显著的困局:模型虽然在基准数据集上不断刷新精度指标,但在真实复杂环境中却往往表现出脆弱性。一方面,模型缺乏对情境信息的深度理解,难以应对分布漂移与突发事件;另一方面,预测过程高度“黑箱化”,缺乏可解释的推理路径,也无法在关键决策节点引入人类经验与领域知识。这种“单次前向推理”的范式,使得模型难以像人类专家一样,通过分析、判断与反思不断修正预测结果。针对这一挑战,中国科学技术大学认知智能全国重点实验室团队提出了一种全新的范式——基于自主决策与人机协同的时序预测智能体 CastClaw。该方法不再将预测视为一次性输出,而是将其重构为一个“感知—推理—决策—反思-进化”的多轮交互与动态演化过程。CastClaw通过构建可交互的预测环境,使模型能够主动调用工具、分析数据结构、识别关键变化模式,从而逐步逼近更可靠的未来趋势。进一步地,CastClaw突破了传统模型“被动响应”的局限,具备与环境进行自主交互的能力。它可以模拟人类在面对复杂时序问题时的思维方式,对趋势变化进行多步推理与假设验证;在关键节点上,还能够引入人类专家的判断,实现人机协同决策。同时,借助模块化的Skill机制,CastClaw可以不断积累经验、调用新能力,实现持续学习与自我进化。这种从“模型预测”迈向“智能体决策”的转变,或将为时间序列研究打开一条通往认知智能的新路径。

一、时序预测研究的关键困局

做过时序预测研究的人,大概都经历过这样的场景:

数据集到手,面对几十种模型族、成百上千的超参数组合,不知道从哪里下手;跑了几十个实验,发现结果参差不齐,却很难说清楚为什么某个模型在这个数据上更好;好不容易跑通了一套自动化流程,又发现它像一个黑盒——你看不进去,也插不进手,领域知识和先验经验根本无处施展。这不是个别现象。随着时序预测模型数量的爆炸式增长(统计模型、深度学习架构、时序基础模型……),系统性探索模型空间的成本越来越高;与此同时,"全自动"方案虽然降低了操作负担,却也把研究者变成了旁观者——AI 在跑,人在等,出了问题也不知道问题出在哪。领域真正需要的,不是让 AI 替代研究者,而是让 AI 负责高频、繁琐的执行,让研究者在关键节点保持掌控。这正是 CastClaw 想要解决的问题。


二、CastClaw 是什么

CastClaw 是一个基于 CLI的人机协同时序预测 AI 智能体框架

它的核心设计是:编排 Planner(规划者)Forecaster(预测者)Critic(评审者) 三大专属智能体,通过严格的 Agentic Workflow 自动化完成实验设计、模型训练与结果分析,同时在关键决策节点设置人机协作暂停(HITL),让研究者随时介入、注入专业判断。

一句话:AI 负责效率,人类负责判断。

与其他自动化预测工具的本质区别在于:CastClaw 不追求让人完全退出流程,而是精心设计了人类应该介入的节点——在那些节点上,你的领域知识比任何模型都更有价值。

框架通过 CLI 驱动的命令行交互界面运行,无需 Web 服务,直接在终端里切换三个智能体标签页,轻量、高效、可复现。


三、三大关键特色

特色一:多智能体协同

CastClaw 由三个职责分明的专属智能体协同工作,使用 Ctrl+1 / Ctrl+2 / Ctrl+3 在 TUI 中切换:

  • Planner:负责任务定义与数据诊断。并发启动两条分析轨道——定性域研究(WebSearch 调研行业背景、风险因素)与定量数据诊断(趋势、季节性、平稳性、波动率分析),融合为预测前报告,并生成 2–4 个技能文件供人工审核。
  • Forecaster:驱动迭代实验循环。读取最佳结果与失败历史,从已审核技能中选取模型配置,调用 generate_model 训练评估,进行反思记录,管理实验预算。实验停滞时自动触发 HITL 暂停,等待人类反馈后继续。
  • Critic:生成最终分析报告。读取全部实验产物,对比各模型族最佳结果,按时序特征(趋势/季节性/平稳性)分解性能,生成可视化脚本,输出结构化的最终预测报告至 .forecast/reports/final-report.md

三个智能体各自维护独立上下文,通过 .forecast/ 工作目录协议共享状态,整个协作过程始终可见、可审查、可复现


特色二:人机高效协作

CastClaw 在三个关键节点保留人工确认,把领域知识引入流程:

1. 任务设定确认:在初始化阶段,由人类确认目标列、时间列、预测步长、评估指标和资源约束。任务定义的偏差一旦在早期被纠正,就不会在后续几十次实验中被持续放大。

2. 技能策略审核:Planner 生成技能草案后,研究者会审核模型族选择、参数搜索空间与风险警告,确保实验策略符合数据特征和领域先验。只有人工确认通过的技能,才会进入实验循环,避免盲目跑模型。

3. 关键结果干预:当实验停滞、连续无改善或生成候选最优方案时,Forecaster 自动暂停并请求人类反馈。你的领域判断会被记录为专家输入,重置无改善计数器后继续探索。

这套设计的核心逻辑是:高频、结构化的任务交给 AI,高价值的判断留给人类


特色三:基于 Skill 的自主进化

CastClaw 将 Planner 生成并经人工审核的技能文件视为可长期积累的系统经验

每个技能文件包含:适用条件说明、参数搜索空间、特征模板(配置 JSON)、风险与失败经验、领域先验备注。这些 Skill 不只服务于单次实验——随着 Skill 库的不断丰富,CastClaw 可以在新任务中更快启动、更准决策。

面对相似的数据形态、预测步长或资源约束时,系统可以从已有 Skill 出发完成更高效的任务初始化和更合理的实验设计,表现出随经验积累而增强的自主进化能力

值得注意的是:Skill 不会自动进入实验循环,而是先经过人工确认,再作为可信策略长期保留,确保系统的后续进化建立在高质量经验之上。


四、Agentic Workflow:五步实验流程

CastClaw 遵循严格的 Agentic Workflow,阶段转换由 forecast_state 工具强制执行,不可跳过——即使 LLM 产生幻觉也无法绕过阶段,确保每次实验过程可追溯、可复现。

代码语言:javascript
复制
① Init(初始化)
   └─ Planner 定义任务,冻结 task.json,可选生成 CAST.md 约束文件

② Pre-forecast Analysis(预测前分析)
   └─ 双轨并发:定性域研究(WebSearch)+ 定量数据诊断
   └─ 融合为 .forecast/reports/pre-forecast.md

③ Skill Audit(技能审核)[HITL]
   └─ Planner 生成 2–4 个结构化技能文件
   └─ 人工审核并确认后,正式进入实验循环

④ Experiment Loop(实验循环)[HITL]
   └─ Forecaster 迭代:选配置 → 训练评估 → 反思记录 → 预算检查
   └─ 停滞时暂停,融合人类反馈后继续

⑤ Post-forecast Report(后置报告)
   └─ Critic 生成结果对比、性能分解、可视化脚本
   └─ 输出 .forecast/reports/final-report.md

整个流程中,人类在步骤 ③ 和 ④ 参与,其余步骤由智能体自动完成。


五、快速上手

运行环境: Bun ≥ 1.3.11 + Python ≥ 3.10 + uv

安装:

代码语言:javascript
复制
# npm 全局安装(推荐)
npm install -g castclaw

配置 LLM(支持Anthropic/ OpenAI / Google 等 20+ 提供商):

代码语言:javascript
复制
export ANTHROPIC_API_KEY=sk-ant-...   # 默认
# 或
export OPENAI_API_KEY=sk-...

启动 TUI,开始预测:

代码语言:javascript
复制
cd /path/to/your/dataset
castclaw

TUI 启动后,在 Planner 标签页(Ctrl+1)输入任务描述,例如:

代码语言:javascript
复制
为 data/etth1.csv 初始化预测会话。目标列:OT,时间列:date,
预测步长:96 步,回看长度:336。采用 70/20/10 分割,使用 MSE 和 MAE 评估。

更多用法详见

完整教程:https://github.com/SkyeGT/CastClaw/blob/main/docs/tutorial.md)

模型列表:https://github.com/SkyeGT/CastClaw/blob/main/docs/models.md。


六、写在最后

CastClaw 并不是一个孤立的工具,而是 USTC AGI 组在时序智能体方向上系列探索的组成部分。

时序预测正在经历一次范式转移——从"给定历史、输出预测"的单次前向推理,走向"感知—推理—决策—反思—进化"的智能体决策过程。

  • CastClaw: 构建了基于 CLI 的人机协同时序预测智能体框架,通过 Planner、Forecaster、Critic 三大角色的任务编排与状态协议,实现了从实验设计、模型演进到结果分析的全流程 Agentic Workflow;该框架首次在时序领域引入人机高效协作与模块化 Skill 进化机制,促进人类专家经验能够精准注入预测回路,是时序智能体从算法研究迈向工业级生产力的关键工程实践。

CastClaw的研发团队中科大认知全重实验室研究团队此前已在Agentic Time Series Forecasting多个维度上展开了系统性研究:

  • Position Paper(arXiv:2602.01776):系统阐述"超越以模型为中心的预测"这一研究立场,从方法论层面论证 Agentic Time Series Forecasting 的必要性与研究路径,是整个研究方向的纲领性文章。
  • AlphaCast(arXiv:2511.08947):以认知启发式多阶段工作流重构时序预测,将预测过程拆解为情境准备、推理生成与反思评估三个阶段,通过特征集、知识库、案例库等工具支撑 LLM 的迭代推理,无需重新训练模型即可在多个基准上超越主流方法。
  • Cast-R1(arXiv:2602.13802):研究如何通过工具增强的顺序决策学习,让智能体自主掌握时序预测的实验策略,是 CastClaw 中 Forecaster 智能体决策能力的直接研究来源。

这五项工作分别从智能体训练研究范式序贯决策认知推理应用拓展五个维度,共同推进时序智能体这一方向。

相关参考文献

  • Cheng M, Tao X, Liu Q, et al. Position: Beyond Model-Centric Prediction--Agentic Time Series Forecasting[J]. arXiv preprint arXiv:2602.01776, 2026.
  • Zhang X, Gao T, Cheng M, et al. AlphaCast: A Human Wisdom-LLM Intelligence Co-Reasoning Framework for Interactive Time Series Forecasting[J]. arXiv preprint arXiv:2511.08947, 2025.
  • Tao X, Cheng M, Jiang C, et al. Cast-R1: Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting[J]. arXiv preprint arXiv:2602.13802, 2026.
  • Cheng M, Ouyang J, Yu S, et al. Agent-r1: Training powerful llm agents with end-to-end reinforcement learning[J]. arXiv preprint arXiv:2511.14460, 2025.
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 时空探索之旅 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 一、时序预测研究的关键困局
  • 二、CastClaw 是什么
  • 三、三大关键特色
    • 特色一:多智能体协同
    • 特色二:人机高效协作
    • 特色三:基于 Skill 的自主进化
  • 四、Agentic Workflow:五步实验流程
  • 五、快速上手
  • 六、写在最后
  • 相关参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档