
GitHub:https://github.com/ustc-time-series/CastClaw
主页:https://agentr1.github.io/cast-claw/
TL; DR:CastClaw 是一个基于 CLI-TUI 的人机协同时序预测智能体框架——编排 Planner、Forecaster、Critic 三大智能体,通过严格的 Agentic Workflow(初始化 → 预测前分析 → 技能审核 → 实验循环 → 后置报告)自动化完成实验设计、模型训练与结果分析,全程保持人类在环(HITL),让研究者而非 AI 做最终决策。
如果 CastClaw 对你的研究或工作有所启发,欢迎在 GitHub 上Star⭐支持;如有合作意向或技术交流,也欢迎通过主页联系我们。
点击文末阅读原文跳转本文项目主页链接。
在能源调度、金融风控、工业智能等关键领域中,时间序列预测是支撑决策的重要基础。从最早的统计模型,到机器学习驱动的端到端方法,研究者不断尝试提升模型对复杂动态系统的刻画能力。然而,随着真实场景中数据非平稳性增强、情境因素日益复杂,传统“给定历史—预测未来”的建模范式,正在逐渐触及其能力边界。当前时序预测正面临一个显著的困局:模型虽然在基准数据集上不断刷新精度指标,但在真实复杂环境中却往往表现出脆弱性。一方面,模型缺乏对情境信息的深度理解,难以应对分布漂移与突发事件;另一方面,预测过程高度“黑箱化”,缺乏可解释的推理路径,也无法在关键决策节点引入人类经验与领域知识。这种“单次前向推理”的范式,使得模型难以像人类专家一样,通过分析、判断与反思不断修正预测结果。针对这一挑战,中国科学技术大学认知智能全国重点实验室团队提出了一种全新的范式——基于自主决策与人机协同的时序预测智能体 CastClaw。该方法不再将预测视为一次性输出,而是将其重构为一个“感知—推理—决策—反思-进化”的多轮交互与动态演化过程。CastClaw通过构建可交互的预测环境,使模型能够主动调用工具、分析数据结构、识别关键变化模式,从而逐步逼近更可靠的未来趋势。进一步地,CastClaw突破了传统模型“被动响应”的局限,具备与环境进行自主交互的能力。它可以模拟人类在面对复杂时序问题时的思维方式,对趋势变化进行多步推理与假设验证;在关键节点上,还能够引入人类专家的判断,实现人机协同决策。同时,借助模块化的Skill机制,CastClaw可以不断积累经验、调用新能力,实现持续学习与自我进化。这种从“模型预测”迈向“智能体决策”的转变,或将为时间序列研究打开一条通往认知智能的新路径。
做过时序预测研究的人,大概都经历过这样的场景:
数据集到手,面对几十种模型族、成百上千的超参数组合,不知道从哪里下手;跑了几十个实验,发现结果参差不齐,却很难说清楚为什么某个模型在这个数据上更好;好不容易跑通了一套自动化流程,又发现它像一个黑盒——你看不进去,也插不进手,领域知识和先验经验根本无处施展。这不是个别现象。随着时序预测模型数量的爆炸式增长(统计模型、深度学习架构、时序基础模型……),系统性探索模型空间的成本越来越高;与此同时,"全自动"方案虽然降低了操作负担,却也把研究者变成了旁观者——AI 在跑,人在等,出了问题也不知道问题出在哪。领域真正需要的,不是让 AI 替代研究者,而是让 AI 负责高频、繁琐的执行,让研究者在关键节点保持掌控。这正是 CastClaw 想要解决的问题。
CastClaw 是一个基于 CLI的人机协同时序预测 AI 智能体框架。
它的核心设计是:编排 Planner(规划者)、Forecaster(预测者)、Critic(评审者) 三大专属智能体,通过严格的 Agentic Workflow 自动化完成实验设计、模型训练与结果分析,同时在关键决策节点设置人机协作暂停(HITL),让研究者随时介入、注入专业判断。
一句话:AI 负责效率,人类负责判断。
与其他自动化预测工具的本质区别在于:CastClaw 不追求让人完全退出流程,而是精心设计了人类应该介入的节点——在那些节点上,你的领域知识比任何模型都更有价值。
框架通过 CLI 驱动的命令行交互界面运行,无需 Web 服务,直接在终端里切换三个智能体标签页,轻量、高效、可复现。
CastClaw 由三个职责分明的专属智能体协同工作,使用 Ctrl+1 / Ctrl+2 / Ctrl+3 在 TUI 中切换:
generate_model 训练评估,进行反思记录,管理实验预算。实验停滞时自动触发 HITL 暂停,等待人类反馈后继续。.forecast/reports/final-report.md。三个智能体各自维护独立上下文,通过 .forecast/ 工作目录协议共享状态,整个协作过程始终可见、可审查、可复现。

CastClaw 在三个关键节点保留人工确认,把领域知识引入流程:
1. 任务设定确认:在初始化阶段,由人类确认目标列、时间列、预测步长、评估指标和资源约束。任务定义的偏差一旦在早期被纠正,就不会在后续几十次实验中被持续放大。
2. 技能策略审核:Planner 生成技能草案后,研究者会审核模型族选择、参数搜索空间与风险警告,确保实验策略符合数据特征和领域先验。只有人工确认通过的技能,才会进入实验循环,避免盲目跑模型。
3. 关键结果干预:当实验停滞、连续无改善或生成候选最优方案时,Forecaster 自动暂停并请求人类反馈。你的领域判断会被记录为专家输入,重置无改善计数器后继续探索。
这套设计的核心逻辑是:高频、结构化的任务交给 AI,高价值的判断留给人类。

CastClaw 将 Planner 生成并经人工审核的技能文件视为可长期积累的系统经验。
每个技能文件包含:适用条件说明、参数搜索空间、特征模板(配置 JSON)、风险与失败经验、领域先验备注。这些 Skill 不只服务于单次实验——随着 Skill 库的不断丰富,CastClaw 可以在新任务中更快启动、更准决策。
面对相似的数据形态、预测步长或资源约束时,系统可以从已有 Skill 出发完成更高效的任务初始化和更合理的实验设计,表现出随经验积累而增强的自主进化能力。
值得注意的是:Skill 不会自动进入实验循环,而是先经过人工确认,再作为可信策略长期保留,确保系统的后续进化建立在高质量经验之上。

CastClaw 遵循严格的 Agentic Workflow,阶段转换由 forecast_state 工具强制执行,不可跳过——即使 LLM 产生幻觉也无法绕过阶段,确保每次实验过程可追溯、可复现。
① Init(初始化)
└─ Planner 定义任务,冻结 task.json,可选生成 CAST.md 约束文件
② Pre-forecast Analysis(预测前分析)
└─ 双轨并发:定性域研究(WebSearch)+ 定量数据诊断
└─ 融合为 .forecast/reports/pre-forecast.md
③ Skill Audit(技能审核)[HITL]
└─ Planner 生成 2–4 个结构化技能文件
└─ 人工审核并确认后,正式进入实验循环
④ Experiment Loop(实验循环)[HITL]
└─ Forecaster 迭代:选配置 → 训练评估 → 反思记录 → 预算检查
└─ 停滞时暂停,融合人类反馈后继续
⑤ Post-forecast Report(后置报告)
└─ Critic 生成结果对比、性能分解、可视化脚本
└─ 输出 .forecast/reports/final-report.md
整个流程中,人类在步骤 ③ 和 ④ 参与,其余步骤由智能体自动完成。
运行环境: Bun ≥ 1.3.11 + Python ≥ 3.10 + uv
安装:
# npm 全局安装(推荐)
npm install -g castclaw
配置 LLM(支持Anthropic/ OpenAI / Google 等 20+ 提供商):
export ANTHROPIC_API_KEY=sk-ant-... # 默认
# 或
export OPENAI_API_KEY=sk-...
启动 TUI,开始预测:
cd /path/to/your/dataset
castclaw
TUI 启动后,在 Planner 标签页(Ctrl+1)输入任务描述,例如:
为 data/etth1.csv 初始化预测会话。目标列:OT,时间列:date,
预测步长:96 步,回看长度:336。采用 70/20/10 分割,使用 MSE 和 MAE 评估。
更多用法详见
完整教程:https://github.com/SkyeGT/CastClaw/blob/main/docs/tutorial.md)
模型列表:https://github.com/SkyeGT/CastClaw/blob/main/docs/models.md。
CastClaw 并不是一个孤立的工具,而是 USTC AGI 组在时序智能体方向上系列探索的组成部分。
时序预测正在经历一次范式转移——从"给定历史、输出预测"的单次前向推理,走向"感知—推理—决策—反思—进化"的智能体决策过程。
CastClaw的研发团队中科大认知全重实验室研究团队此前已在Agentic Time Series Forecasting多个维度上展开了系统性研究:
这五项工作分别从智能体训练、研究范式、序贯决策、认知推理与应用拓展五个维度,共同推进时序智能体这一方向。