核心自主迭代循环 /autoresearch:plan 交互式配置向导 /autoresearch:security STRIDE + OWASP 安全审计 /autoresearch:ship 发布前检查工作流 /autoresearch:debug 科学方法自主排 bug /autoresearch:fix 自动修复所有错误 /autoresearch:scenario 场景驱动测试生成 /autoresearch cp -r autoresearch/claude-plugin/skills/autoresearch .claude/skills/autoresearch cp -r autoresearch/ claude-plugin/commands/autoresearch .claude/commands/autoresearch 然后试试: /autoresearch Goal: Increase 特性 Karpathy autoresearch Codex Autoresearch Claude Autoresearch AutoResearchClaw 核心场景 ML 模型训练优化 通用代码质量
AutoResearch 的解决方案很简单:把训练时间固定为 5 分钟。 配图2:AutoResearch 自进化循环流程图 特性二:单文件修改的范围控制 AI 只被允许修改一个文件:train.py。 MuonAdamW 优化器 这是 AutoResearch 技术上的一大创新。 克隆项目 git clone https://github.com/karpathy/autoresearch.git cd autoresearch # 3. 配图5:AutoResearch vs 传统超参数调优对比 六、最佳实践 1.
前 OpenAI、特斯拉前 AI 总监 Andrej Karpathy,发布了一个新项目——autoresearch,短短一周左右就狂揽 35.6k Star。 autoresearch 本质上是一个极简版的 LLM 训练环境,它基于 Karpathy 之前的nanochat项目,把核心训练代码压缩成了一个只有630行左右的单文件。 cd autoresearch uv sync 3、准备数据和分词器(一次性,大约2分钟) uv run prepare.py 4、手动运行一次训练,确保一切正常(大约5分钟) uv run train.py 写在最后 Karpathy 的 autoresearch 项目,用一种极其简洁优雅的方式,向我们展示了AI自主做研究的可行性。 GitHub: https://github.com/karpathy/autoresearch 如果本文对您有帮助,也请帮忙点个 赞 + 在看 哈!❤️ 在看你就赞赞我!
最近我在研究Karpathy的开源项目AutoResearch心得有二Git分支管理当你想尝试一个新方向时,不用贸然推翻现有状态,而是从“主干”上拉一条“分支”,所有新尝试都在这条分支上进行。 设计一个“不用人在场”的系统,摆脱自身瓶颈AutoResearch的项目文件里,有一句指令让我印象深刻,翻译过来大意是:“永远别停……人可能正在睡觉。” 而AutoResearch给出的解决方案,是搭建一个自主循环的系统,无需人全程盯守,就能自动运转。我把这套系统拆成最直白的人话,分为四个核心步骤:触发器:明确“什么时候开干”,拒绝“凭感觉”。
AutoResearch-MLIP:让每一个假设、每一次失败,都成为下一轮研究的依据 一句话概括:AutoResearch-MLIP 以机器学习力场为研究对象,构建了一套自主科研闭环——智能体持续提出设计假设 图 1|AutoResearch-MLIP 的基本流程。 失败不只是低分——它是下一步的边界 AutoResearch-MLIP中,失败不等于低分,而是一类包含约束信息的结果记录。 如果这一方向走通,AutoResearch-MLIP的自主演化循环就不再只是搜索高分模型,而是朝着科学上更可复用、更可迁移的设计原则推进。 AutoResearch-MLIP由中国科大机器化学家团队与华为 MindSpore Science团队联合开发,已可通过"灵境造物"科研平台使用。
读懂Karpathy的autoresearch:把Agent关进训练场,让它自己跑一夜实验你可以先想象一个画面。 这就是karpathy/autoresearch想做的事。到2026年3月中旬,GitHub仓库页显示它已经有4.2万左右Star、5.8k左右Fork。 先说清楚:autoresearch自动化的,不是整个科研,而是一段最耗时间的循环很多人看到这个项目,第一反应是“AI要自己做研究了”。 这个仓库为什么看起来很小,却一点都不像玩具autoresearch真正重要的文件其实只有三个,但这三个文件的分工切得很漂亮。 换句话说,autoresearch真正做到的,不是“自动科研”,而是“自动科研里最容易先跑通的一小段”。但这恰恰也是它值得看的地方。
他写了一个 630 行的 Python 脚本,叫 autoresearch(https://github.com/karpathy/autoresearch)。 再过了几天,Udit Goenka(https://github.com/uditgoenka/autoresearch) 把 Karpathy 的思路从「优化 LLM 训练代码」泛化成了「优化任何可以测量的东西 或者说,外层用 autoresearch 的方式不断试错、回滚、保留。内层用 creator 的评测把「好不好」这件事测清楚。 Skill-Evolver = AutoResearch 的 loop 骨架 + Creator 的评测引擎 + Meta-Harness 的诊断大脑。 /autoresearch) 8 阶段骨架 + 5 原则 通用化 uditgoenka/autoresearch(https://github.com/uditgoenka/autoresearch)
【AutoResearch:单 GPU 的 LLM 训练实验环】 应用案例 / 技术升级:知名开源项目 AutoResearch 提供单 GPU 的 LLM 训练实验环,允许 agent 修改代码并在固定 AutoResearch 通过限制训练时间和资源,提高实验次数,帮助研究者在有限 GPU 条件下发现新架构或调整训练策略 。该框架对 AIGC 创新具有启示意义。
真正有意思的是对比:Karpathy 的原始 Autoresearch 采用纯代码上下文驱动方式[6]:只给目标,让 Agent 自己在代码里找变化——最终在 16 块 GPU 上跑了 8 小时、生成 computers again [5] Sunset Visitor: Proving You're Human with a Game About AI Identity [6] Karpathy/Autoresearch
第二类:研究型实验README里最吸睛的是autoresearch那段:8Agent8H1002430+实验val_bpb1.044->0.977这个例子当然非常强,但我觉得更值得看的不是数字,而是它表达的调度逻辑 第二,很多高光场景本身带有演示成分比如:8H100的autoresearch7Agent的hedgefund全栈团队自动合并这些场景的方向都对,但你第一次接触这个仓库时,最好先把它理解成:这是项目给你展示
同在今天,来自ELLIS Institute Tübingen等科研团队发布了一项令人震撼的进展—— 他们将Claude Code部署在一个自动化研究(Autoresearch)循环中,让AI独立去寻找新型的
项目简介 gnhf 是一个 ralph、autoresearch 风格的编排器(orchestrator),它能让你的 coding agent 在你睡觉时持续运行。
Karpathy在加入Anthropic之前分享过一个经历:他让autoresearch Agent跑了2天,Agent自主执行了约700次修改,其中约20次改进了验证集的loss。
如果说管家系统只是小打小闹,那 Karpathy 正在做的“自动研究(AutoResearch)”才是真正的黑科技。 他有个极其激进的目标:把自己从研究链路中彻底移除。
Karpathy 说过一件事,他把自己的 AutoResearch 系统跑了一晚上,发现它找到了他手动优化很久的代码库里从未发现的改进点。
LLM Wiki 概念,Agent 可以积累和检索项目知识 OpenClaw 通知系统:Discord/Telegram 实时推送执行状态 Rate Limit 智能等待:触发限流后自动挂起、到期恢复 Autoresearch