
很多人用AI做研究,第一步是让它总结主题。这个动作只能得到平均答案。Stanford STORM更值得借鉴的地方,在于它把研究拆成一套流程:多视角提问、矛盾映射、综合简报、可信度评审。真正重要的能力,体现在人如何保留视角设计、证据取舍和最终判断权。

alt text
很多人用 AI 做研究,第一句话就是:
"帮我总结一下这个主题。"
这句话当然能用。问题是,它通常只能换来一个平均答案。
平均答案看起来完整,却很少告诉你:谁会反对这个判断,哪些证据最硬,哪些结论只是漂亮话,哪个问题还没人真正回答。
这也是很多 AI 内容越写越像资料拼盘的原因——有摘要、有清单、有结论,但没有判断过程。
Stanford OVAL Lab 在 2024 年发表的 STORM 方法,给这件事提供了一个被验证过的思路。
STORM(直译:通过检索和多视角提问合成主题大纲),收录于 NAACL 2024。它不是让模型直接写文章,而是先做多视角提问、检索、对话、整理大纲,再进入生成。
论文里有两组数据值得记住:STORM 生成的文章在事实覆盖度上显著优于直接生成和标准 RAG 基线;在人类评估中,STORM 版本也被认为更全面、更结构化。起作用的关键机制,正是多视角提问——不同视角提出的问题,覆盖面更广、更不容易遗漏。
这套系统本身有工程实现、有检索、有引用、有多轮问答。普通人未必需要把完整系统跑起来。但我们可以先学它背后的研究协议。
我自己用这套四步流程跑过一次"Loop Engineering 是否真的提效",下面先说案例,再说几个容易踩的坑。

我用自己打磨的storm-research技能生成的分析结果页面
最近很多人问:Loop Engineering 是不是真的能让 AI Agent 自动干活、持续提效?
直接问 AI,得到的是标准平衡回答:能自动执行、能减少人工盯盘、能提升自动化效率;同时也会带来成本、失控、幻觉和验证负担。
正确的废话。
我换成四步流程。
第一步,五视角扫描。
我用的工具是 Claude,但同一套协议Codex 也都能跑。下面让 AI 分别从五个位置看这个问题:
同一个问题被拆开之后,"提效"这个词的含义就变了:对实践者是工作流解放,对学者是可验证指标,对怀疑者是隐藏成本,对经济学家是成本结构,对历史观察者是自动化浪潮的又一次回响。
第二步,矛盾地图。
我让 AI 专门找冲突:
如果只停在第一步,我会以为"Loop Engineering 提效"是一个共识。走完第二步,我才发现:执行层的提效和总账上的提效,可能是两件不同的事。
第三步,研究简报,按证据等级排序。
这里最关键的是"按证据等级排序"。AI 很擅长把话说完整,但不会天然知道哪句话更值得相信。如果不要求它标出依据来源,实践者感受、厂商宣传、理论推演、个案经验就会出现在同一个语气里,直接污染判断。
第四步,可信度评审。
我让 AI 自查:
走完这四步,我拿到的不再是一个"是或否"的答案,而是一张问题地图。
跑完这个案例,有几处容易踩的坑值得记下来。
坑 1:视角选得太泛,5 个视角互相重叠。
"实践者""使用者""一线员工"经常是同一个人。选视角时要刻意拉开距离:谁受益、谁付费、谁反对、谁被遗漏。如果 5 个视角给出的答案差不多,说明视角没选对。
坑 2:把"视角不同"当成"观点冲突"。
两个视角给出不同描述,不等于它们打架。真正的冲突是两个视角对同一个判断给出相反结论。只有这种冲突才值得继续深挖。
坑 3:简报按精彩程度排序,而不是按可靠性排序。
AI 给的简报看起来很完整,但里面可能把论文结论、媒体表达、个人猜测放在同一个语气里。必须按证据来源分级,否则会被"说得顺"的那句带走。
坑 4:自查只做样子,最后还是信了最顺的那个结论。
自查不是走流程。如果 AI 自查后说"最不稳的结论是 X",但你还是忍不住把 X 当成文章主线,那自查就白做了。自查的结论必须真的影响你的取舍。

alt text
真正值得沉淀的,是你自己的研究协议。
常用的五视角扫描 Prompt、矛盾地图 Prompt、研究简报模板、可信度评审清单、证据日志表、选题复盘记录——这些东西用一次,只是技巧。用十次,就会变成你的个人研究系统。每次写文章、做产品判断、学习新领域之前,都先跑同一套流程,你会慢慢积累出自己的问题库、证据库、反方清单和判断标准。
这也是 Human3.0 一直在说的那件事:在 AI 时代,人真正的杠杆不是会用工具,而是能把自己的判断流程沉淀成可复用的数字生产资料。
这套协议不绑定任何工具。我用 Claude,也见过有人用 Codex 跑同一套流程,效果主要取决于协议设计,而不是模型。模型可以换,协议留在你手里。我把这套流程封装成了一个本地 skill,叫 storm-research,不绑定任何模型,接收主题或选题,按四步输出问题地图、冲突点、可信度风险和下一步采证清单。
一次提示词只能解决一次问题,一个 skill 可以反复接入工作流。

alt text
五个视角,一张矛盾地图,一份带证据等级的简报,一次可信度评审。
下次动手前,先跑这四步。AI 给的是材料,你留下的是判断。
下文会介绍斯坦福又做了 Co-STORM,可以理解为 协作版 STORM。 STORM 偏自动生成报告;Co-STORM 则加入了人类用户参与,让人可以在知识探索过程中插话、引导方向、观察多个 AI 专家讨论。GitHub 里提到,Co-STORM 包含 LLM experts、Moderator 和 Human user;同时维护一个动态 mind map,把收集到的信息组织成层级概念结构。说人话就是
STORM 是 AI 帮你写研究报告。 Co-STORM 是你和一组 AI 专家开圆桌会,边讨论边沉淀知识地图。
我把这套方法整理成了两样东西:
storm-research skill:把四步流程封装成本地 skill,接收主题或选题,按协议输出问题地图、冲突点、可信度风险和下一步采证清单。