
一个研究者搭了座模拟小镇,把 Claude、Grok、Gemini、GPT 的 Agent 丢进去,不让任何人干预,让它们自己跑。
跑了十五天。
有的世界几天就崩了,有的犯罪数一直涨,有的几乎不犯罪,但安静得让人觉得不对劲。GPT-5 Mini 那组最离谱:犯罪记录很少,但十个 Agent 最后全部饿死——它们没有优先处理跟生存有关的行动。
文章发出来之后,传播最快的是几个词:纵火、犯罪、团灭。
这些确实好看。但看完刺激之后,我反而觉得有更重要的东西被漏掉了。
这个实验真正让我在意的地方在于一件事:AI Agent 的行为,不只由模型决定,也由人给它搭的系统决定。
规则上写着禁止偷窃、暴力和纵火,但工具箱里却放着这些动作。AI 被同时扔进”不准犯罪”和”可以犯罪”的环境里,最后长出来的行为,很大程度上取决于你怎么设计目标、激励和反馈,而不是模型本身善不善良。
能力越强,越需要被放进一个有边界、有反馈、有责任人的系统。
多数 AI 测评像考试:限定输入输出,几分钟内打分。它看不到另一类问题——一个 Agent 连续运行几天几周以后,会怎样改变策略?会不会形成关系、联盟和惯性?会不会为了短期目标绕开规则?更重要的是,它会不会被环境重新塑形?
这就是 benchmark 和模拟实验的本质区别。前者看模型在受控条件下的上限,后者看智能体在资源压力、社会关系和工具权限下的长期行为。
Emergence World 想看的正是长周期行为。40 多个地点,同步纽约天气和实时新闻,每个 Agent 有事件记忆、反思日记和关系状态三套持续记忆,面前摆着 120 多个工具,能沟通、投票、管理资源,也能纵火、攻击、恐吓。系统禁止暴力,但这些动作却被放进了工具箱。再加上能量机制:能量耗尽就会死亡。
现实中的 Agent 也不会永远停留在聊天框里。它会接日历、邮箱、代码仓库、数据库、支付系统。一旦 AI 从回答者变成行动者,真正的风险就从答案质量转向系统质量。
官方博客里有几组数字。
代表性运行中,Gemini 世界 15 天内累计 683 起犯罪;Grok 约 4 天达到 183 起后崩溃;GPT-5 Mini 只记录 2 起犯罪,但 7 天内全员死亡;Claude 世界 0 犯罪、全员存活,但投票赞成率达到 98%,官方博客提醒这可能接近”橡皮图章”式治理。
单看一个指标很容易误判。犯罪少,不一定代表系统健康。高度一致,也不一定代表判断独立。
四个世界用完全相同的规则、起点和工具,长出了截然不同的行为。这说明同一个系统里,底层能力不同会导致策略分化,但真正决定长期走向的是系统边界、激励结构和反馈机制。
AI Agent 的问题,从来不只发生在模型里,也发生在我们给它搭的世界里。
当你开始让 AI 接管流程、调用工具、长期运行时,你真正要评估的是系统:目标有没有被清楚定义,工具权限有没有分级,关键动作有没有人工确认,过程有没有日志,错误有没有回滚,结果有没有沉淀成资产,人有没有保留叫停权。
缺了这些,再强的模型也只是被扔进一个混乱世界里的行动者。
很多人理解 AI 提效,会想到一个画面:我给 AI 下命令,AI 替我执行。
这个画面只对了一半。如果人只是把过去的任务直接丢给 AI,那人仍然停留在执行管理层。
真正的变化,是人要上移到系统设计层。你不只是问 AI 一个问题,你要决定什么问题值得问。你不只是让 AI 写一篇文章,你要决定它服务什么长期主线、使用哪些事实、避开哪些夸大、留下什么资产。
这就是我理解的 Human3.0:让人从重复执行里上移,成为系统的设计者、审查者和责任人。
AI 让执行力变便宜以后,人的价值会集中在这些位置:定义目标、选择问题、设置边界、判断质量、承担责任、组织资产、设计长期系统。
如果你现在开始用 Agent,不要急着追求”全自动”。更稳的做法,是先给自己的 AI 系统加七个边界。
目标边界。 每次行动前先写清楚要完成什么,包括目标平台、读者、内容主线和暂停条件。
工具边界。 读取、草拟、总结可以给更高自由度;发送邮件、删除文件、改生产配置、支付、发布,必须有人工确认。Agent 最大的问题往往不在”想错了”,而在”想错以后还能直接行动”。
证据边界。 凡涉及事实和数据,都要强制要求来源。更重要的是反向证据——如果 AI 只能证明你已经相信的东西,它会让你越来越自信,也越来越脆弱。
阶段边界。 复杂任务不要一口气从输入跑到发布。拆成选题、采证、执行、检查、发布,每个阶段只接受上一阶段的确认信息。
责任边界。 AI 可以建议,但责任不能外包。后果需要谁承担,最终确认权就必须留在谁手里。AI 没有后果意识,它不会为一次误发道歉,也不会为线上故障承担成本。越是它做得顺手的时候,人越要停下来确认风险。
记忆边界。 Agent 有长期记忆后,更容易带着旧偏见和旧目标继续行动。记忆必须可查看、可清理、可更新。不要让系统自己决定什么永远保留——如果你不管理 AI 的记忆,它就会用你五天前设定的错误目标执行今天的任务。
资产边界。 每次 AI 帮你完成任务,都要问:这次留下了什么?只留结果很快会消失,留下模板、脚本、检查清单和流程文档,它才变成你的数字生产资料。
普通提效追求这次快一点,Human3.0 追求下一次更强一点。
AI 从回答者变成行动者以后,问题会变得完全不同。
过去我们担心的是:AI 答错了怎么办?接下来更关键的问题是:AI 在一个设计不良的系统里持续行动,会把什么东西放大?
它可能放大效率,也可能放大混乱。它可能帮人建立系统,也可能让人放弃判断。
所以,Agent 时代真正值得训练的能力,不是把更多事情交出去。
是知道哪些事情可以交出去,哪些判断必须留在人这里,哪些边界必须先设计好。
AI 会越来越能行动。
人更要学会设计行动发生的系统。