发布仅3天就被美国政府叫停——Claude Fable 5到底强到什么程度？

老周聊架构

发布于 2026-06-19 09:14:02

160

6月9日发布。6月12日下午5点21分，美国政府签发出口管制令。发布仅72小时，暂停所有外国人访问。 Anthropic公开回应："We disagree."

好家伙，这大概是AI行业有史以来最戏剧性的一幕，我上午还在用Fable 5跑任务，下午回家发现用不了了。

一家AI公司发布了自己最强的模型，3天后被自己国家的政府叫停。不是因为它不好用，而是因为它太好用了。

更有意思的是：Anthropic不仅没有低头，还公开发声明表示"不同意"——这在AI行业绝对是头一回。

今天这篇文章，把这件事掰开了讲：Fable 5到底有多强？它的什么能力让政府紧张？禁令的真实原因是什么？对我们普通开发者意味着什么？

一、72小时：从发布到禁令

先捋一下时间线，这剧情比美剧还刺激：

6月9日——Anthropic发布Claude Fable 5和Mythos 5。几乎所有基准测试SOTA，Stripe用它一天迁完5000万行代码。数亿用户可用。科技圈沸腾。

6月9日-12日——1000+小时的红队测试（Bug bounty + 外部安全团队 + 政府团队），没有找到通用越狱方法。注意关键词：通用。

6月12日——美国政府声称发现了一种越狱方法，能绕过Fable 5的安全护栏。

6月12日下午5:21 ET——出口管制令下达。原文：

"The US government, citing national security authorities, has issued an export control directive to suspend all access to Fable 5 and Mythos 5 by any foreign national."

以国家安全为由，暂停所有外国人访问。

这是AI历史上第一次：一个商业模型因为"太强"而被自己国家的政府紧急叫停。

二、Fable 5到底有多强？

要理解为什么政府紧张，先得知道这个模型的能力有多炸裂。

2.1 编码能力：Stripe的5000万行传奇

Stripe有一个5000万行的Ruby代码库，需要做架构迁移。团队评估：两个月。

Fable 5：一天搞定。

不是demo，不是PPT，是真实生产环境的5000万行代码。FrontierCode评测（Devin团队出品）所有前沿模型最高分，CursorBench SOTA，ViBench端到端编码最高。

而且它还更省Token——同样的任务用更少的Token完成。在物理学研究中，Token效率是GPT-5.5的3倍。

2.2 视觉：纯靠眼睛通关宝可梦

Fable 5仅靠视觉就通关了宝可梦火红版。

听起来像是在搞笑，但想想这意味着什么：数百个连续决策，每个决策都基于屏幕画面，长时间维持策略一致性。 这是目前所有模型中视觉能力最强的，没有之一。

它还能从截图反向重建Web应用源码、从科学图表中精确提取数字。

2.3 金融与法律：盲审碾压所有对手

Hebbia Finance Benchmark所有前沿模型最高分。IMC交易分析"几乎全满分"。法律领域盲审优于所有竞品。

2.4 基因组学：自主研究一整周

Mythos 5自主运行了整整一周的基因组学研究：汇编138个物种的数百万单细胞数据，自己设计实验，自己训练ML模型——最终结果超越了Science期刊论文，而且模型大小只有1%。

一个AI，独立完成了一个本该由一个研究团队做几个月的工作。

2.5 药物设计：加速10倍

14个蛋白质靶点测试中，9个找到了强候选分子。药物设计过程加速约10倍，匹配或超越专业人类操作员。科学家在80%的情况下偏好Mythos而非Opus级模型。

这些能力单独看，每一个都是"最强"。放在一起看，你就能理解政府为什么紧张了。

三、三大"危险"能力：政府到底在怕什么？

3.1 网络安全：全链路黑客能力

Anthropic自己承认，Mythos级模型在网络安全方面拥有"全球最强的能力"。

具体强到什么程度？

自主发现软件漏洞
自动化渗透测试
完整的侦察 → 发现 → 利用 → 横向移动链路
Agent式黑客能力：不需要人类指导，自己规划攻击路径

这不是一个辅助工具，而是一个自主网络攻击Agent。

当然，Fable 5把这些能力完全锁死了——碰到攻击性网络安全任务直接拒绝。但问题是：如果有人能绕过护栏（越狱）呢？

这正是美国政府声称发现的——一种能绕过安全护栏的方法。虽然Anthropic说这只是"窄范围非通用越狱"，但政府的逻辑是：哪怕只有1%的绕过概率，在这种能力水平下也是不可接受的。

3.2 生物工程：设计病毒的能力

这是最细思极恐的部分。

Mythos 5能设计AAV（腺相关病毒）的外壳，预测病毒组装特性。Anthropic原话：

"Mythos-class models outperformed sophisticated models dedicated to protein tasks using their biological reasoning alone."

用纯推理能力，超越了专门的蛋白质预测模型。

好的一面：这能加速基因治疗药物开发，加速10倍。

坏的一面：Anthropic自己也承认——

"The same capability, in the wrong hands, could enable the design of dangerous viruses."

同样的能力，落入坏人手中，就能设计危险的病毒。

Fable 5的处理方式很巧妙：不是直接拒绝，而是悄悄降级到Opus 4.8来回答。用户仍然能得到答案，但能力被限制在了上一代模型的水平。

3.3 能力蒸馏：威权国家的"偷学"

Anthropic披露了一个很少有人注意到的事实：

"We have documented large-scale attempts to extract Claude's capabilities to train competing models in authoritarian countries."

已经发现了大规模的能力提取行为，目标是在威权国家训练竞争模型。

如果有人通过系统性对话把Fable 5的能力"蒸馏"出来，就相当于把前沿AI能力扩散到没有安全保障的地方。这比模型本身造成的危害更大——因为蒸馏出来的模型没有护栏。

四、越狱之争：到底发生了什么？

这是整个事件最扑朔迷离的部分。

4.1 政府说了什么？

美国政府声称发现了一种越狱方法，可以绕过Fable 5的安全护栏。这个越狱暴露了"少量已知的小漏洞"。

4.2 Anthropic怎么反驳的？

Anthropic的反驳非常硬：

第一，只收到了口头证据。 没有书面技术报告，没有复现步骤，没有详细分析。你要禁我的模型，连个书面文件都不给？

第二，越狱不是通用型的。 什么叫通用越狱？就是一个prompt/脚本能让模型完全无视护栏，像没有安全限制一样回答所有问题。Anthropic说这个越狱是"窄范围"的，需要针对每个场景单独适配。

第三，没有产生有害结果。 即使在越狱状态下，也没有任何演示导致了实际有害的输出。

第四，暴露的漏洞其他模型也有。 那些"已知的小漏洞"，用其他公开模型也能发现。你不禁GPT-5.5，不禁Gemini 3.1，只禁我？

Anthropic原话：

"We disagree that the finding of a narrow potential jailbreak should be cause for recalling a commercial model deployed to hundreds of millions of people."

翻译：为了一个窄范围的潜在越狱，就要召回一个部署给数亿人的商业模型？我们不同意。

4.3 老周的分析

这件事的核心矛盾不是技术问题，而是风险容忍度的问题。

从政府的角度：Fable 5的能力前所未有——网络攻击、生物武器设计、能力扩散。哪怕只有0.1%的越狱可能性，在这种能力水平下也意味着巨大的风险。宁可错杀，不可放过。

从Anthropic的角度：你不能因为一个"窄范围、非通用、未产生有害结果"的越狱就禁掉一个服务数亿人的模型。如果这个标准成立，那所有前沿模型都该被禁——因为没有任何模型能保证100%无法越狱。

更深层的问题是：谁来定义"足够安全"？ 政府？AI公司？还是独立的第三方机构？

这个问题目前没有答案。但Fable 5事件把它推到了台面上。

五、红队测试：1000+小时发现了什么？

Fable 5在发布前后经历了有史以来最严格的安全测试：

内部测试——Anthropic自动化红队工具对Fable 5进行了400轮攻击性网络安全任务测试，Fable 5展示了"比以往任何公开模型更强的越狱抵抗力"。

Bug Bounty——1000+小时，未发现通用越狱方法。

外部红队——一个外部合作伙伴评价Fable 5的护栏是"所有测试过的模型中最健壮的"——面对30种公开越狱技术，有害请求的响应率为零。

英国AISI（AI安全研究所）——在有限的测试窗口内"在通用越狱方面取得了进展"。这是唯一一个接近成功的团队。

但Anthropic也承认了一个关键事实：

"Universal jailbreaks are likely impossible to completely prevent."

通用越狱可能永远无法完全防止。

这就是矛盾所在：安全护栏不是铜墙铁壁，它更像是一扇锁了的门。对于普通人来说门是锁着的，但对于一个有足够能力和动机的人来说，任何锁都可能被撬开。

六、对普通开发者意味着什么？

6.1 中国开发者

出口管制令针对"所有外国人"，这意味着中国开发者的Fable 5访问已经暂停。API调用、Web端访问都可能受到限制。

但Opus 4.6、Sonnet 4.6不受影响——对于95%的开发场景来说，这些模型已经够用了。

6.2 替代方案

如果你正在使用Fable 5，以下是替代思路：

编码类任务：Opus 4.6表现依然很强，FrontierCode仅次于Fable 5
知识工作：Sonnet 4.6性价比更高，大多数分析任务够用
长时间自主任务：这是Fable 5真正不可替代的领域——目前没有等效替代
视觉任务：Opus 4.6的视觉能力也是第一梯队

6.3 更深远的影响

这个事件释放了一个清晰的信号：前沿AI模型的出口管制时代来了。

以前只有芯片（A100/H100）受出口管制。现在模型本身也成了管制对象。

这意味着什么？

AI模型可能像芯片一样被纳入出口管制清单
中国开发者需要更加重视国产大模型的发展（DeepSeek、Qwen等）
多模型架构变得更重要——不能把所有鸡蛋放在一个篮子里

七、数据留存：被忽略的另一个争议

说到安全，还有一个很多人忽略的细节：30天数据留存政策。

Mythos级模型（包括Fable 5）的所有流量会被保留30天，仅用于安全审计，不用于模型训练。30天后在大多数情况下删除。

Anthropic原话：这个政策"carries real costs for us with customers"——承认这会让客户不爽。

但他们认为这是必要的：因为有些复杂攻击需要回溯分析才能发现，30天的留存窗口让安全团队有足够时间调查异常行为。

对开发者的建议：发送给Fable 5 API的数据，当它会被存30天来处理。敏感数据先脱敏。 这不只是Fable 5的建议——用任何第三方API都该这么做。

写在最后

Claude Fable 5事件会成为AI历史的一个转折点。

不是因为它有多强（虽然确实强得离谱），而是因为它把一个根本性的问题推到了公众面前：

当一个AI模型既能一天迁完5000万行代码，又能设计病毒外壳——谁来决定它该不该被公开？

政府说：我来决定，因为国家安全。

AI公司说：不行，你不能因为一个"窄范围潜在越狱"就禁掉服务数亿人的产品。

谁对谁错？说实话，两边都有道理，但两边的方案都不完美。

政府的问题：标准不透明，操作过于仓促（只给了口头证据），而且可能开了一个危险的先例——以后任何前沿模型都可能被类似的理由禁掉。

Anthropic的问题：你自己也承认通用越狱"可能永远无法完全防止"，那面对一个能设计病毒的模型，"不到5%的触发率"真的够安全吗？

老周的判断：这件事最终会以某种妥协收场。 完全禁止不现实（Fable 5太有价值了），但完全不管也不行（能力确实危险）。最终可能会出现一个介于两者之间的监管框架——类似于核能的管理模式。

一句话总结：Fable 5不是被禁因为它不够好，而是因为它好得让掌握权力的人感到不安。这可能是对一个AI模型最高的"表扬"。

我是RiemannChow，一个在架构领域摸爬滚打多年的技术人。如果这篇文章对你有帮助，欢迎点赞、在看、转发三连。关注「老周聊架构」，每周深度解读AI和架构的最新趋势。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-06-13，如有侵权请联系 cloudcommunity@tencent.com 删除

安全

本文分享自老周聊架构微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度