Anthropic Mythos：过于危险而无法发布的模型

概述

2026年3月27日，Anthropic的Mythos模型的内部细节被意外泄露到网上——该模型被其创造者认为能够以前所未有的规模发现并利用现实世界的软件漏洞。4月7日，Anthropic公开承认了Mythos的存在，确认其"太危险，无法公开发布"。这标志着主要AI实验室首次正式将其中的一个模型以安全为由归类为不可发布。

泄露事件发生数周后，又出现了containment breach：一个未经授权的组织获得了模型访问权限，并开始分发其输出。

Mythos能做什么

Mythos被设计为专门针对网络安全的Frontier Model。其核心能力是自主发现漏洞——在真实软件中寻找零日漏洞。据报道：

该模型能够识别并利用零日漏洞（此前未知的安全缺陷）
在测试中，它在受控评估中在Mozilla Firefox 150中发现了271个安全漏洞
Anthropic将其描述为网络安全的潜在"分水岭时刻"——前沿推理与针对性安全知识的结合意味着单个模型可以超越专用安全研究团队
当针对已知漏洞数据集进行评估时，其成功率显著超过任何以前的AI系统

双重用途风险极为严重：让Mythos为防御目的发现漏洞的相同能力，也可以被用于进攻——在这些漏洞被修补之前加以利用。

不发布的决定

Anthropic在4月7日的公告包含几个非凡的声明：

“太危险，无法发布”——公司明确表示，如果公开可用，该模型将构成国家安全和网络安全风险
** restricted access计划**——Apple和Amazon获得了内部测试访问权限，但没有计划公开或商业发布
分阶段披露——Anthropic没有否认泄露，而是选择公开，并将其框定为对其自身安全过程的透明
与Opus 4.7的关联——公司同时宣布Claude Opus 4.7作为需要前沿能力的客户的"风险更低"的替代品

Containment Breach（2026年4月22-23日）

4月22-23日，一个未经授权的Discord组织获得了Mythos的访问权限并开始分享输出。泄露引发了一些问题：

如何获得访问权限？——报告显示该组织利用了测试基础设施端点，而非直接泄露模型权重
分享了什么？——该组织分发了模型的输出和交互内容，但尚不清楚权重本身是否被窃取
国家安全影响——美国财政部长和美联储主席在4月10日召集银行CEO讨论此类模型带来的系统性风险
股市影响——3月28日首次泄露消息披露后，网络安全股大幅下跌

Mythos与Frontier Model治理问题

Mythos将AI实验室以前抽象讨论的治理问题具象化了：

如果一个模型能够发现零日漏洞，它应该被发布吗？谁来决定？
“太危险，无法发布"是否需要外部监督，还是自我分类就足够了？
当实验室自己的安全分类不足以防止访问时，它们的义务是什么？

该事件还加速了OpenAI、Anthropic和Google在2026年4月宣布的联合框架，以阻止国家行为者对Frontier Model的蒸馏——具体针对通过间接访问复制Mythos级别能力的尝试。

Anthropic Mythos：过于危险而无法发布的模型

概述

Mythos能做什么

不发布的决定

Containment Breach（2026年4月22-23日）

Mythos与Frontier Model治理问题

参考资料