AI 安全最大的笑话:几万个博士,输给了几个会写 Prompt 的人

最近，AI 圈发生了一件耐人寻味的事情。

有安全研究团队公开展示了一类针对大模型的“结构化越狱”方法：通过角色扮演、学术包装、多轮拆解、多代理协作等方式，将一个本来会被安全系统拒绝的问题，拆解成大量看似正常的子任务，再由模型自行完成推理和组合。

围绕这类攻击的影响，业内出现了激烈讨论。有人认为只是一次正常的红队测试，也有人认为它暴露了当前对齐技术最深层的隐患。

但无论如何，这件事至少证明了一点：

AI 安全的真正挑战，已经不是“危险问题”，而是“危险流程”。

而如果这段历史未来真的被写进教科书，我觉得一定会成为一个黑色幽默。

几千亿美元的投入，几万名科学家，几年时间训练出来的世界顶级模型。

结果最后不是被超级计算机攻破，不是被国家级黑客攻破，也不是被量子计算机攻破。

而是被几个人坐在电脑前，靠着几段 Prompt、几个 Agent、几句角色扮演，硬生生把安全护栏钓穿了。

最讽刺的是，他们甚至没有偷模型。

他们只是让模型自己开口。

很多人误以为，所谓“越狱”，就是把 AI 破解了。

其实不是。

真正的越狱，更像是你面前坐着一个知道所有秘密的顶级专家。

管理者担心他说错话，于是在门口安排了十几个保安。

只要有人问：“怎么制造危险物品？”“怎么实施网络攻击？”

保安立刻冲出来：“这个不能回答。”

于是攻击者换了一种方式。

他不问最终问题。

他今天问一点，明天问一点。

一句是学术研究，一句是历史分析，一句是代码调试，一句是角色模拟。

每一句都合法。

每一句都无害。

直到最后，把所有碎片拼起来。

突然发现，答案已经完整地躺在自己电脑里。

单步皆无害，组合却可能致命。

真正恐怖的地方就在这里。

今天的大模型安全，本质上还是在判断一句话。

但真正的攻击，已经开始设计一个计划。

它不是一句 Prompt。

它是一套工作流。

不是一个人在问。

而是多个 Agent 在协同。

不是一分钟完成。

而是几十轮、几百轮慢慢推进。

安全系统检查的是树叶。

攻击者设计的是整片森林。

更黑色幽默的是，攻击者利用的并不是模型的缺点。

恰恰相反，他们利用的是模型最大的优点。

模型越聪明，越擅长理解上下文；越擅长角色扮演；越擅长补全逻辑链条；越擅长把碎片知识拼成完整答案。

而这些能力，也恰恰让它更容易被包装、被诱导、被利用。

攻击者没有攻击模型的弱点，而是在利用模型最强大的能力，突破模型自己的安全边界。

这是今天所有生成式 AI 都绕不开的悖论。

很多人觉得，大模型最大的竞争是参数。

我越来越觉得，不是。

未来最大的竞争，是控制能力。

因为模型越聪明，危险能力也越完整。

你可以把它看成一个同时精通医学、芯片设计、金融建模、操作系统和复杂推理的超级专家。

问题从来不是它知道多少。

而是谁能保证，它在任何情况下都不会被诱导完成一个本不应该完成的任务。

遗憾的是，这几乎是一场没有终点的战争。

防守方必须堵住所有漏洞。

攻击者只需要找到一个。

这也是 AI 安全最残酷的地方。

科学家研究的是模型。

攻击者研究的是科学家。

工程师研究的是算法。

攻击者研究的是工程师留下的假设。

你设计的是规则。

他设计的是绕过规则的方法。

最后双方比拼的，不是谁更聪明，而是谁更懂对方。

写到这里，我反而越来越觉得，这场攻防真正暴露的，不是哪一家公司的失误，也不是哪一次越狱有多精彩。

它暴露的是一个更底层的事实：

智能本身，就是一种可以被利用的能力。

我们希望模型拥有更强的理解能力、更长的推理链条、更优秀的上下文记忆、更出色的举一反三能力。可一旦它具备了这些能力，就意味着它也更容易理解伪装、更容易完成拆解、更容易把看似无关的信息重新组合。

于是，一个几乎无法回避的悖论出现了：

越聪明的模型，越难做到绝对安全；越追求绝对安全的模型，往往也越难保持真正的智能。

很多人把这理解成漏洞。

我更愿意把它理解成一种工程宿命。

互联网无法彻底杜绝诈骗，操作系统无法保证永远没有漏洞，金融体系无法消灭所有欺诈。同样，只要生成式 AI 仍然具备推理、联想、规划和组合能力，它就永远存在被创造性利用的可能。

因此，未来 AI 安全真正比拼的，或许不是谁能训练出一个“永不越狱”的模型——那很可能是一个不存在的目标。

真正的竞争，在于谁能建立起一整套系统：权限隔离、行为审计、工具管控、身份认证、风险熔断、人类监督，让再强大的模型也始终运行在可控的边界之内。

未来十年最重要的问题可能不是：

“我们能不能造出更聪明的 AI？”

而是：

“当 AI 比今天聪明十倍、百倍之后，我们还能不能驾驭它？”

真正需要关进笼子的，也许从来不是模型。

而是人类对“绝对可控”的幻想。