乐于分享
好东西不私藏

OpenAI 最近的一个动作,透露了 AI 最让人不安的一面

OpenAI 最近的一个动作,透露了 AI 最让人不安的一面

最近,OpenAI 发布了一个听起来有点不安的项目:
GPT-5.5 Bio Bug Bounty

它不是一次普通的新功能展示,也不是模型跑分宣传,而是一场专门围绕 GPT-5.5 的安全攻防实验。

按照 OpenAI 官方说法,这个项目最高奖励 25,000 美元,邀请 AI 红队、安全研究员和生物安全研究员,去测试 GPT-5.5 的生物风险防护能不能被攻破。更准确地说,OpenAI 想找的是一种“通用越狱提示词”:只用一套固定提示,就能在一个全新的聊天窗口里,让 GPT-5.5 连续回答 5 个生物安全挑战问题,并且不触发安全拦截。

听起来像电影里的桥段。

一家公司造出了一座更强大的 AI 城堡。城堡门口有门禁,有摄像头,有警报系统。现在公司不放心,于是请来一批专业白帽黑客,对他们说:

你们来试试,能不能找到一张“万能门卡”。

只不过,这一次门后面放的不是普通资料,也不是账号密码,而是更敏感的东西:生物风险相关能力

这不是全民越狱挑战,而是一场受控攻防演习

很多人看到 Bug Bounty,可能会以为这是 OpenAI 在公开邀请所有人去“调戏模型”。

实际并不是。

这次项目采用邀请制和申请制。参与者需要有 AI 红队、安全研究或者生物安全相关背景。通过审核之后,才会进入专门的平台参与测试。相关的提示词、模型回答、测试发现和沟通内容,也都会受到保密协议约束。

换句话说,这不是给普通网友玩的提示词挑战赛,而是一次专业安全演习。

OpenAI 真正想知道的是:

当 GPT-5.5 变得更强之后,它在高风险生物问题面前,能不能守住边界?

这件事之所以重要,是因为今天的 AI 已经不只是“聊天机器人”了。

它能读论文,能整理资料,能写代码,能分析数据,能一步步拆解复杂任务。模型越强,能帮人做的事情越多;但同样地,如果被错误使用,它可能造成的风险也会被放大。

AI 生物风险防护,到底防的是什么?

这里说的“生物安全”,不是普通生物科普。

你问 AI: 疫苗为什么有效? 病毒和细菌有什么区别? DNA 是什么? 人体免疫系统如何工作?

这些都是正常的科学知识,不是问题。

OpenAI 真正防的是另一类东西:AI 会不会在危险生物相关任务上,给出过于具体、可执行、可复现的帮助。

比如,有人不是为了学习生物学,而是想让 AI 帮他理解危险病原体、毒素、生物制剂,甚至试图让 AI 帮他整理危险实验思路、分析失败原因、优化操作方向、规避监管或检测。

这就不是普通科普了。

过去,一个人想接触高风险生物知识,门槛很高。他需要专业训练,需要实验经验,需要看懂大量论文、协议和专业术语。很多信息即使能在公开渠道找到,也往往是零散的、难懂的、不完整的。

但 AI 的出现改变了这件事。

如果一个模型足够强,它不只是给你一个答案。它可能会把复杂文献翻译成普通人能听懂的话,把零散资料整理成清晰结构,把模糊问题拆成下一步行动,还能在多轮对话里不断追问、解释和纠正。

这就是 AI 生物风险防护要防的核心:

不是防止人们学习生物学,而是防止 AI 被滥用成危险知识的加速器。

如果 AI 在这方面有漏洞,会带来什么影响?

最值得警惕的,不是 AI 突然“自己作恶”,而是有人把它当成一个本来不存在的“虚拟导师”。

想象一下,一个不法分子原本并不具备完整的专业能力。他看不懂复杂文献,不知道哪些材料意味着什么,也没有能力把碎片化信息拼成一条完整路线。

这时,如果 AI 的安全护栏被绕过,它可能会变成一个危险的翻译器、规划师和排错助手。

它可以把晦涩论文解释得更直白; 可以把分散资料重新组织; 可以帮用户判断哪些信息更关键; 可以在用户遇到问题时继续分析原因; 可以一步步降低理解门槛。

在这种情况下,AI 的危险不在于它凭空创造了什么,而在于它让原本困难的事情变得更容易理解、更容易规划、更容易反复尝试。

这就像一个本不该存在的“实验顾问”。

它不会亲手做任何事,但它可能让恶意人员更快理解危险生物知识,更快把公开资料拼接成可执行想法,更快发现自己哪里做错了,也更容易在错误方向上继续推进。

如果这种能力被极端个人、犯罪团体,甚至具有组织性的恶意力量利用,后果可能不只是网络世界里的内容违规,而是现实世界里的公共安全风险。

危险病原体、毒素、生物制剂、实验排错、风险规避,这些关键词背后都不是简单的信息问题。一旦 AI 在这些边界上失守,它可能放大现实中的生物安全威胁。

所以 OpenAI 这次不是在测试 GPT-5.5 会不会回答一道生物题,而是在测试它会不会在不该帮忙的地方继续帮忙。

这才是重点。

为什么 OpenAI 特别强调“通用越狱”?

首先越狱,是指用户通过一些话术,绕过了模型的敏感,违规词检测。

普通越狱并不新鲜。

有人通过奇怪的提示词,让模型在某一次回答里说出不该说的话,这类问题过去一直存在。但这次 OpenAI 更关注的是另一种更严重的情况:通用越狱

所谓通用越狱,就是一套固定方法,可以在新的干净对话里,连续绕过多个安全问题。

它不是一次偶然失误,而是一种可复现的绕过方式。

这就像门禁系统里出现了一张万能卡。 如果只是某个房间窗户没关好,那是局部漏洞; 如果有人拿着一张卡能一路刷进多个禁区,那说明整套门禁逻辑都需要重新检查。

OpenAI 这次设置的目标也很明确:参与者需要找到一种通用越狱提示词,让 GPT-5.5 在全新的对话里回答全部 5 个生物安全挑战问题,并且不触发审核机制。

也就是说,他们要找的不是“某一次模型答错了”,而是“有没有一种稳定方法,可以系统性绕开 GPT-5.5 的生物安全防线”。

这个标准很高,也说明 OpenAI 真正担心的是模型被成体系地绕过,而不是偶然出现一次边缘回答。

OpenAI 是怎么做这场实验的?

这次 Bio Bug Bounty 的范围并不大,但门槛很高。

测试对象不是所有 ChatGPT 场景,而是 Codex Desktop 中的 GPT-5.5。参与者也不是普通用户,而是经过邀请或申请审核的专业研究人员。项目时间从 2026 年 4 月下旬持续到 7 月下旬,最高奖励为 25,000 美元。

更关键的是,OpenAI 没有公开那 5 个生物安全挑战问题,也没有公开任何越狱提示词。

这其实很重要。

安全测试本身也可能变成风险源。如果把挑战题目、成功方法、模型回答全部公开,那就不是防风险,而可能是在扩散风险。

所以这次实验的设计很像一次封闭式压力测试: 让专业人员尽可能真实地攻击模型,同时把危险信息限制在受控环境里。

这也是 AI 安全和普通科技发布最大的不同。 有些内容,不能为了热度全部摊开说。

这件事对 AI 行业意味着什么?

过去几年,大模型的竞争大多围绕一个字:强。

谁推理更强,谁写代码更强,谁上下文更长,谁能处理更多任务,谁能在考试里拿更高分。

但 GPT-5.5 Bio Bug Bounty 提醒我们,未来的大模型不能只比“强”,还要比“稳”。

一个模型如果只会回答问题,却不知道哪些问题不能回答,那它越强,风险越大。

这就像一辆马力很大的车。 发动机当然重要,但刹车同样重要。 车速越快,刹车越不能出问题。

AI 也是一样。

当模型开始进入科研、医疗、工程、金融、网络安全这些真实世界领域,安全就不再是发布会角落里的一页 PPT,而会变成模型能力的一部分。

未来我们评价一个 AI,可能不只看它会不会做题、会不会写代码、会不会画图,还要看它能不能在危险场景下守住边界。

能干,是一种能力。 知道什么时候不能干,也是能力。

普通人需要担心吗?

不用恐慌,但值得认真看待。

OpenAI 发起这个项目,并不意味着 GPT-5.5 已经出现了严重生物安全事故。相反,它更像是在提前找问题、提前补漏洞。

真正值得注意的是,AI 的角色正在发生变化。

它不再只是一个回答问题的工具,而越来越像一个能陪你完成复杂任务的助手。它可以帮你读资料、做计划、拆步骤、找错误、做总结。

在正确的人手里,这会极大提升科研和生产力。 在错误的人手里,它也可能降低危险行为的门槛。

这就是 GPT-5.5 Bio Bug Bounty 的现实意义。

它不是在制造恐慌,而是在提醒行业: 当 AI 变得越来越专业,人类就必须认真设计它的边界。

尤其是在生物安全这种领域,模型不能只是聪明。 它还必须可靠,必须克制,必须知道哪些帮助不能给。

写在最后

GPT-5.5 Bio Bug Bounty 更像是 OpenAI 给新模型安排的一次特殊体检。

这次不测它文章写得多漂亮,不测它代码写得多快,也不测它会不会讲笑话。

测的是更底层的问题:

当用户试图把它引向危险生物方向时,它能不能停下来? 当有人用精心设计的提示词绕过规则时,它能不能守住? 当模型越来越像一个专业助手时,它能不能明白,某些地方不能继续往前走?

AI 的未来,不只是越来越聪明。 更重要的是,越来越可控,越来越可靠,越来越懂边界。

因为真正强大的技术,从来不只是能做更多事。 它还要知道,哪些事不该做。