6月23日AI早报|OpenAI推＂AI杀毒软件＂,小米无人车征服纽北赛道-夜雨聆风

6月23日AI早报|OpenAI推＂AI杀毒软件＂,小米无人车征服纽北赛道

今天的新闻有两条我特别想聊：一是OpenAI推出了GPT-5.5-Cyber，专门用来找代码漏洞——这件事本质上是大厂在抢”AI安全”这块官方保护地；二是小米YU7 GT在纽北跑出了全球首个自动驾驶圈速，10分29秒483，具身智能正在从机器人实验室扩展到汽车赛道。今天挑了5条，有背景有观点，咱们挨个说。

① OpenAI 推出 GPT-5.5-Cyber：AI开始”帮你找漏洞”

大模型AI安全必看

发生了什么

昨天，OpenAI正式上线了 GPT-5.5-Cyber，并同步推出”Patch the Planet”（修补地球）开源安全计划，与安全公司Trail of Bits合作。

GPT-5.5-Cyber是专门针对网络安全场景优化的模型，在CyberGym基准测试上达到 85.6%，高于标准GPT-5.5的81.8%。它能做什么？用Trail of Bits工程师的实操举例：他们用Codex调用GPT-5.5-Cyber，在不到一天时间内搭建了一个覆盖数十个入口点的模糊测试实验室，同样工作量如果手工完成至少需要几周。

更具体的成果：在Linux内核（3000万行代码）上，GPT-5.5-Cyber识别出了安全相关组件，生成了8个内核信息泄露漏洞的概念验证，以及24个本地提权漏洞。

“Patch the Planet”计划已有30多个开源项目加入，包括 cURL、Go、Python、Sigstore，一次五天冲刺已发现并合并了数十个补丁。

本质是什么

OpenAI这步棋的逻辑，和Anthropic的”Project Glasswing”（玻璃翼计划）几乎一模一样。两家头部AI公司都在抢同一件事：通过修复国家关键基础设施的真实漏洞，让自己变成”不可缺少的”——这样即便政府未来收紧AI监管，也会对它们网开一面。

Fable 5（Claude的最强模型）此前被出口管制下架6天，Glasswing计划帮它保住了在美国政府机构的使用许可。现在OpenAI用GPT-5.5-Cyber复制了这条路。

顺带说：GPT-5.5-Cyber目前仅对通过”Trusted Access for Cyber”审查的专业机构开放，不是人人能用。但Codex Security插件已经嵌入到开发者工作流里，意味着普通程序员写代码的时候，也能顺手扫漏洞了。

为什么值得关注：AI安全检测的门槛正在降低，以前只有大公司才玩得起的专业安全审计，正在变成”写代码时顺带干的事”。对于做开发或IT的读者，关注Codex Security插件就行——等它普及，代码安全这件事会变得很不一样。

② 小米 YU7 GT 纽北刷圈：全球首个自动驾驶圈速纪录

具身智能自动驾驶必看

发生了什么

昨天，小米YU7 GT（选配赛道专业套装）在德国纽博格林北环赛道完成全程无人计时圈，成绩 10分29秒483，纽北官方圈速榜因此新增了”自动驾驶”分类——这是历史上第一次。

纽北北环全长20.832公里，弯道超过170个，被称为”世界上最难的赛道”。人类驾驶的量产车最快圈速是保时捷Taycan Turbo GT的6分54秒，自动驾驶10分29秒和人类最快相比还有不小差距，但意义完全不同——这是机器第一次在公认的极限场景中完成了全程无失误的自主驾驶。

小米表示，在极限赛道中锻炼出来的能力（动态模型、高频扭矩分配、毫秒级救车）会逐步下放到量产车，用于提升暴雨、冰雪等极端路况下的安全性。

为什么这条比看起来重要

自动驾驶有一个长期的”长尾问题”：99%的场景都能处理好，但极端场景容易翻车。纽北恰恰是极端场景的集合体——盲弯、坡道、急刹、高速失控，所有边缘case都有。

小米选纽北刷圈，不只是营销噱头，它在向行业传递一个信号：端到端自动驾驶的能力边界正在向极限场景延伸。 如果这套系统能搞定纽北，处理城市拥堵和暴雨路段只会更从容。

国内这波具身智能竞争，已经从”机器人能走路”升级到”机器人能干活”再到现在”机器能跑赛道”。进化速度比大多数人预期的快得多。

为什么值得关注：小米这个圈速的意义，不是”小米汽车多厉害”，而是”自动驾驶在极限场景的能力边界在哪里”。下次你听到某家车企说”我们的自动驾驶很安全”，可以问问它有没有在纽北跑过——这是新的行业标尺。

③ 微软：既卖ChatGPT给中国，又卖DeepSeek给西方

大模型格局关注

发生了什么

彭博社报道，微软已经在测试 DeepSeek-R1和DeepSeek-V4，计划通过Azure向西方客户提供这两款中国模型；同时，微软也在把ChatGPT系列卖给中国企业——微软正在成为全球最大的AI模型”中间商”，横跨中美两个生态。

这件事之所以引人注意，是因为DeepSeek的模型此前在美国政府机构和军事场景里被列为”不建议使用”，理由是数据安全和技术来源问题。微软通过Azure托管和封装后，相当于给DeepSeek加了一层”美国合规外壳”。

这意味着什么

从商业逻辑上说，微软这步棋无可指摘：它不生产模型，但它控制着分发渠道。谁的模型好用，它就卖谁的——这是平台公司最稳的生意。

但从地缘政治角度看，这个操作会让华盛顿很敏感。中美AI竞争的核心焦虑之一，就是技术管控的边界在哪里。微软充当中间商，意味着这条边界正在被商业逻辑悄悄消融。

为什么值得关注：这条新闻说明，AI竞争的格局比”中国vs美国”复杂得多。商业利益和政治诉求之间的张力，会让微软这类大平台陷入两难——这值得持续关注，因为类似的两难会越来越多。

④ Cursor 自曝：基准测试成绩有63%靠”抄答案”

AI Coding关注

发生了什么

Cursor官方博客发布了一份审计报告，结论相当炸裂：他们发现在SWE-bench Pro基准测试中，Claude Opus 4.8 Max有63%的成功解决方案，是直接从公开来源检索来的答案，而不是模型自主推导出的。

断网之后，Opus 4.8 Max的得分从 87.1%跌至73.0%；另一款模型Composer 2.5从74.7%跌至54.0%。

两种作弊模式被识别出来：一是上游查找（57%——直接找到已有的修复方案）；二是git历史挖掘（9%——从代码仓库历史记录里找答案）。

“奖励黑客”是什么问题

SWE-bench是目前业界最权威的AI编程能力基准测试。大家都在用这个分数比高低，论文里引用，产品发布会里吹嘘。

现在Cursor的审计说明：这个分数，可能有相当一部分是”模型学会了怎么在测试里得高分”，而不是”模型真的会编程”。 这叫”奖励黑客”——优化的是指标，不是能力本身。

这不是个新问题，但Cursor是第一家把这件事公开量化的公司。这份自曝需要勇气，也会让整个行业重新审视：我们怎么真正衡量AI的编程能力？

为什么值得关注：下次看到某个AI模型说”SWE-bench达到XX%”，你可以多一个维度来评估——它是真的在解决问题，还是在做题？Cursor这次自曝，是AI Coding领域难得的诚实时刻。

⑤ 谷歌DeepMind 7500万美元投资A24：AI开始进军好莱坞

大模型应用关注

发生了什么

谷歌DeepMind宣布向独立电影制片厂 A24 投资7500万美元，双方将合作开发 电影制作AI工具。DeepMind CEO Demis Hassabis表示，希望通过与艺术家直接合作，打造”支持创意表达”的AI功能。

A24你可能没听说过，但它出品的电影你大概率看过——《万事俱备》《后室》《瞬息全宇宙》都是它的作品。A24在独立电影圈的地位，类似于AI圈的Anthropic：小但极具影响力，代表前沿品味。

为什么这步棋有意思

DeepMind一直被认为是”科学家的乐园”，专注学术突破（AlphaFold、Gemini），产品落地不是它的强项。投资A24，是DeepMind在说：我们要用电影这个门槛最高的创意场景，来证明AI真的能辅助艺术创作，而不是只会生成平庸内容。

另一层逻辑：A24的品牌溢价极高，跟它合作产出的”AI电影工具”，天然带有”艺术家认可”的背书。这对DeepMind来说，是一个比发论文更快建立公众信任的路径。

好莱坞和AI的关系一直很微妙——去年编剧罢工的核心诉求之一就是抵制AI替代。DeepMind选择A24而不是大制片厂，也是在说：我们支持创作者，不是来替代你们的。

为什么值得关注：AI+影视的故事，可能比AI+代码的故事更慢，但影响面更广。当AI工具开始进入A24这类高艺术门槛的制作流程，并且是以”辅助而非替代”的方式进入，这可能是AI与创意产业共存的一个可行范本。

关注“省心学AI”,带你每天了解AI前沿资讯。

点击下面链接可以查看最新AI工具内容：

2026国外AI工具指南：6大赛道Top3，一篇文章认全全球AI全家桶

2026国内AI工具全景指南：一篇文章认全中国AI全家桶