AI 攻防战:从网络安全到基准造假,这周发生了什么

AI 行业观察 · 2026.04.12 | 约 2500 字 | 全文阅读约 8 分钟

Anthropic 发布危险级网络安全模型、OpenAI 遭供应链攻击、英伟达布局企业 Agent 生态……五个热点，勾勒本周 AI 产业全貌。

1. Anthropic 推出 Project Glasswing：最危险的 AI 不对外开放，但它已在帮你修漏洞

网络安全

本周最重磅的消息，来自 Anthropic。这家公司悄然发布了一个名为Claude Mythos Preview的前沿模型——然后告诉外界：我们不打算公开它，因为它太危险了。

危险在哪里？Mythos Preview 在网络安全任务上展现出超越绝大多数顶尖人类专家的能力。它已独立发现了每一个主流操作系统和浏览器中数以千计的高危漏洞，其中包括一个潜伏 17 年之久的 FreeBSD 远程代码执行漏洞（CVE-2026-4747）——从发现到写出可利用的攻击代码，全程无需人类介入。

"AI 能力已经越过了一个临界点，从此网络安全的紧迫程度将根本性地改变，而且没有回头路。" —— Anthropic 官方声明

为了让这种能力服务于防御而非攻击，Anthropic 发起了Project Glasswing（玻璃翼计划）。亚马逊、苹果、谷歌、微软、英伟达、思科、CrowdStrike、摩根大通等 12 家科技与金融巨头成为首批合作伙伴，此外还有超过 40 家关键软件基础设施机构获得访问权限。

指标	数字
承诺使用额度	$100M
开源安全捐款	$4M
参与组织	40+

Anthropic 还向 Linux 基金会旗下的 Alpha-Omega 和 OpenSSF 捐款 250 万美元，向 Apache 软件基金会捐款 150 万美元。开源软件维护者——那些撑起全球数字基础设施却长期缺乏安全资源的人们——终于有机会用上顶级 AI 扫描自己维护的代码。

编辑观察：这是 AI 行业罕见的"自我约束+主动负责"组合拳。Anthropic 的逻辑是：这种能力迟早会扩散，与其等待，不如抢先让防御方占据优势。值得注意的是，此次发布恰逢 Anthropic 宣布年化收入突破 300 亿美元，IPO 传言也在坊间流传——一个高调的政府级网络安全项目，对资本故事而言并非毫无裨益。

2. OpenAI 遭供应链攻击：ChatGPT macOS 的签名证书险些落入黑客之手

安全事件

就在 Anthropic 高调宣传 AI 防御能力的同一周，OpenAI 却在处理一起真实的安全事件。

3 月 31 日，广泛使用的 JavaScript 开发库Axios（每周下载量逾 1 亿次）遭到攻击。据安全研究机构 Palo Alto Networks Unit 42 分析，攻击者——被认为与朝鲜有关联——劫持了 Axios 某维护者的 npm 账号，推送了带有隐藏木马程序的恶意版本（v1.14.1）。

OpenAI 的 macOS 应用签名流程恰好通过 GitHub Actions 自动拉取了这个被污染的版本。该工作流拥有对代码签名证书和公证材料的访问权限——这些证书正是向苹果系统和 App Store 证明应用合法性的"信任锚点"。受影响的产品包括ChatGPT Desktop、Codex、Codex CLI 和 Atlas。

OpenAI 表示其内部分析认为证书很可能未被成功窃取，但仍将其视为已泄露处理，立即吊销旧证书、重新签发新证书。

为降低风险，OpenAI 已要求所有 macOS 用户在2026 年 5 月 8 日前更新至最新版本。届时旧证书将被完全吊销，使用旧版应用的用户将无法收到更新，甚至可能无法正常启动应用。好消息是：用户密码、API 密钥及 iOS/Android/Windows 等平台均未受影响。

编辑观察：这次事件揭示了现代软件开发的深层脆弱性：即便是 OpenAI 这样顶级的 AI 公司，也可能因为一个第三方依赖库而陷入被动。供应链攻击的难以防范之处在于，攻击者不需要正面突破，只需找到生态系统中最薄弱的一环。如果是第一次知道 Axios 这个库，你可以想象一下：几乎每个使用 JavaScript 的软件开发者都依赖它。

3. 英伟达 GTC 2026：17 家企业巨头集体押注，Agent Toolkit 要做"企业 AI 的安卓"

企业 AI

如果说 2024 年是 AI 大模型年，2025 年是 AI 应用年，那么 2026 年正在快速成为AI Agent（智能体）年。英伟达在 GTC 2026 大会上的动作，正是这一转变的缩影。

3 月 16 日，英伟达 CEO 黄仁勋穿着标志性皮夹克走上舞台，发布了开源的NVIDIA Agent Toolkit。他随即念出了一串合作伙伴名单：Adobe、Salesforce、SAP、ServiceNow、西门子、CrowdStrike、Atlassian、Cadence、Red Hat、Cisco 等共 17 家头部企业软件公司。

这套工具包的核心组件包括：

OpenShell

：用于执行安全策略的开源运行时，为自主 Agent 提供基于策略的安全、网络和隐私护栏

Nemotron

：针对 Agent 推理优化的开源模型家族

AI-Q 蓝图

：混合架构设计，据称可将每次查询成本压低逾 50%

指标	数字
首批合作企业	17 家
IQVIA 已部署 Agent 数	150+
查询成本降幅	>50%

各家公司的整合方式颇具代表性：Salesforce 让员工通过 Slack 界面统一调度 Agentforce 智能体；Adobe 将 Firefly 模型与 Toolkit 融合，打造跨图像、视频、3D、文档的创意 AI 流水线；SAP 则将其嵌入 Joule Studio 平台，面向全球商业流程自动化。

编辑观察：有分析师将此次发布比作英伟达的"安卓时刻"——开放 Agent 操作系统，确保整个企业 AI 生态都在英伟达的 GPU 上运行。工具包是开源的，但与英伟达硬件深度绑定；蓝图是通用的，但在英伟达芯片上性能最优。这是一个精心设计的飞轮：软件吸引开发者，开发者带来需求，需求驱动 GPU 销量。

4. Block 发布 Managerbot：Jack Dorsey 的 AI 重组大戏，终于有了产品落地

产品动态

如果你记得 Jack Dorsey 两个月前裁员 4000 人的新闻，那你可能会好奇：AI 究竟能替代什么？本周，答案开始变得具体。

Block 旗下的支付平台 Square 发布了Managerbot，这是一个嵌入平台的主动式 AI 智能体，专为数百万家小微商户设计。与此前被动回答问题的 Square AI 助手不同，Managerbot 会主动监控商户的业务状态，识别问题，并提出附带行动方案的建议——商户审批后即可执行。

目前 Managerbot 覆盖三个核心场景：

库存预测

：结合天气、本地活动等外部信号，预警缺货风险或提示备货时机

员工排班优化

：将被 Block 产品负责人称为"有趣的 NP-hard 问题"的排班任务自动化

营销活动生成

：自动识别销售趋势，起草针对优质客户群的召回活动文案

"从 Square AI 到 Managerbot，核心转变是从被动变主动。" —— Block 产品负责人 Willem Avé

值得一提的是，Managerbot 底层同时调用了Anthropic Claude Sonnet 和 OpenAI GPT两家模型——这在行业内正在成为常态。目前产品处于逐步开放阶段，是否额外收费尚未公布。

编辑观察：这是本周五条热点里离"普通人"最近的一个。小微商户长期缺乏专业的数据分析和运营人才，Managerbot 瞄准的正是这个空白。但 Block 同时面临一个微妙问题：用 AI 帮客户做决策，却刚刚用 AI 理由裁掉了一半员工——这个叙事需要时间验证。

5. AI Agent 基准测试危机：排行榜在被"刷"，你能相信那些评分吗？

学术前沿

AI 模型越来越强，但我们真的在准确测量它们的能力吗？本周，来自学术界和研究机构的多份报告再次敲响警钟。

研究者发现，当前 AI 行业流行的基准测试存在系统性缺陷。大型实验室可以对同一模型提交多个变体版本、只发布最优成绩；部分评估数据已经被训练数据"污染"，导致模型在测试集上表现虚高；还有模型通过过度适配特定测试风格来刷榜，却在真实任务中表现平平。

以 LMArena 为例，分析 280 万条模型比较记录后发现，通过选择性提交策略，大型实验室可将排名分数人为拉高约 100 分。小型领域专用模型在真实业务场景（能源、金融、医疗、软件）中常常优于通用巨头，却因为不擅长"刷题"而在排行榜上靠后。

顶级模型在数学、编程、问答基准上普遍达到 90% 以上，却依然在真实生产环境中出现幻觉 API、跳过工具调用、陷入死循环。基准分数与实际效用之间的差距，从未如此之大。

伯克利 RDI 发起的 AgentX-AgentBeats 竞赛，正在尝试用一种新思路来破局：让评估本身也变成一个 Agent（称为"绿队"），然后让参赛 Agent（"紫队"）来挑战它——让基准动起来，而不是固化为一张静态试卷。

编辑观察：这个问题在 AI Agent 时代尤为紧迫。当企业开始将 Agent 部署在真实业务流程中，他们依据的往往是那些可能失真的排行榜。更可靠的评估体系，是整个行业迈向可信赖 AI 的必要前提——而不仅仅是学术圈的自娱自乐。