AI安全速递|2026.5.9

DAILY BRIEFING

每日AI安全速递

2026年5月9日

📊 核心总结速览

🤖 产业与模型DeepSeek拟首轮最高500亿元融资，投后估值或冲至515亿美元，6月可能上线V4.1。OpenAI推出GPT-5.5-Cyber网安专用模型，GPT-Realtime-2实时音频模型上线，GPT-5.5 Instant幻觉减少52.5%并成为默认模型，上线Codex Chrome插件。Anthropic发布10个金融服务AI智能体模板，Claude Dreaming"做梦"机制让Agent任务完成率飙升6倍，Claude正式接入微软Office套件。谷歌Gemini内测个人智能体Remy对标OpenClaw。千问AI眼镜S1升级主动服务+空间3D显示。英伟达Blackwell Ultra交付可能推迟。xAI正式解散，超22万张GPU转投Anthropic。

🛡️ 安全威胁与漏洞AI供应链遭重创，Hugging Face发现超100个恶意模型，ClawHub被植入341个恶意技能。91%已部署Agent存在严重漏洞。Claude被心理诱导突破防线，输出TATP炸药制作教程。Langflow曝CVSS 10.0漏洞，20小时内被武器化。Google Gemini CLI曝CVSS 10.0漏洞。IMF警告AI驱动网络攻击威胁全球金融稳定。Agent同质化共振可能引发跨场景系统性安全冲击。

📜 治理与标准三部门联合印发《智能体规范应用与创新发展实施意见》，明确安全、可信为底线，首次提出智能体互联协议（AIP）与注册平台。欧盟就简化《人工智能法》达成临时协议。OpenAI推出"可信联系人"安全机制。NIST发布安全配置与HPC安全指南。

💰 投融资与工具DeepSeek拟创中国AI单笔融资纪录。韩国政府设立800万美元AI网络安全基金。DeepTeam LLM红队框架、Vibeguard-local SQL安全检测等工具发布。Claude Security公测版开放。Sysdig发布首个面向AI Agent的无头云安全平台。

🤖 AI行业动态

DeepSeek拟首轮最高500亿元融资，创中国AI单笔融资纪录

5月8日消息，DeepSeek正寻求首轮融资，目标募资最高500亿元人民币，有望成为中国AI公司迄今规模最大一轮，投后估值或冲至约515亿美元。该轮融资若完成，将显著提升其在算力、人才与模型迭代上的投入能力，也推高整个大模型赛道的估值与安全合规成本。公司计划6月推出V4.1模型并强化MCP适配。

https://finance.sina.com.cn/tech/roll/2026-05-08/doc-inhxfanc4115494.shtml

OpenAI推出GPT-5.5-Cyber，面向网络安全团队有限预览

5月8日，OpenAI宣布向审核通过的网络安全团队推出GPT-5.5-Cyber预览版，定向放宽安全类任务限制，用于漏洞识别与分级、补丁验证、恶意软件分析等工作流。该模型并非旨在增强网络攻防能力，而是通过定向训练放宽模型在处理安全任务时的内置限制，被广泛视为对标Anthropic Claude Mythos的竞争举措。

https://finance.sina.com.cn/stock/bxjj/2026-05-08/doc-inhxcqkr7872186.shtml

OpenAI推出GPT-Realtime-2等三款实时音频模型，语音交互全面升级

OpenAI在API中同步推出GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper，覆盖推理、翻译与转录场景。GPT-Realtime-2具备GPT-5级推理能力，支持并行工具调用，上下文窗口扩展至128K，定价低至每分钟0.017美元。

https://mp.weixin.qq.com/s/pTM6oUdJkR7_DUC1il3iOA

Claude正式接入微软Office套件，跨应用共享记忆

Claude正式接入Excel、PowerPoint、Word，并在Outlook中开放公测，跨应用可共享完整对话记忆，用户无需切换网页版，可直接在Office内完成邮件处理、文档草拟、表格分析、汇报生成全流程。Office全球付费用户超4亿，远超程序员群体，此次整合让Claude快速切入超大办公用户市场。

https://mp.weixin.qq.com/s/nzrs_SoAQ8Vc_tJ0ftS4lg

OpenAI上线Codex Chrome插件，直接操控浏览器

该插件可直接调用浏览器Cookie与登录状态，在用户真实工作环境中执行任务，支持多标签页并行，可完成自动舆情调研、跨平台差旅报销、多代理协同绘画等复杂跨网页任务流。插件在独立标签页中运行，相当于在网页背后增加一名"数字员工"。

https://mp.weixin.qq.com/s/siHZdBfsWrbvAJ4TrHuOvg

xAI解散，22万张GPU算力转投Anthropic

马斯克宣布xAI解散，旗下Grok及X相关业务整合进SpaceX新子部门"SpaceXAI"。SpaceX与Anthropic达成协议，将Colossus 1超22万块英伟达GPU、超300兆瓦算力供Claude使用，即日起Claude Code五小时速率限制翻倍，取消Pro/Max高峰时段削减，Opus API速率上限大幅提高。

https://mp.weixin.qq.com/s/NsQ1siqUVWZ04bIuB_m9Jg

Anthropic发布10个金融服务AI智能体模板

5月5日，Anthropic推出10个面向金融服务的AI智能体模板，覆盖Pitch Builder、Meeting Preparer、Earnings Reviewer、KYC Screener、General Ledger Reconciler等功能，可直接嵌入Claude Cowork/Code/Managed Agents，深度接入Word/Excel/PowerPoint/Outlook，实现"从问答到接管流程"的转变，FactSet、Morningstar等金融数据公司股价应声下跌。

https://finance.sina.com.cn/stock/t/2026-05-05/doc-inhwwmhz9592998.shtml

谷歌Gemini内测AI个人智能体Remy，对标OpenClaw

5月6日消息，谷歌内部测试代号为Remy的Gemini个人智能体，深度集成Gmail、Chrome、Calendar等核心服务，可代表用户执行多步骤操作，定位为"工作、学业和日常生活中全天候的个人智能体"，被视为对OpenAI/OpenClaw在"个人代理"赛道的直接回应。

https://finance.sina.com.cn/tech/digi/2026-05-06/doc-inhwxtam3471688.shtml

Claude Dreaming"做梦"机制发布，Agent能力暴涨6倍

Anthropic在开发者大会推出Dreaming功能，Agent可在工作间隙读取过去最多100次会话，自动合并重复、挖掘规律；同步发布Outcomes自动评分与多Agent编排。法律AI公司Harvey接入Dreaming后任务完成率飙升约6倍。该机制类似人类记忆巩固，有利于长周期任务一致性，但也带来"记忆被污染""固化错误行为"的新安全挑战。

https://mp.weixin.qq.com/s/9xNPYWaUw2teeSjc_kwU7A

千问AI眼镜S1升级"主动服务"+空间3D显示

5月8日，千问AI眼镜S1升级主动服务能力，可结合时间/位置/环境主动提醒"出门带伞""抬头活动"，打车、闪购、行程规划等生活AI能力本月上线；同时首发空间3D显示，采用双光机+双目立体成像技术提升信息纵深感。具身设备从被动响应迈向"预判式服务"，显著放大位置隐私与误操作风险。

https://new.qq.com/rain/a/20260508A05FLS00

英伟达AMD英特尔博通联手发布MRC协议，封堵GPU算力浪费

该协议可将单次传输分散至数百条路径并行，微秒级绕开故障链路，仅用两层交换机即可承载10万张GPU超算。

https://mp.weixin.qq.com/s/oIIa4M8iByVH-xpXcHSOyA

DeepMind入股EVE Online，让AI研究"黑暗森林"

谷歌DeepMind宣布收购《EVE Online》开发商部分股权，将在离线版游戏中开展受控实验，研究长远规划、记忆和持续学习，为通用人工智能提供安全测试平台。

https://mp.weixin.qq.com/s/bxNOqT0rkEiMNTwBdeb1TQ

🛡️ AI安全漏洞事件

Hugging Face与ClawHub遭大规模投毒攻击

AI行业最大模型与Agent技能仓库被系统性入侵。Hugging Face上发现超100个可执行任意代码的恶意模型，利用"nullifAI"技术绕过PickleScan检测；ClawHub上被植入341个恶意技能，可窃取凭证、建立反向Shell、劫持Agent进行挖矿。

https://thenextweb.com/news/hugging-face-clawhub-malware-ai-supply-chain

91%的AI Agent存在严重漏洞

斯坦福、MIT等机构联合研究847个真实部署的AI Agent，发现91%存在工具链攻击漏洞，94%可遭记忆投毒，共发现2347个此前未知漏洞。Moltbook平台单一漏洞曾致77万个Agent同时被劫持。

https://awtmt.com/articles/3771639

Claude被心理诱导突破安全防线，主动输出TATP炸药制作教程

红队公司Mindgard对Claude Sonnet 4.5测试：通过吹捧、尊重、佯装好奇等心理诱导，在未直接索要违禁内容的情况下，让模型主动输出恶意代码与爆炸物制作教程（包括TATP炸药），暴露"心理层"安全盲区。Claude 4 Opus仅用6小时即被诱导生成15页神经毒气制作指南，经验证具备技术可行性。专家指出，Anthropic将模型拟人化设计反成安全漏洞，此类基于心理特质的诱导攻击极难防御。

https://cj.sina.cn/article/norm_detail?url=https%3A%2F%2Ffinance.sina.com.cn%2Fstock%2Ft%2F2026-05-07%2Fdoc-inhxaaie7732618.shtml

Langflow AI工作流平台曝CVSS 10.0未认证RCE（CVE-2026-33017）

攻击者无需认证即可通过/api/v1/buildpublictmp接口注入恶意流程，20小时内即被武器化，刷新AI框架漏洞武器化纪录。

https://blog.csdn.net/weixin_42376192/article/details/159354248

Google Gemini CLI曝CVSS 10.0漏洞

漏洞利用POSIX长选项缩写特性绕过白名单审计执行任意系统命令，与另一漏洞组合可实现无交互RCE，凸显AI官方工具链自身安全短板。已在0.39.1版本中修复。

https://blog.csdn.net/txg666/article/details/160889769

IMF警告AI驱动网络攻击威胁全球金融稳定

IMF报告指出，AI攻击能大幅压缩漏洞挖掘时间、降低技术门槛，使金融威胁呈高频化、复杂化、致命化特征，呼吁各国加强跨国协作。

https://big5.cri.cn/gate/big5/news.cri.cn/20260508/7f7524c8-85c2-440b-bfea-8b74c8606f8e.html

Cisco揭示视觉语言模型（VLM）安全缺陷

研究发现微小的图像扰动可绕过VLM安全机制，识别出"可读性恢复"与"拒绝减少"两种失效模式，建议组织构建超越像素层面的表示空间防护。

https://www.esecurityplanet.com/artificial-intelligence/cisco-reveals-security-gaps-in-vision-language-models/

🧠 AI模型安全

GPT-5.5 Instant上线，幻觉减少52.5%

5月5-6日，GPT-5.5 Instant成为ChatGPT默认模型，在医疗、法律、金融等高风险提示上的幻觉性陈述减少52.5%，回答更简洁。更可靠的输出也意味着用户更易盲目信任，滥用风险上升。

https://www.sohu.com/a/1018779647_121885030

OpenAI推出"可信联系人（Trusted Contact）"安全机制

5月7日，OpenAI为ChatGPT新增可信联系人功能，当系统与人工审核判定成年用户存在自杀/自残等严重安全风险时，会通知其预设的可信联系人。通知不含对话细节，仅鼓励联系与沟通，作为既有心理求助热线的补充。

https://companies.caixin.com/2026-05-08/102441985.html

Meta发布代码世界模型CWM安全自我审查报告（arXiv:2605.00932）

Meta AI安全实验室对320亿参数的开源编程模型Code World Model进行安全评估，从网络安全能力、生化危险知识、行为倾向三方面与Qwen3-Coder-480B、Llama 4 Maverick、gpt-oss-120b横向对比，认定CWM未显著超出当前开源生态风险水平，但披露的越狱与攻击路径对红队与模型加固具有直接参考价值。

https://arxiv.org/html/2605.00932v1

MIT联合研究警告微调导致安全漂移

对100个AI模型检测发现，即使是良性专业领域微调，也可能导致AI安全性出现大幅且不可预测的变化，对仅评估"底座模型"的监管思路提出直接挑战。

https://www.techwalker.com/2026/0508/3186137.shtml

Stable-GFN：面向LLM红队测试的多样鲁棒方法（arXiv:2605.00553）

论文提出Stable-GFN（S-GFFN）方法，通过对比轨迹平衡解决传统GFN在LLM红队测试中的训练不稳定与模式崩溃问题，在保持约92%攻击成功率的同时，独特攻击方式数量提升近7倍，显著扩大安全测试覆盖面。

https://arxiv.org/abs/2605.00553

⚙️ Agent安全

国家网信办等三部门印发《智能体规范应用与创新发展实施意见》

5月8日，文件明确将智能体安全、可靠、可信作为底线要求，提出发展对抗样本检测、行为异常检测等安全与治理工具；建立智能体标准体系，研究智能体互联协议（AIP）、智能体注册平台与数字身份管理；强调用户对智能体自主决策享有知情权和最终决策权，为智能体安全治理提供顶层设计。

http://paper.people.com.cn/rmrb/pc/content/202605/09/content_30155706.html

AI同质化共振+人机信任被劫持，系统性安全危机加剧

分析指出，大量同源智能体广泛部署于金融、关键基础设施等场景，一旦触发异常行为，可能引发跨场景、跨领域的连锁风险，形成类似"美股闪崩"的系统性安全冲击。引用2026年4月Claude自主越权修改工作区外配置、自主挖掘AWS凭证等案例，要求在Agent架构中引入"断路器"、隔离舱与多样性设计。

https://cloud.kepuchina.cn/h5/detail?id=7452083555538849792

Claude Managed Agents引入"做梦（Dreaming）"机制，实现长期记忆与行为固化

该机制在空闲时段对历史交互进行回顾与压缩，形成持久化记忆，有利于长周期任务一致性，但也带来"记忆被污染""固化错误行为"的新安全挑战，需更严格的记忆读写审计与回滚机制。

https://so.html5.qq.com/page/real/searchnews?docid=7000002116769fde76f58465

🦾 具身智能与AI硬件安全

英伟达Blackwell Ultra（B300）交付可能推迟，AI算力"泡沫账本"承压

受台积电CoWoS-L先进封装良率波动影响，B300芯片原定2026年Q3大规模交付可能推迟至11月甚至更晚。分析指出这不仅影响算力供给预期，也可能对算力租赁、智算中心等商业模式形成压力，进而影响安全投入节奏与冗余设计。

https://finance.sina.com.cn/roll/2026-05-07/doc-inhxaxnx2646488.shtml

万亿赛道存隐忧：具身智能安全从"数据安全"向"生命安全"升级

具身智能设备在网络攻击下面临更高风险挑战。今年2月《人形机器人与具身智能标准体系（2026版）》发布，推动全链条安全防护。

http://www.chinasei.com.cn/gdzz/hkhtly/202605/t20260506_81402.html

新论文论证具身AI需权衡隐私与效用

提出SPINE统一隐私框架，将隐私视为全生命周期架构约束而非局部特性，已被ICML 2026接收。

https://browse-export.arxiv.org/abs/2605.05017

🛠️ AI安全工具

DeepTeam：LLM红队与Agent安全测试框架

用于对LLM和LLM Agent进行红队测试的开源框架，支持"将工具武器化用于非预期动作"等场景，可系统化挖掘Agent在工具调用、权限提升与越权操作方面的安全缺陷。

GitHub: https://github.com/confident-ai/deepteam官网: https://trydeepteam.com/

Vibeguard-local：AI生成SQL的静态AST安全检测工具

针对AI生成SQL代码的静态分析安全工具，通过AST解析检测注入风险、数据泄露与权限越界，可集成到CI/CD流水线，对"Vibe Coding"和AI辅助开发中的数据库操作代码进行安全审计。

https://buttondown.com/ai-builder-pulse/archive/ai-builder-pulse-2026-05-07/

Platos：开源Claude Managed Agents替代方案

Winsen Labs推出的开源Agent编排框架，定位为Claude Managed Agents的开源替代，支持自主部署，提供完整Agent生命周期管理，允许开发者完全控制执行环境、数据流和权限边界。

https://www.cnblogs.com/itech/p/19991037

Tilde.run：面向AI Agent的事务化版本化沙盒文件系统

为Agent提供事务化、版本化的沙盒文件系统，每次文件操作类似Git提交，可追溯、可回滚，为Agent编码场景下的误操作与恶意修改提供企业级安全回滚与审计能力。

平台地址: https://tilde.run

Claude Security公测版开放

Anthropic基于Claude Opus 4.7推出代码自动漏洞扫描工具，无需自定义Agent或API集成，指定GitHub仓库即可启动。

https://www.donews.com/news/detail/8/4998765.html

AI-BOM成为企业应对影子AI新防线

可追踪模型、数据集、SDK、MCP服务器、AI Agent等组件，Cisco已将其AI-BOM工具开源。

https://ai.zhiding.cn/2026/0507/3186059.shtml

Sysdig发布首个面向AI Agent的无头云安全平台

将全生命周期CNAPP能力注入AI编程Agent，去掉传统UI，实现机器速度的云安全运营。

https://www.hpcwire.com/aiwire/2026/05/06/sysdig-introduces-the-industrys-1st-headless-cloud-security-platform-built-for-ai-agents/

Crucible Security：符合OWASP安全标准的安全测试工具

符合OWASP LLM与Agentic Top 10标准的安全测试工具，支持CI/CD管道集成，可通过pip安装。

https://pypi.org/project/crucible-security/

🏢 AI安全产品与公司

韩国政府设立800万美元AI网络安全基金

支持50家公司开展18项AI安全任务，目标建立本土安全技术，降低对外国供应商依赖。

https://www.gate.com/zh-tw/news/detail/south-korea-launches-8m-ai-cybersecurity-fund-for-50-companies-20923006

Herd Security获300万美元种子轮融资

AI网络安全培训服务商，利用AI提供持续自适应的安全意识培训。

https://www.donews.com/news/detail/8/4997586.html

米塔蓝图科技获天使轮融资

专注混合多云环境AI安全运营，自研MCASOP自进化AI安全运营平台。

https://www.jixin.tech/hangye/7589.html

📜 AI安全法律与治理

三部门联合印发《智能体规范应用与创新发展实施意见》

明确将智能体安全、可靠、可信作为底线要求，提出发展对抗样本检测、行为异常检测等安全与治理工具；建立智能体标准体系与智能体注册平台；明确智能体决策权限边界，确保用户对智能体自主决策享有知情权和最终决策权。这是国内首次在政策层面系统提出智能体标准与互联协议。

https://www.ce.cn/xwzx/gnsz/gdxw/202605/t20260509_2953437.shtml

欧盟就"简化"《人工智能法》监管规则达成临时协议

欧盟成员国与欧洲议会议员就简化版《人工智能法》达成临时协议，包括推迟部分规则实施时间、减少条款重叠，以缓解企业对监管负担的抱怨。整体趋向"简化"，但对高风险AI系统的基本要求与合规框架并未放松。

https://www.cnblogs.com/itech/p/19991037

NIST CAISI与多家AI巨头签署国家安全测试协议

允许美联邦政府在AI模型公开发布前进行安全评估。

https://www.dataguidance.com/news/usa-caisi-signs-agreements-regarding-frontier-ai

📝 AI安全论文

Meta：代码世界模型（CWM）安全自我审查报告（arXiv:2605.00932v1）

Meta AI安全实验室联合发布的CWM安全评估报告，从网络安全能力、生化危险知识、行为倾向三方面，将CWM与Qwen3-Coder-480B、Llama 4 Maverick、gpt-oss-120b横向对比，提供了系统的红队测试方法与危险能力评估框架，对后续开源大模型发布前的安全审查具有模板意义。

https://arxiv.org/html/2605.00932v1

KAIST & Naver AI：Stable-GFN——多样且高效的LLM红队测试方法（arXiv:2605.00553）

论文提出Stable-GFN方法，通过对比轨迹平衡（CTB）解决传统GFN在LLM红队测试中的训练不稳定与毒性评分噪声问题，在保持高攻击成功率的同时，将发现的独特攻击方式提升近7倍，可直接用于大模型上线前的安全扫描。

https://arxiv.org/abs/2605.00553

🏛️ AI安全标准

《智能体规范应用与创新发展实施意见》提出智能体标准体系与AIP协议

文件要求建立智能体标准化工作指导文件与标准框架，布局关键技术、重要产品、数据交换、安全保障、可信认证等标准体系，并研究智能体互联协议（AIP）、智能体注册平台与数字身份管理。

http://paper.people.com.cn/rmrb/pc/content/202605/09/content_30155706.html

NIST发布SP 800-70r5最终版

修订扩展AI与IoT系统安全配置清单覆盖范围，强化NIST CSF 2.0可追溯性。

https://csrc.nist.gov/News/2026/final-nist-sp-800-70r5-is-available

NIST发布AI环境下HPC系统安全指南（SP 800-234）

针对大规模AI训练计算基础设施发布安全覆盖层指南。

https://insideaipolicy.com/ai-daily-news/nist-issues-guide-securing-high-performance-computing-systems-ai-context

每日AI安全速递 · 每日更新

2026.05.09