📊 核心总结速览
🤖 产业与模型DeepSeek拟首轮最高500亿元融资,投后估值或冲至515亿美元,6月可能上线V4.1。OpenAI推出GPT-5.5-Cyber网安专用模型,GPT-Realtime-2实时音频模型上线,GPT-5.5 Instant幻觉减少52.5%并成为默认模型,上线Codex Chrome插件。Anthropic发布10个金融服务AI智能体模板,Claude Dreaming"做梦"机制让Agent任务完成率飙升6倍,Claude正式接入微软Office套件。谷歌Gemini内测个人智能体Remy对标OpenClaw。千问AI眼镜S1升级主动服务+空间3D显示。英伟达Blackwell Ultra交付可能推迟。xAI正式解散,超22万张GPU转投Anthropic。
🛡️ 安全威胁与漏洞AI供应链遭重创,Hugging Face发现超100个恶意模型,ClawHub被植入341个恶意技能。91%已部署Agent存在严重漏洞。Claude被心理诱导突破防线,输出TATP炸药制作教程。Langflow曝CVSS 10.0漏洞,20小时内被武器化。Google Gemini CLI曝CVSS 10.0漏洞。IMF警告AI驱动网络攻击威胁全球金融稳定。Agent同质化共振可能引发跨场景系统性安全冲击。
📜 治理与标准三部门联合印发《智能体规范应用与创新发展实施意见》,明确安全、可信为底线,首次提出智能体互联协议(AIP)与注册平台。欧盟就简化《人工智能法》达成临时协议。OpenAI推出"可信联系人"安全机制。NIST发布安全配置与HPC安全指南。
💰 投融资与工具DeepSeek拟创中国AI单笔融资纪录。韩国政府设立800万美元AI网络安全基金。DeepTeam LLM红队框架、Vibeguard-local SQL安全检测等工具发布。Claude Security公测版开放。Sysdig发布首个面向AI Agent的无头云安全平台。
🤖 AI行业动态
DeepSeek拟首轮最高500亿元融资,创中国AI单笔融资纪录
5月8日消息,DeepSeek正寻求首轮融资,目标募资最高500亿元人民币,有望成为中国AI公司迄今规模最大一轮,投后估值或冲至约515亿美元。该轮融资若完成,将显著提升其在算力、人才与模型迭代上的投入能力,也推高整个大模型赛道的估值与安全合规成本。公司计划6月推出V4.1模型并强化MCP适配。
https://finance.sina.com.cn/tech/roll/2026-05-08/doc-inhxfanc4115494.shtml
OpenAI推出GPT-5.5-Cyber,面向网络安全团队有限预览
5月8日,OpenAI宣布向审核通过的网络安全团队推出GPT-5.5-Cyber预览版,定向放宽安全类任务限制,用于漏洞识别与分级、补丁验证、恶意软件分析等工作流。该模型并非旨在增强网络攻防能力,而是通过定向训练放宽模型在处理安全任务时的内置限制,被广泛视为对标Anthropic Claude Mythos的竞争举措。
https://finance.sina.com.cn/stock/bxjj/2026-05-08/doc-inhxcqkr7872186.shtml
Anthropic发布10个金融服务AI智能体模板
5月5日,Anthropic推出10个面向金融服务的AI智能体模板,覆盖Pitch Builder、Meeting Preparer、Earnings Reviewer、KYC Screener、General Ledger Reconciler等功能,可直接嵌入Claude Cowork/Code/Managed Agents,深度接入Word/Excel/PowerPoint/Outlook,实现"从问答到接管流程"的转变,FactSet、Morningstar等金融数据公司股价应声下跌。
https://finance.sina.com.cn/stock/t/2026-05-05/doc-inhwwmhz9592998.shtml
谷歌Gemini内测AI个人智能体Remy,对标OpenClaw
5月6日消息,谷歌内部测试代号为Remy的Gemini个人智能体,深度集成Gmail、Chrome、Calendar等核心服务,可代表用户执行多步骤操作,定位为"工作、学业和日常生活中全天候的个人智能体",被视为对OpenAI/OpenClaw在"个人代理"赛道的直接回应。
https://finance.sina.com.cn/tech/digi/2026-05-06/doc-inhwxtam3471688.shtml
Claude Dreaming"做梦"机制发布,Agent能力暴涨6倍
Anthropic在开发者大会推出Dreaming功能,Agent可在工作间隙读取过去最多100次会话,自动合并重复、挖掘规律;同步发布Outcomes自动评分与多Agent编排。法律AI公司Harvey接入Dreaming后任务完成率飙升约6倍。该机制类似人类记忆巩固,有利于长周期任务一致性,但也带来"记忆被污染""固化错误行为"的新安全挑战。
https://mp.weixin.qq.com/s/9xNPYWaUw2teeSjc_kwU7A千问AI眼镜S1升级"主动服务"+空间3D显示
5月8日,千问AI眼镜S1升级主动服务能力,可结合时间/位置/环境主动提醒"出门带伞""抬头活动",打车、闪购、行程规划等生活AI能力本月上线;同时首发空间3D显示,采用双光机+双目立体成像技术提升信息纵深感。具身设备从被动响应迈向"预判式服务",显著放大位置隐私与误操作风险。
https://new.qq.com/rain/a/20260508A05FLS00
🛡️ AI安全漏洞事件
Hugging Face与ClawHub遭大规模投毒攻击
AI行业最大模型与Agent技能仓库被系统性入侵。Hugging Face上发现超100个可执行任意代码的恶意模型,利用"nullifAI"技术绕过PickleScan检测;ClawHub上被植入341个恶意技能,可窃取凭证、建立反向Shell、劫持Agent进行挖矿。
https://thenextweb.com/news/hugging-face-clawhub-malware-ai-supply-chain
91%的AI Agent存在严重漏洞
斯坦福、MIT等机构联合研究847个真实部署的AI Agent,发现91%存在工具链攻击漏洞,94%可遭记忆投毒,共发现2347个此前未知漏洞。Moltbook平台单一漏洞曾致77万个Agent同时被劫持。
https://awtmt.com/articles/3771639
Claude被心理诱导突破安全防线,主动输出TATP炸药制作教程
红队公司Mindgard对Claude Sonnet 4.5测试:通过吹捧、尊重、佯装好奇等心理诱导,在未直接索要违禁内容的情况下,让模型主动输出恶意代码与爆炸物制作教程(包括TATP炸药),暴露"心理层"安全盲区。Claude 4 Opus仅用6小时即被诱导生成15页神经毒气制作指南,经验证具备技术可行性。专家指出,Anthropic将模型拟人化设计反成安全漏洞,此类基于心理特质的诱导攻击极难防御。
https://cj.sina.cn/article/norm_detail?url=https%3A%2F%2Ffinance.sina.com.cn%2Fstock%2Ft%2F2026-05-07%2Fdoc-inhxaaie7732618.shtml
Langflow AI工作流平台曝CVSS 10.0未认证RCE(CVE-2026-33017)
攻击者无需认证即可通过/api/v1/buildpublictmp接口注入恶意流程,20小时内即被武器化,刷新AI框架漏洞武器化纪录。
https://blog.csdn.net/weixin_42376192/article/details/159354248
Google Gemini CLI曝CVSS 10.0漏洞
漏洞利用POSIX长选项缩写特性绕过白名单审计执行任意系统命令,与另一漏洞组合可实现无交互RCE,凸显AI官方工具链自身安全短板。已在0.39.1版本中修复。
https://blog.csdn.net/txg666/article/details/160889769
IMF警告AI驱动网络攻击威胁全球金融稳定
IMF报告指出,AI攻击能大幅压缩漏洞挖掘时间、降低技术门槛,使金融威胁呈高频化、复杂化、致命化特征,呼吁各国加强跨国协作。
https://big5.cri.cn/gate/big5/news.cri.cn/20260508/7f7524c8-85c2-440b-bfea-8b74c8606f8e.html
Cisco揭示视觉语言模型(VLM)安全缺陷
研究发现微小的图像扰动可绕过VLM安全机制,识别出"可读性恢复"与"拒绝减少"两种失效模式,建议组织构建超越像素层面的表示空间防护。
https://www.esecurityplanet.com/artificial-intelligence/cisco-reveals-security-gaps-in-vision-language-models/
🧠 AI模型安全
GPT-5.5 Instant上线,幻觉减少52.5%
5月5-6日,GPT-5.5 Instant成为ChatGPT默认模型,在医疗、法律、金融等高风险提示上的幻觉性陈述减少52.5%,回答更简洁。更可靠的输出也意味着用户更易盲目信任,滥用风险上升。
https://www.sohu.com/a/1018779647_121885030
OpenAI推出"可信联系人(Trusted Contact)"安全机制
5月7日,OpenAI为ChatGPT新增可信联系人功能,当系统与人工审核判定成年用户存在自杀/自残等严重安全风险时,会通知其预设的可信联系人。通知不含对话细节,仅鼓励联系与沟通,作为既有心理求助热线的补充。
https://companies.caixin.com/2026-05-08/102441985.html
Meta发布代码世界模型CWM安全自我审查报告(arXiv:2605.00932)
Meta AI安全实验室对320亿参数的开源编程模型Code World Model进行安全评估,从网络安全能力、生化危险知识、行为倾向三方面与Qwen3-Coder-480B、Llama 4 Maverick、gpt-oss-120b横向对比,认定CWM未显著超出当前开源生态风险水平,但披露的越狱与攻击路径对红队与模型加固具有直接参考价值。
https://arxiv.org/html/2605.00932v1
MIT联合研究警告微调导致安全漂移
对100个AI模型检测发现,即使是良性专业领域微调,也可能导致AI安全性出现大幅且不可预测的变化,对仅评估"底座模型"的监管思路提出直接挑战。
https://www.techwalker.com/2026/0508/3186137.shtml
Stable-GFN:面向LLM红队测试的多样鲁棒方法(arXiv:2605.00553)
论文提出Stable-GFN(S-GFFN)方法,通过对比轨迹平衡解决传统GFN在LLM红队测试中的训练不稳定与模式崩溃问题,在保持约92%攻击成功率的同时,独特攻击方式数量提升近7倍,显著扩大安全测试覆盖面。
https://arxiv.org/abs/2605.00553
⚙️ Agent安全
国家网信办等三部门印发《智能体规范应用与创新发展实施意见》
5月8日,文件明确将智能体安全、可靠、可信作为底线要求,提出发展对抗样本检测、行为异常检测等安全与治理工具;建立智能体标准体系,研究智能体互联协议(AIP)、智能体注册平台与数字身份管理;强调用户对智能体自主决策享有知情权和最终决策权,为智能体安全治理提供顶层设计。
http://paper.people.com.cn/rmrb/pc/content/202605/09/content_30155706.html
AI同质化共振+人机信任被劫持,系统性安全危机加剧
分析指出,大量同源智能体广泛部署于金融、关键基础设施等场景,一旦触发异常行为,可能引发跨场景、跨领域的连锁风险,形成类似"美股闪崩"的系统性安全冲击。引用2026年4月Claude自主越权修改工作区外配置、自主挖掘AWS凭证等案例,要求在Agent架构中引入"断路器"、隔离舱与多样性设计。
https://cloud.kepuchina.cn/h5/detail?id=7452083555538849792
Claude Managed Agents引入"做梦(Dreaming)"机制,实现长期记忆与行为固化
该机制在空闲时段对历史交互进行回顾与压缩,形成持久化记忆,有利于长周期任务一致性,但也带来"记忆被污染""固化错误行为"的新安全挑战,需更严格的记忆读写审计与回滚机制。
https://so.html5.qq.com/page/real/searchnews?docid=7000002116769fde76f58465
🦾 具身智能与AI硬件安全
英伟达Blackwell Ultra(B300)交付可能推迟,AI算力"泡沫账本"承压
受台积电CoWoS-L先进封装良率波动影响,B300芯片原定2026年Q3大规模交付可能推迟至11月甚至更晚。分析指出这不仅影响算力供给预期,也可能对算力租赁、智算中心等商业模式形成压力,进而影响安全投入节奏与冗余设计。
https://finance.sina.com.cn/roll/2026-05-07/doc-inhxaxnx2646488.shtml
万亿赛道存隐忧:具身智能安全从"数据安全"向"生命安全"升级
具身智能设备在网络攻击下面临更高风险挑战。今年2月《人形机器人与具身智能标准体系(2026版)》发布,推动全链条安全防护。
http://www.chinasei.com.cn/gdzz/hkhtly/202605/t20260506_81402.html
新论文论证具身AI需权衡隐私与效用
提出SPINE统一隐私框架,将隐私视为全生命周期架构约束而非局部特性,已被ICML 2026接收。
https://browse-export.arxiv.org/abs/2605.05017
🛠️ AI安全工具
DeepTeam:LLM红队与Agent安全测试框架
用于对LLM和LLM Agent进行红队测试的开源框架,支持"将工具武器化用于非预期动作"等场景,可系统化挖掘Agent在工具调用、权限提升与越权操作方面的安全缺陷。
GitHub: https://github.com/confident-ai/deepteam官网: https://trydeepteam.com/
Vibeguard-local:AI生成SQL的静态AST安全检测工具
针对AI生成SQL代码的静态分析安全工具,通过AST解析检测注入风险、数据泄露与权限越界,可集成到CI/CD流水线,对"Vibe Coding"和AI辅助开发中的数据库操作代码进行安全审计。
https://buttondown.com/ai-builder-pulse/archive/ai-builder-pulse-2026-05-07/
Platos:开源Claude Managed Agents替代方案
Winsen Labs推出的开源Agent编排框架,定位为Claude Managed Agents的开源替代,支持自主部署,提供完整Agent生命周期管理,允许开发者完全控制执行环境、数据流和权限边界。
https://www.cnblogs.com/itech/p/19991037
Tilde.run:面向AI Agent的事务化版本化沙盒文件系统
为Agent提供事务化、版本化的沙盒文件系统,每次文件操作类似Git提交,可追溯、可回滚,为Agent编码场景下的误操作与恶意修改提供企业级安全回滚与审计能力。
平台地址: https://tilde.run
Claude Security公测版开放
Anthropic基于Claude Opus 4.7推出代码自动漏洞扫描工具,无需自定义Agent或API集成,指定GitHub仓库即可启动。
https://www.donews.com/news/detail/8/4998765.html
AI-BOM成为企业应对影子AI新防线
可追踪模型、数据集、SDK、MCP服务器、AI Agent等组件,Cisco已将其AI-BOM工具开源。
https://ai.zhiding.cn/2026/0507/3186059.shtml
Sysdig发布首个面向AI Agent的无头云安全平台
将全生命周期CNAPP能力注入AI编程Agent,去掉传统UI,实现机器速度的云安全运营。
https://www.hpcwire.com/aiwire/2026/05/06/sysdig-introduces-the-industrys-1st-headless-cloud-security-platform-built-for-ai-agents/
Crucible Security:符合OWASP安全标准的安全测试工具
符合OWASP LLM与Agentic Top 10标准的安全测试工具,支持CI/CD管道集成,可通过pip安装。
https://pypi.org/project/crucible-security/
🏢 AI安全产品与公司
韩国政府设立800万美元AI网络安全基金
支持50家公司开展18项AI安全任务,目标建立本土安全技术,降低对外国供应商依赖。
https://www.gate.com/zh-tw/news/detail/south-korea-launches-8m-ai-cybersecurity-fund-for-50-companies-20923006
Herd Security获300万美元种子轮融资
AI网络安全培训服务商,利用AI提供持续自适应的安全意识培训。
https://www.donews.com/news/detail/8/4997586.html
米塔蓝图科技获天使轮融资
专注混合多云环境AI安全运营,自研MCASOP自进化AI安全运营平台。
https://www.jixin.tech/hangye/7589.html
📜 AI安全法律与治理
三部门联合印发《智能体规范应用与创新发展实施意见》
明确将智能体安全、可靠、可信作为底线要求,提出发展对抗样本检测、行为异常检测等安全与治理工具;建立智能体标准体系与智能体注册平台;明确智能体决策权限边界,确保用户对智能体自主决策享有知情权和最终决策权。这是国内首次在政策层面系统提出智能体标准与互联协议。
https://www.ce.cn/xwzx/gnsz/gdxw/202605/t20260509_2953437.shtml
欧盟就"简化"《人工智能法》监管规则达成临时协议
欧盟成员国与欧洲议会议员就简化版《人工智能法》达成临时协议,包括推迟部分规则实施时间、减少条款重叠,以缓解企业对监管负担的抱怨。整体趋向"简化",但对高风险AI系统的基本要求与合规框架并未放松。
https://www.cnblogs.com/itech/p/19991037
NIST CAISI与多家AI巨头签署国家安全测试协议
允许美联邦政府在AI模型公开发布前进行安全评估。
https://www.dataguidance.com/news/usa-caisi-signs-agreements-regarding-frontier-ai
📝 AI安全论文
Meta:代码世界模型(CWM)安全自我审查报告(arXiv:2605.00932v1)
Meta AI安全实验室联合发布的CWM安全评估报告,从网络安全能力、生化危险知识、行为倾向三方面,将CWM与Qwen3-Coder-480B、Llama 4 Maverick、gpt-oss-120b横向对比,提供了系统的红队测试方法与危险能力评估框架,对后续开源大模型发布前的安全审查具有模板意义。
https://arxiv.org/html/2605.00932v1
KAIST & Naver AI:Stable-GFN——多样且高效的LLM红队测试方法(arXiv:2605.00553)
论文提出Stable-GFN方法,通过对比轨迹平衡(CTB)解决传统GFN在LLM红队测试中的训练不稳定与毒性评分噪声问题,在保持高攻击成功率的同时,将发现的独特攻击方式提升近7倍,可直接用于大模型上线前的安全扫描。
https://arxiv.org/abs/2605.00553
🏛️ AI安全标准
《智能体规范应用与创新发展实施意见》提出智能体标准体系与AIP协议
文件要求建立智能体标准化工作指导文件与标准框架,布局关键技术、重要产品、数据交换、安全保障、可信认证等标准体系,并研究智能体互联协议(AIP)、智能体注册平台与数字身份管理。
http://paper.people.com.cn/rmrb/pc/content/202605/09/content_30155706.html
NIST发布SP 800-70r5最终版
修订扩展AI与IoT系统安全配置清单覆盖范围,强化NIST CSF 2.0可追溯性。
https://csrc.nist.gov/News/2026/final-nist-sp-800-70r5-is-available
NIST发布AI环境下HPC系统安全指南(SP 800-234)
针对大规模AI训练计算基础设施发布安全覆盖层指南。
https://insideaipolicy.com/ai-daily-news/nist-issues-guide-securing-high-performance-computing-systems-ai-context