每日AI安全速递
追踪AI行业动态 · 洞察安全风险趋势
今日核心洞察
AI行业动态
OpenAI官宣ChatGPT与Codex合体,10亿用户即将解锁「超级Agent」
OpenAI在线上发布会重磅官宣,未来几周将把Codex装进ChatGPT,这两个加起来坐拥近10亿用户的AI产品将彻底合体。Codex三大更新齐发:Agent插件、批注和Sites功能,近10亿用户一夜解锁「全能分身」。Codex周活已破500万,知识工作者占20%,增速是开发者的3倍。奥特曼在X上发文引用《传道书》:"凡你手所当做之事,要尽力去做"——暗示Agent将7×24h为用户工作。
来源:https://mp.weixin.qq.com/s/nFBiJ7_yVzTq-Q3edr4_dg英特尔陈立武Computex演讲:18A全面投产,至强6+单机架可支撑15万Agent
英特尔CEO陈立武在Computex 2026宣布Intel 18A制程全面量产,第三代酷睿与酷睿Ultra覆盖PC、边缘、数据中心与智算中心;面向掌机的锐炫G3处理器速度领先竞品超40%、同性能下功耗仅50%;至强6+数据中心CPU拥有288能效核,单机架可支撑15万个Agent;推出机架级蓝图计划,联合富士康、SambaNova交付系统方案,并为谷歌、爱立信等客户量产定制芯片。
来源:https://finance.sina.com.cn/stock/hkstock/hkstocknews/2026-06-02/doc-inhzzqcm1520467.shtmlClaude Opus 4.8登顶ARC-AGI-3,Agent能力大幅领先但单次评测成本达1万美元
Claude Opus 4.8(High)在ARC-AGI-3榜单以1.5%得分登顶,是第二名的3倍、GPT-5.5的近4倍,但单次评测成本高达1万美元;该测试将模型放入从未见过的游戏环境,无说明无提示,自主探索规则与胜利条件,专门考验Agent在未知环境的适应能力;Opus 4.8升级重心押在Agent能力,在SWE-bench Pro、浏览器操作等评测全面领先,关键在于从逐像素处理升级到识别物体与系统的抽象层级。
来源:http://finance.sina.cn/stock/jdts/2026-06-02/detail-inhzzcpr1634670.d.htmlAnthropic秘密递交招股书,年化收入从100亿美元飙升至470亿美元
Anthropic于6月1日向美国SEC秘密提交S-1草案启动IPO,同日完成650亿美元Series H融资,投后估值达9650亿美元,一年估值约翻15倍;其收入由Claude Code驱动一路猛涨,年化收入从去年100亿美元升至5月的470亿美元;SpaceX、OpenAI、Anthropic三家同年冲刺IPO,合计目标估值逼近4万亿美元,国内智谱、MiniMax、月之暗面等也掀起资本热潮。
来源:https://finance.eastmoney.com/a/202606023757428821.html阿里发布Qwen3.7-Plus多模态智能体模型,看/想/写/做/验统一工作流
阿里发布最新多模态大模型Qwen3.7-Plus,在Vision Arena榜单跻身前列,文本与视觉能力大幅提升;模型实现多模态混合智能体突破,将看、想、写、做、验整合进统一工作流,测试中连续运行超11小时、生成超万行代码完成应用开发;纯文本能力接近旗舰Qwen3.7-Max,编程、Agent、推理及视觉推理多项评测显著提升,支持工具调用与GUI感知操控。
来源:http://tech.hexun.com/2026-06-02/224257953.html扣子3.0正式上线,组建人机协作多Agent团队
扣子3.0三端全量更新,新增电脑端并升级App,用户可创建项目、召集不同Agent,让人与Agent像团队一样分工协作完成任务;支持接入本地Claude Code、Codex CLI等框架,可多端远程调度,并提供云端Agent、职业模板与专家级技能商店;编程与视频项目打通主对话,支持多人协作开发网页、App及对话式生成视频,三端联动让任务在不同设备间持续接力。
来源:https://new.qq.com/rain/a/20260602A07TK200OpenAI CEO奥特曼收回AI就业末日论,承认AI对就业颠覆速度远没有预想那么快
奥特曼在悉尼会议上收回此前的就业末日论,坦言AI对就业的颠覆速度远没有预想那么快,初级白领岗位受影响也低于预期;他亲身实验把邮件和Slack外包给AI回复,最终默默改回亲自打字,承认很多人际互动无法外包,真正难替代的是工作里的人味;谷歌、高盛、a16z等多位高管也批评末日论被过分渲染,数据显示AI与失业率间无显著统计关系,劳动力市场形状变化但规模未萎缩。
来源:https://www.163.com/dy/article/KTSDNN030556I485pdya11y.htmlYC构建AI-Native组织:Agent能力向全员开放,默认信任与平等主义是前提
YC合伙人Pete主导搭建覆盖全员的Agent系统,从财务SQL查询起步,演化成350多个工具的注册表与全员可见的对话系统;系统每晚自动阅读当天所有对话、改进自身技能,通过工具注册表、技能封装与Dream Cycle让能力超越任何单个合伙人;真正的AI-Native组织需默认信任与平等主义两大前提,AI能力向每个人开放、对话全员可见,未来应是Agent包裹确定性工具。
来源:https://www.163.com/dy/article/KUERJBEC05566TJ2.html强化学习之父Sutton提出生成认知,反思被动表征路线
强化学习之父Sutton与Rafiee发文,系统批判大模型、纯视觉模型等依赖的被动表征路线,将认知科学的生成认知框架引入AI;论文主张感知、认知与行动不可分割,智能应在与环境的互动中生成,并提炼出经验、感知行动一体、自主性与具身性四大支柱;强化学习与生成认知结构共鸣最强,但仍需从外部奖励走向自我评估、从任务驱动走向持续生存适应、走向真正的具身经验生成。
来源:https://m.huxiu.com/article/4863678.html黄仁勋与Marvell对谈:未来AI拼的不是算力是连接
黄仁勋在Computex现场称Marvell为下一家万亿美元公司,英伟达此前已向其战略投资20亿美元,两家深度绑定共建AI基础设施;两位CEO共识是AI瓶颈从算力、内存转向连接,随着Agent模式将任务分布式部署在百万级处理器,连接性成为系统性能决定战场;黄仁勋提出能用铜就用铜、必须用光才用光,未来5到10年铜光并用,Marvell重注CPO技术并发布100T以太网交换机受益双线。
来源:https://cj.sina.com.cn/article/normdetail?url=https%3A%2F%2Ffinance.sina.com.cn%2Froll%2F2026-06-02%2Fdoc-inhzysxr4654945.shtml英伟达开源物理AI模型与Agent工具包:Cosmos 3正式上线
英伟达正式开源全模态物理AI世界模型Cosmos 3并推出Agent Toolkit,加速AI对物理世界的理解与模拟,为机器人、自动驾驶提供底层支撑;Cosmos 3将物理AI训练周期从数月缩短至数天,Agent Toolkit提供标准化工具调用与仿真环境接口。
来源:https://mp.weixin.qq.com/s/PGS6d_ov-Rb7_qjvQt_INgAnthropic扩大Mythos网络安全模型测试,150家机构参与关键基础设施防护
Anthropic宣布扩大其网络安全模型Mythos的测试范围,通过"玻璃之翼(Project Glasswing)"项目向全球15个国家和地区的150家合作机构开放模型访问权限,涵盖电力、水务、医疗保健、通信及硬件制造等关键基础设施领域;初期试点中,合作伙伴通过Mythos累计发现超过1万个高危安全漏洞。
来源:https://www.anthropic.com/research/zero-trust-for-ai-agentsAI安全漏洞事件
Langroid LLM框架CVSS 9.8 RCE:提示注入→恶意SQL→数据库主机RCE
CVE-2026-25879出在Langroid LLM应用开发框架上,攻击链路为:提示注入→LLM生成恶意SQL→SQLChatAgent无校验执行→数据库主机RCE;攻击者不需要懂SQL注入,给AI代理下一段"自然语言指令"就能让服务器执行任意命令。
来源:https://github.com/advisories?query=cwe%3A94微软Copilot Cowork被曝将用户私密文件外发至不可控环境
微软内部AI助手Copilot Cowork在执行任务时,将用户私密文件外发到了不可控的外部环境,引发企业级客户对AI部署的极大恐慌;这再次印证"当AI不再只是聊天机器人,而是拥有文件读写、命令执行与异步运行能力的Agent时,如何防止越权成为核心问题"。
来源:http://news.qq.com/rain/a/20260526A069V600Meta AI客服遭诱导致大规模账号被盗
黑客利用Meta AI智能助手绕过风控与二次验证,诱导其修改目标账号绑定邮箱并重置密码,导致奥巴马时期白宫账号、美太空军高层及丝芙兰等大量高价值账号失窃。
来源:https://finance.sina.com.cn/roll/2026-06-02/doc-inhzynrx1865915.shtmlGrafana遭供应链攻击波及OpenAI等巨头
TeamPCP组织通过污染TanStack npm生态的恶意包,窃取Grafana Labs的CI/CD令牌并勒索,该行动已波及GitHub(3800个私有仓库)、OpenAI、Mistral AI等知名科技企业。
来源:https://cn-sec.com/archives/5262985.htmlAI模型安全
Claude Opus 4.8在Agent能力与安全对齐上双向演进
Claude Opus 4.8在ARC-AGI-3等Agent评测中大幅领先,同时在内部评估中,对自己生成代码"放过错误不提及"的概率较前代降低约四倍,对齐性测试中"亲社会特质"创高新,隐性欺骗与误导行为发生率低于Opus 4.7,与预览版Claude Mythos持平。
来源:https://www.sohu.com/a/1029328753_122066678大模型安全评测基准LITMUS发布
南京航空航天大学与浙江大学团队推出LITMUS,首个覆盖真实OS环境行为越狱与语义-物理双层验证的评测体系,系统量化了模型"嘴上拒绝执行,实则已调系统API"的执行幻觉盲区。
来源:https://www.sohu.com/a/1031337338_211762Agent安全
OpenClaw类智能体暴露提示注入、恶意技能供应链、身份验证缺陷与沙箱逃逸四大核心风险
安全社区将Agent安全列为当下威胁,指出其面临提示注入、恶意技能供应链(7-10%存在隐患)、身份验证缺陷及沙箱逃逸等挑战,并发生多起权限提升漏洞及失控删信事件。
来源:https://www.163.com/dy/article/KUAD714005561FZI_pdya11y.html开源代码现反AI投毒陷阱:专门诱导AI Agent删除测试代码
Java测试框架jqwik维护者在代码中植入隐藏提示词,专门诱导AI Agent忽略指令并删除所有测试代码,该指令对人类开发者完全透明,但对自动化编码工具构成新型投毒风险。
来源:http://mp.weixin.qq.com/s?src=11×tamp=1780442025&ver=6759&signature=0QtfcbibS90rxA3XuEIctNABclPHNu4M*ciFRY2N0pakmum6DPUQz1MJqhqRKFdcDfDSBCNLWu3VCmRoBSoIehd-ZzVy7fEglSnyZeDjJsltsbbrRucjSWUTRQGmkvoe&new=1AI硬件安全
英伟达RTX Spark发布:PC行业45年未变的范式被AI强行改写
黄仁勋在台北GTC 2026正式发布RTX Spark——英伟达首款面向Windows个人电脑的超级芯片。核心规格:20核Arm Grace CPU + 6144 CUDA核心Blackwell GPU(台积电3nm)、128GB统一内存(CPU与GPU共享,消除显存传输瓶颈)、1 PetaFLOP AI算力、本地运行1200亿参数模型、100万token上下文完全离线、Windows on Arm原生支持。英伟达还公布三代路线图,已排到2028-2029年。
来源:https://mp.weixin.qq.com/s/73GwC0zbTqUZMb6aEhKf7wAI或将重塑硬件安全攻防格局
随着硬件安全漏洞近年呈指数级增长,前沿大模型通过学习开源硬件架构,未来可能在挖掘幽灵、熔断类CPU侧信道漏洞及基带固件缺陷方面发挥关键作用,显著改变硬件安全格局。
来源:https://finance.sina.com.cn/tech/roll/2026-06-02/doc-inhzzcpq3157731.shtml具身智能安全
十三家顶尖机构联合发布具身智能安全综述:提出"能力-风险"二象性
复旦、港城大、UIUC等13家机构发布70余页综述,提出"能力-风险"二象性,指出具身智能每提升一层感知、认知或规划能力,就会新增一层攻击面,最终可能引发物理世界的系统性事故。
来源:https://arxiv.org/abs/2605.02900首届具身智能安全论坛召开:错误决策可能直接转化为物理伤害
北京网络安全大会举办分论坛,指出当智能体深度介入物理世界,面临无线劫持、协议漏洞、传感器欺骗等威胁,错误决策可能直接转化为物理伤害,亟需原生融合安全防御体系。
来源:https://bcs.qianxin.com/2026/agenda/detail?id=127AI安全工具
AI-Infra-Guard v4.2.0:腾讯朱雀实验室AI基础设施安全检测平台
腾讯朱雀实验室开源AI-Infra-Guard,定位为全栈AI红队测试平台,集成OpenClaw安全检测、Agent Scan、MCP扫描、AI基础设施漏洞扫描、模型越狱评测等多种能力;v4.2.0版本新增对19个AI组件的安全扫描支持,覆盖AI Agent框架、MCP服务器、向量数据库等新型攻击面。
来源:https://github.com/tencent/AI-Infra-Guardawesome-llm-security:LLM安全工具与论文一站式索引
由corca-ai维护,持续更新越狱检测、提示注入防御、安全护栏等最新工具与学术论文。
来源:https://github.com/corca-ai/awesome-llm-security多Agent漏洞扫描工具audit开源
安全圈知名研究者evilsocket开源了基于多Agent协作的自动化代码漏洞扫描工具,通过8个AI Agent流水线协作(含专门反驳找茬以过滤误报的Agent),低成本高效挖掘安全缺陷。
来源:https://cn-sec.com/archives/5262655.htmlAI驱动渗透测试平台Xalgorix发布
一款支持单命令快速部署的自托管安全测试平台,集成LLM智能代理与22阶段测试方法论,支持主流大模型API,一站式完成DAST扫描、漏洞验证与报告生成。
来源:https://cn-sec.com/archives/5263675.htmlDataShield开源:解决LLM良性指令微调中的安全能力退化
西北工业大学提出DataShield方案,通过量化样本对模型遵从行为的贡献来过滤安全退化数据,有效解决大语言模型在良性指令微调过程中的安全能力退化问题。
来源:https://github.com/ZJunBo/DataShieldAI安全产品与公司
奇安信提出"低-中-高"三位一体AI安全体系,Agent安全成为主战场
在BCS 2026上,奇安信董事长齐向东提出AI时代网络安全"三个攻防失衡":攻击变得极其强大,传统防护形同虚设,"AI+"赛道竞速攻击方天然占优;为此提出打造低、中、高"三位一体"协同联动的安全体系:低位是全栈AI化的安全产品,中位是智能体运营指挥中心,高位是大模型底座与威胁情报;并指出智能体引爆数据安全需求,AI应用引爆全栈安全需求,到2030年中国网络安全面临千亿级增量空间。
来源:https://www.sohu.com/a/1031193368_211762Netskope推出AgentSkope智能体框架,自动化安全运营流程
Netskope推出AI智能体框架"AgentSkope",包含六款智能体,其中五款已全面上线,旨在自动化安全运营工作流,解决约40%安全告警未被处理的问题;平台针对SOC/NOC场景,通过智能体自动分诊、调查与响应,提升运营效率。
来源:https://www.nextfin.ai/en/news/anthropic-zero-trust-security-autonomous-ai-agents-cef5eca958思科发布Cloud Control智能体运营平台
包含Agent Builder与App Builder,内置可观测性与安全管控能力,同步推出面向网络的"感知-诊断-修复-验证-部署"五步闭环智能体行动功能。
来源:https://new.qq.com/r/a/20260603A001YP00Check Point推出智能体暴露验证功能
新功能以攻击者视角,利用AI模型自主推理并验证真实环境中可被利用的漏洞,帮助安全团队在黑客之前抢先发现并修补高危缺陷。
来源:https://caifuhao.eastmoney.com/news/20260602120429896623770AI安全标准
全国网安标委发布《生成式人工智能数据标注安全规范》国标征求意见稿
全国网络安全标准化技术委员会(TC260)正式发布《网络安全技术 生成式人工智能数据标注安全规范》国家标准征求意见稿,公开征求意见至2026年7月27日。规范对数据标注的前期准备、人员管理、质量控制及隐私保护提出系统性安全要求。
来源:https://www.tc260.org.cn/front/postDetail.html?id=20260528164500AI安全论文
ArXiv AI安全论文速递:渐进式越狱攻击成功率高达95%
单日收录35篇前沿论文。亮点包括:提出基于记忆注入的渐进式越狱攻击Persona Attack(成功率高达95%);揭示LLM安全对齐存在非单调性(新模型不一定比旧模型更安全)。
来源:http://mp.weixin.qq.com/s?src=11×tamp=1780442025&ver=6759&signature=5f7PmzfBOn8gx4iCOLUDSjnGDmNb-2tGyGTN7zNIcv6fqBanB0Mbh1yJrHQgF0rfGwTfiLzvok7BX0q0ECzXk3CsF0ct9knf3bNYnqRK3p7ffKWiTCHH3c*ZbgX3l7h4&new=1多片段视频越狱攻击:视频上下文越多样,攻击成功率越高
成均馆大学提出MCV SafetyBench数据集,发现多模态大模型在处理多片段视频输入时比静态图像更易受攻击,视频上下文越多样,攻击成功率越高,并给出了帧级过滤防御策略。
来源:http://mp.weixin.qq.com/s?src=11×tamp=1780442025&ver=6759&signature=aZ5jq*TgCjArsZ6JQtmHWcTtc9bKVzCIrZoH5VO94Gsq-6d8Qu2o9IRuuP06fU9L1Lp9CTm7YAll0PoJYCDKu6LZazX3RI3yjNyEREtzN2NJQVmGiQRdEvq4hoCQmRQ8&new=1AI安全法律与治理
白宫发布《促进先进人工智能创新与安全》行政令
美国白宫发布《促进先进人工智能创新与安全》行政令,在不设立强制许可或预审制度的前提下,通过与私营部门自愿合作提升AI与网络安全能力;命令要求国家安全系统、战争部、国土安全部及CISA在30天内优先加固联邦及关键基础设施的信息系统,并推动AI驱动的漏洞检测工具和相关联邦资助;财政部将牵头成立AI网络安全"清算所",协调软件漏洞扫描与修补;同时会同NSA、CISA等制定"前沿模型"安全评估与自愿访问框架,允许政府在模型对外发布前短期接入以支持关键基础设施防御。
来源:https://new.qq.com/r/a/20260603A01FWW00四部门启动"剑网2026"严打AI侵权
国家版权局等联合启动专项行动,重点查处未经授权对作品实施"魔改"、"洗稿"、深度伪造、规避监测等侵权行为,从源头遏制非法语料注入,铲除背后黑灰产链条。
来源:https://new.qq.com/r/a/20260603A01FU300
夜雨聆风