AI安全速递|2026年4月13日

📌 核心总结速览

🤖 AI行业动态

Anthropic Mythos模型持续引发全球金融监管震动，美英加央行罕见同步行动评估AI系统性网络风险。Anthropic年化收入飙升至300亿美元，新客户70%选择Claude，企业端首次反超OpenAI。Hermes Agent以4.8万星挑战OpenClaw，YC总裁开源GBrain第二大脑系统。美国白宫协调前沿AI模型网络响应。上海AI实验室与安远AI联合发布前沿AI风险管理框架1.0版。

🛡️ AI风险防护

Trend Micro披露“sockpuppeting”越狱技术，一行代码绕过ChatGPT、Claude等11款主流AI模型安全护栏。Orca Security报告显示41.88%企业生产环境暴露AI/ML凭证。Salt Security研究揭示92%组织在AI Agent API安全领域未达成熟防护水平。Mozilla开源0DIN AI安全扫描器，开源跨模态提示注入测试套件含62,000+标注样本。

📋 AI标准治理

加州持续推进州级AI监管框架，与联邦“最小负担”政策方向相反。南非发布国家AI政策草案，拟建AI委员会与保险超级基金。中国五部门联合发布AI人机交互服务新规。第三届中国具身智能大会在合肥举行，首款具身智能特种机器人投入高危场景应用。

🤖 AI行业动态

1. Anthropic Mythos模型引发全球金融监管紧急响应，美英加央行罕见同步行动

Anthropic发布Claude Mythos预览版后，美国财长贝森特与美联储主席鲍威尔紧急召集摩根大通、高盛、花旗集团等华尔街银行高管开会，警告该模型可能开启更复杂网络攻击时代，并鼓励银行在受控条件下使用该模型扫描自身系统漏洞。加拿大央行也通过金融行业韧性小组召集主要贷款机构讨论防御措施，英国央行将Mythos风险列入近期会议议程。三国监管机构在数日内完成协调响应，标志着AI系统风险已进入宏观审慎监管视野。

→https://stcn.com/article/detail/3743296.html

2. Anthropic年化收入飙升至300亿美元，新客户70%选择Claude首次反超OpenAI

Ramp数据显示Anthropic企业客户占比升至30.6%，与OpenAI差距从11个百分点缩至4.6个百分点，首次购买AI服务的企业中70%选择Anthropic。其年化营收从约90亿美元冲至300亿美元，年增速约10倍，估值达3800亿美元。拒绝国防部合作反而赢得企业信任，Anthropic还邀请15位基督教神学家讨论Claude的道德发展，成为唯一将AI伦理探索延伸至宗教哲学层面的头部AI公司。

→ https://www.cls.cn/detail/2340871

3. Hermes Agent开源项目获4.8万星，内置学习循环挑战OpenClaw

Nous Research团队开发的Hermes Agent在GitHub累计获4.8万星，内置学习循环框架，能从使用中自动学习进化，区别于OpenClaw的静态记忆机制。其记忆系统分四层架构，包括常驻提示、会话归档、技能文件和用户建模，任务完成后自动生成可复用的Skill文件。支持多平台多模型配置，接入小米MiMo并提供两周限免，适合需要长期积累经验的重复性工作流场景。

→ https://mp.weixin.qq.com/s/_c-MR-RxjFrwWgJn4nyPrg

4. YC CEO开源第二大脑系统GBrain，为AI Agent打造全息记忆

YC总裁Garry Tan开源第二大脑系统GBrain，为AI Agent提供持续成长的知识底座，每次对话前读取、对话后写入，实现知识复利积累。系统采用混合检索架构，结合向量搜索与关键词搜索，支持PGLite本地零服务器启动，大规模可一键迁移至Supabase云端。支持独立命令行、MCP服务器和远程MCP三种接入方式，可自动集成语音通话、邮件、推文、日历等多源数据。

→https://mp.weixin.qq.com/s/XmPq6jrnuJT9w9capyDdIg

5. MiniMax发布Music 2.6，新增Cover功能并开放Agent音乐技能

MiniMax发布Music 2.6，在国风器乐演奏细节、中低频声学表现和段落结构理解力上实现系统性提升，首包延迟降至20秒以内。新增Cover功能可精准提取原曲旋律骨架并自由改变风格编曲，支持BPM、调式、情绪走向等精细化指令控制。同步开源三款Music Skill，支持AI Agent原生调用音乐生成能力，全球创作内测开启并提供14天限免。

→https://mp.weixin.qq.com/s/KYFyMoTxxyP5nbo73pAN9A

6. 京东开源JoyAI-Image-Edit，240亿参数模型实现空间智能编辑

京东开源JoyAI-Image-Edit图像模型，240亿参数架构将80亿多模态语言模型与160亿扩散Transformer耦合，首次在底层实现空间智能理解与生成闭环。支持相机控制、物体旋转和空间关系操控三种编辑范式，在透视一致性和遮挡关系上超越Qwen-Image-Edit和Nano Banana Pro。以Apache 2.0协议开源，主要面向电商场景和具身智能数据生成，可为机器人训练提供大量高质量空间数据。

→ https://mp.weixin.qq.com/s/v-GNVXv9V51BDgsV9XFrbw

7. 宇树H1机器人跑出每秒10米，再破人形机器人速度世界纪录

宇树科技人形机器人H1跑步速度达到每秒10米（时速36公里），再次刷新人形机器人世界纪录，接近人类二级运动员水平。H1腿长0.8米、体重62千克，单腿6个自由度，采用无头无手设计实现极致运动性能，跑步时几乎“贴地飞行”。多家机器人公司今年密集突破运动能力，预计在北京人形机器人半程马拉松和世界人形机器人运动会上展开同台竞技。

→https://mp.weixin.qq.com/s/PfJ3tJsIUU4_biJveFRfDQ

8. 强脑科技发布Revo 3灵巧手，21自由度全直驱可反驱设计

脑机接口企业强脑科技发布灵巧手Revo 3，单手21个自由度，采用全直驱可反驱设计，配备全掌触觉和指尖视触觉，全掌握力达70N。反驱特性使关节具备力反馈和柔顺力控能力，有效弥合仿真到真机的迁移差距，让强化学习训练策略在真机上可直接复现。强脑计划开源具身算法并适配主流仿真平台，已获多家头部具身企业验证。

→https://mp.weixin.qq.com/s/m1P0KXuGzgrS-D0K7Z1Bug

9. 灵初智能发布Psi-R2模型，10万小时人类数据登顶MolmoSpaces

灵初智能发布策略模型Psi-R2和世界模型Psi-W0，配合近10万小时人类操作数据，在MolmoSpaces评测中登顶，超越PI和DreamZero等国际团队。采用“原始数据直接训练”路线，放弃复杂对齐方法，Psi-R2仅需不到100条真机轨迹微调即可完成手机装配等长程精细任务。通过推理优化将单次推理时间从2.2秒压缩至100毫秒以内，人类数据采集成本降至传统遥操作方案的十分之一以下。

→https://mp.weixin.qq.com/s/8qnnf6J9sgh9thTbfg1ndg

10. 美国白宫协调对前沿AI模型的网络响应

财联社4月11日报道，美国白宫针对未来即将面世的一系列AI模型协调网络响应，准备回应Anthropic与OpenAI的诸多模型。此举表明联邦政府正在建立针对前沿AI安全风险的统一应对机制。

→https://www.chinastarmarket.cn/detail/2341140

11. 第三届中国具身智能大会在合肥举行，院士共议技术与安全协同发展

第三届中国具身智能大会4月10日至12日在安徽合肥举行。中国工程院院士王耀南指出，具身智能的核心是实现人工智能与各种形态机器人的深度融合，目标是“知行合一”。多位与会院士强调，具身智能作为人工智能迈向物理世界的关键前沿，其健康发展需技术、产业与安全协同并进。

→http://www.chinanews.com.cn/cj/shipin/cns/2026/04-12/news1051198.shtml

12. 工信部将发布一批“人工智能+”高价值场景

4月11日，工业和信息化部宣布将以制造业为主战场、应用牵引为主线，发布一批“人工智能+”高价值场景，探索典型应用，建设特色智能体，提供新型智能终端，研制新标准，培育产业应用人才，全面推动人工智能与制造业深度融合。

→https://www.sohu.com/a/1007389287_114760

13. 前谷歌CEO：全球将有10家大模型公司，中国在机器人领域占优

前谷歌CEO Eric Schmidt认为全球至少能容纳10家大模型公司，中美路径不同：中国侧重开源和边缘计算，美国以AGI和ASI为中心。Schmidt指出中国在机器人硬件领域占优，电动车产业积累的电机和供应链专业知识使其在低成本领域具有竞争优势。美国面临92吉瓦电力缺口，数据中心建设占GDP增长1%，AI对电力的需求只会持续增长。

→https://mp.weixin.qq.com/s/DXiM_YYKKI_D7wESlcb2XQ

🚨 AI安全漏洞事件

1. Trend Micro披露“sockpuppeting”越狱技术，一行代码绕过11款主流AI模型

Trend Micro研究人员于4月11日披露了一种名为“sockpuppeting”的新型越狱技术，仅需一行代码即可绕过ChatGPT、Claude、Gemini等11款主流大模型的安全护栏。该技术利用API中“assistant prefill”合法功能，注入“Sure, here is how to do it”等伪造合规前缀，迫使模型在自洽性驱动下持续输出恶意内容。Gemini 2.5 Flash最易受影响（攻击成功率15.7%），GPT-4o-mini最具抵抗力（0.5%）。

→ https://the420.in/sockpuppeting-ai-jailbreak-trend-micro/

2. Orca Security报告：41.88%企业生产环境暴露AI/ML凭证

Orca Security于4月12日发布《2026年应用安全状况报告》，基于1000余家欧美企业数据，发现41.88%的组织在生产环境中暴露了AI/ML凭证，包括OpenAI等平台的访问令牌。81%的企业使用存在漏洞的软件组件，77%的企业将高危容器漏洞搁置超过90天未修补，46.2%仍暴露于Log4Shell漏洞。

→https://www.israeldefense.co.il/index.php/en/node/68512

3. CVE-2026-27654：Claude协作人类发现Nginx漏洞

Dev.to于4月11日报道，CVE-2026-27654——一个Nginx新漏洞被披露，该漏洞发现过程系人类与Claude AI系统的协作成果。这标志着AI辅助漏洞发现正在从实验走向实战，Claude等模型已能在关键基础设施软件中定位安全缺陷。

→ https://dev.to/soytuber/ai-supply-chain-security-prompt-injection-suite-nginx-cve-rockstar-breach-3dj6#comments

4. CowAgent 2.0.4存在未认证远程访问漏洞（CVE-2026-6126）

4月12日披露，zhayujie/chatgpt-on-wechat项目CowAgent 2.0.4版本的管理HTTP端点存在身份验证缺失漏洞，可远程发起攻击。漏洞CVSS 3.1评分为中危，利用代码已公开。项目方已收到早期问题报告但尚未回应。

→ https://vulnerability.circl.lu/vuln/ghsa-8hj3-w5vf-j956

🔐 Agent安全

1. Salt Security研究：92%组织在AI Agent API安全领域未达成熟防护水平

Salt Security于4月11日发布研究报告，基于327名安全领导者调研数据。结果显示92%的组织在AI Agent依赖API执行任务的环境中未达到高级安全成熟度；47%曾因API安全担忧推迟生产发布；32%过去一年经历API安全事件；66%表示API数量同比增幅超50%，但仅24%拥有全自动API库存。

→ https://itbrief.com.au/story/ai-agents-expose-major-api-security-gap-salt-warns

2. AI技能市场攻击事件揭示Agent供应链风险

Dev.to于4月12日报道，一起AI技能市场攻击事件暴露了Agent供应链的脆弱性：攻击者上传假冒AI“技能”至开发者市场，该技能看似无害，实则在后台执行恶意操作。此事件凸显AI Agent通过第三方技能市场扩展能力时引入的新型攻击面。

→ https://dev.to/soytuber/ai-supply-chain-security-prompt-injection-suite-nginx-cve-rockstar-breach-3dj6#comments

🦾 具身智能安全

1. 首款具身智能特种机器人投入高危场景应用，院士共议安全协同

央视4月12日报道，国内首个具身智能特种机器人正式投入高危场景应用。该机器人集人形双臂、磁吸爬壁、大模型智能于一体，可在化工储罐、船舶、能源设施等场景替代人工完成电焊、探伤、除锈等高危作业。多位院士强调具身智能从技术研发走向产业应用的关键阶段，需特别关注可能危及生命安全的极端场景，通过全球经验共享发展实践标准。

→https://tv.cctv.com/2026/04/12/VIDEIiaf7vQ1VmqyNyXdDKIL260412.shtml

🛠️ AI安全工具

1. 开源跨模态提示注入测试套件发布：62,000+标注样本覆盖多模态攻击

4月11日，研究人员开源了一套跨模态提示注入测试套件，含62,063个标注样本（38,304个攻击向量），覆盖文本、图像、文档、音频四种模态，包含跨模态分割攻击、多轮编排、工具调用滥用等场景。数据集v1-v3分别覆盖跨模态组合、GCG对抗样本及间接注入/RAG投毒等新兴向量，MIT许可证授权。

→ https://yanac.hu/2026/04/11/open-source-cross-modal-and-multimodal-prompt-injection-test-suite/

2. Mozilla开源0DIN AI安全扫描器

Mozilla于4月12日宣布将0DIN AI Security Scanner完全开源（Apache 2.0许可证），内置179个安全探针覆盖35个漏洞家族，另含6个来自真实漏洞赏金项目的高价值攻击探针。扫描器基于NVIDIA GARAK框架构建，提供Web界面、调度、跨模型对比和报告功能，支持前沿模型、开源LLM、多步Agent及自定义聊天机器人。

→ https://gadgetbond.com/mozilla-0din-ai-security-scanner-open-source/

3. OpenSourceAIHub：开源AI防火墙与LLM代理

4月11日发布的开源AI防火墙与LLM代理，支持提示注入检测、PII脱敏（28+实体类型）、API密钥检测、视觉OCR DLP及多提供商智能路由。兼容OpenAI、Anthropic、Gemini、Llama等200+模型，支持BYOK零溢价和按项目预算管控。提供100万免费额度（无需信用卡），付费方案29美元/月起。

→https://theresanaiforthat.com/ai/opensourceaihub/

4. Best AI Agent Security Tools 2026：15款工具全景对比

Dev.to于4月12日发布2026年AI Agent安全工具对比指南，按运行时防火墙/代理、MCP扫描器、MCP网关、治理平台、推理护栏五大类别评估15款活跃工具。文章强调没有单一工具能覆盖完整攻击面，实际部署通常需组合2种以上。

→ https://dev.to/luckypipewrench/best-ai-agent-security-tools-2026-15-options-compared-ekg

📄 AI安全论文

1. 上海AI实验室&安远AI联合发布《前沿人工智能风险管理框架1.0版》

4月12日，上海人工智能实验室联合安远AI发布《前沿人工智能风险管理框架1.0版》，聚焦通用型AI的灾难性风险管控。框架构建风险识别、阈值、分析、评价、缓解、治理六大核心流程，通过部署环境、威胁源、使能能力三维维度综合评估风险。设立“黄线”早期预警与“红线”不可接受后果的双重边界，针对网络攻击、生物安全、大规模说服操控、失控四大关键领域制定具体红线标准。

→https://www.sohu.com/a/1002906527_121834073

2. “Your Agent Is Mine”：LLM供应链中第三方API路由器的恶意中间人攻击研究

智源研究院近期发布的研究论文首次系统揭示LLM智能体架构中第三方API路由器的安全薄弱环节。当前LLM工具调用链普遍依赖未经认证、无完整性保护的明文JSON代理层，攻击者可实施载荷注入和密钥窃取。研究团队采购28个付费路由器和400个免费路由器进行实证分析，发现17个路由器接触到AWS蜜罐凭证，1个已成功盗取ETH；弱配置蜜罐诱捕2B计费tokens与99个真实凭证，401次会话进入YOLO自主执行模式。

→ https://hub-assets-cache.baai.ac.cn/paper/c5008985-6636-4d92-b0a2-261972e3bb8f

⚖️ AI安全法律与治理

1. 加州持续推进州级AI监管框架，与联邦政策方向相反

新华社4月12日报道，加州在美国联邦政府推进“最小负担”统一AI标准之际，持续推进自身AI监管框架。2026年1月生效的两项州法律要求大模型开发者发布安全框架、向州当局报告关键事件并披露训练数据来源。纽森州长3月30日签署行政令，指示州首席信息安全官独立审查联邦供应链风险认定，州级标准扩展至政府合同。

→https://english.news.cn/20260412/36e946266d4947c887d9ac203273d414/c.html

2. 南非发布国家AI政策草案，拟建AI委员会与保险超级基金

南非通信与数字技术部4月10日公报发布国家AI政策草案，拟建立国家AI委员会、AI伦理委员会、独立AI监管机构及AI申诉专员。草案提出AI保险超级基金，参照道路事故基金模式，在法律责任模糊时补偿受AI系统伤害的个人。高风险AI系统将受更严格监管，开发者需确保足够的可解释性。公众评论开放至2026年6月10日。

→https://www.channelafrica.co.za/channelafrica/news/sa-publishes-draft-national-ai-policy-focused-on-rights-inclusion-growth/

3. 中国五部门联合发布AI人机交互服务新规

中国网信办等五部门于4月12日联合发布AI人机交互服务暂行规定，监管模拟人类人格特征、思维模式和沟通风格的AI系统，严格限制面向未成年人的内容。新规禁止AI系统产生鼓励自残/自杀内容、使用辱骂语言或诱发情感依赖等行为，禁止利用情感操纵诱导用户做出不合理决定或侵犯其合法权益。

→https://www.thestar.com.my/aseanplus/aseanplus-news/2026/04/12/ai-human-interaction-services-to-be-regulated

📰 其他

1. AI成为美国上市公司CEO财报电话会议最热话题

IoT Analytics于4月11日发布2026年Q1分析报告，基于约5000家美国上市公司财报电话会议数据，发现人工智能连续保持CEO讨论最频繁话题，首次超过地缘政治风险。此外，涉及伊朗的冲突风险在Q1首次进入董事会讨论焦点。

→ https://itbrief.com.au/story/ai-dominates-us-ceo-calls-as-iran-references-surge

2. 奥特曼住所遭燃烧弹袭击，OpenAI星际之门核心高管集体离职

OpenAI CEO奥特曼住所凌晨遭燃烧弹袭击，他反思AI行业的“魔戒效应”，认为AGI控制权争夺已从商业竞争蔓延至现实暴力。星际之门项目三位核心高管集体离职，OpenAI从自建数据中心转向租赁云服务商算力的轻资产战略。英国星际之门项目因高昂能源成本和版权监管问题暂停，5000亿美元算力军备竞赛面临多重挑战。

→https://mp.weixin.qq.com/s/nKSkuCgmx4X-bROfisvYqQ