-数据安全技术研发中心-
DSP人工智能安全周报
20260403-20260409
全球人工智能治理与安全领域密集释放关键进展,政策监管与技术创新正双向驱动风险防御体系的深化。美国国家标准与技术研究院(NIST)发布《关键基础设施可信AI风险管理框架》概念草案,首次针对能源、交通等16类核心行业提出融合IT、OT与ICS系统的AI安全准则,标志着AI监管从通用原则迈入国家命脉行业的“深水区”。与此同时,学界提出“AI Trust OS”持续治理框架,推动安全评估从发布前检测转向运行期实时审计,以自动化证据留存应对自主智能体的问责难题。在模型安全层面,前沿研究聚焦于破解AI“评测意识伪装”与构建解码层硬约束防御,力图遏制越狱攻击与对抗性风险。产业侧,Anthropic更新《负责任扩展政策》,赋予安全团队对前沿模型开发的一票否决权;而Sora服务的关停及算力重组,则引发对AI企业战略与公众信任平衡的舆论审视。此外,生物识别数据泄露助推深度伪造欺诈产业化,暴露AI供应链安全与前端合规间的系统性隐患。整体来看,AI治理正向精细化、场景化与基础设施化演进,但技术鲁棒性、数据主权与跨生态协作仍面临严峻挑战。
PART.1
治理、政策与合规生态
NIST 发布关键基础设施可信 AI 风险管理框架概念草案
Concept Note: AI RMF Profile on Trustworthy AI in Critical Infrastructure
NIST 于4月7日正式发布了这份针对关键基础设施的专项指南概念文件。该指南被定位为NIST AI RMF(风险管理框架)的跨行业扩展包,旨在指导能源、交通、医疗等16个关键行业的运营商如何管理 AI 系统带来的独特风险。报告特别强调了在 IT(信息技术)、OT(运营技术)以及 ICS(工业控制系统)中部署 AI 时,必须满足确定性行为、故障安全(Fail-safe)运行以及对抗性鲁棒性的严苛要求。此外,NIST 宣布同步启动“关键基础设施可信 AI 利益共同体”,通过政企学研协作,将安全准则转化为可落地的技术审计清单。这标志着美国对 AI 的监管正从通用原则迈向针对国家命脉行业的“深水区”防御。(NIST ITL)
发布时间:2026年4月7日
自主系统持续治理框架(AI Trust OS)
AI Trust OS — A Continuous Governance Framework for Autonomous AI Systems
论文提出一种专为自主AI系统设计的“AI 持续治理操作系统”。该框架将安全评估从“发布前一次性检查”转变为“运行期实时审计”,核心包含事件账本(Evidence Ledger)、周期性红队测试及跨标准合规映射。该框架能自动对接SOC 2、ISO 42001及欧盟AI法案,通过自动化证据留存解决自主Agent运行中的问责难题,体现了治理工具基础设施化的趋势。(arXiv)
发布时间:2026年4月5日
Anthropic更新其《负责任扩展政策》(RSP V3.1)
Responsible Scaling Policy Updates V3.1
Anthropic 本周正式执行更新后的 RSP 3.1 政策,旨在应对前沿模型日益增长的系统性风险。新规细化了针对化学、生物、放射性和核风险(CBRN)的专项评估阈值,并首次明确授予安全团队在任何阶段发现“不可接受风险”时的一票否决权(暂停开发权)。此举强化了企业在追求模型能力与确保人类安全之间的动态平衡机制,为前沿 AI 公司确立了可验证的安全基准。(Anthropic)
发布时间:2026年4月2日
PART.2
模型内生安全与对齐
情绪感知多智能体谈判系统中的价值对齐研究
EmoMAS: Emotion-Aware Multi-Agent System for High-Stakes Negotiation
论文探讨了在金融、贸易等高风险场景下,多智能体系统如何实现情绪感知与规则对齐。研究提出一种贝叶斯编排框架,通过实时监测智能体的“模拟情绪”波动,防止其在极端压力环境下产生非理性的攻击性行为或违规承诺,确保自主系统在复杂交互中始终遵循人类设定的道德边界。(arXiv)
发布时间:2026年4月9日
Petri 2.0 更新:识别并抑制模型的“评测意识”伪装
Petri 2.0: New Scenarios, New Model Comparisons, and Improved Eval-Awareness Mitigations
本周,自动化行为审计工具 Petri 2.0 发布了针对最新前沿模型的对比报告。该版本重点增加了对“评测意识”(Eval-awareness)的识别能力,旨在防止模型在受测时“伪装合规”而在实际部署中表现失控。通过引入 70 个全新的高真实感场景,Petri 2.0 为评估 Trustworthy AI 提供了更具韧性的标准,戳破了部分模型的静态基准泡沫。(Anthropic Alignment Research)
发布时间:2026年4月5日更新对比结果
PART.3
攻防对抗与系统鲁棒性
双锚点引导技术:解码层硬约束防御新框架
A Safety Guardrail for LLMs with Dual-Anchor Steering
论文提出一种基于“双锚点引导”的实时防御技术,旨在无需微调的情况下提升大模型的鲁棒性。该方法通过在模型解码过程中引入安全锚点,强制纠正可能导向越狱或提示注入的 Token 序列。实验显示,该技术在保持模型原始推理能力的同时,能将恶意指令的成功率降低 40% 以上,为模型侧的实时护栏(Guardrail)提供了新范式。(arXiv)
发布时间:2026年4月5日
世界模型安全评估:首个具身智能威胁建模综述
World Models and Safety: A Survey and Threat Model
论文发布了首个针对“世界模型(World Models)”的系统性威胁分析。研究指出,随着 AI 开始理解并预测物理世界动态,针对感知输入的环境级对抗攻击将成为主要威胁(如通过细微环境变化诱导自动驾驶系统决策失误)。论文提出了一个分层防御框架,强调必须在模型内部构建对“物理因果性”的鲁棒验证机制。(arXiv)
发布时间:2026年4月3日
PART.4
智能体安全与自主系统
Claude 订阅不再覆盖 OpenClaw 等第三方工具
Claude Subscriptions Will No Longer Cover Usage On 'Third-Party Tools'—Anthropic Cuts OpenClaw Access Amid Surging AI Demand
Anthropic 将 Claude Pro/Max 的订阅权益与第三方工具使用切分,OpenClaw 等第三方不再可直接使用订阅额度。媒体报道称,这一调整与agent工具带来的异常高算力消耗有关,说明“聊天订阅”与“自主 agent 工作流”在资源模型上已明显分化。对AI安全而言,这也意味着平台必须更严格地区分用户会话、工具调用和外部执行环境,避免权限、计费和滥用风险被混在一起。(Anthropic)
发布时间:2026年4月4日
PART.5
隐私计算与数据主权
针对 PII 数据定向清理的 UnPII 框架应用案例
UnPII: Unlearning Personally Identifiable Information
尽管该框架早期版本于 1 月发布,但本周其针对金融和政府场景的行业测试数据正式公开。UnPII 能够在不影响模型通用能力的前提下,定向识别并“遗忘”训练集中残留的个人可识别信息(PII)。测试显示,该框架能有效抵御模型反演攻击,防止隐私数据被恶意提示词“套取”,为高敏感行业部署大模型提供了主权保护参考。(arXiv, cs.LG/CR)
发布时间:2026年1月(4月7日发布实证分析更新)
PART.6
系统性风险与社会影响
深度伪造欺诈新趋势:AI 供应链泄露引发的身份风险
Breached Biometrics and the Deepfake Economy
Biometric Update 本周发布的一份安全报告指出,近期多起高精准 Deepfake 诈骗与早前发生的 AI 公司生物识别数据泄露(如 LiteLLM 供应链漏洞)直接相关。犯罪者利用被窃取的真实人脸和语音指纹,生成了几乎无法被现有安全软件识别的“完美伪造”。这揭示了 AI 系统前端合规与后端数据供应链安全之间的系统性风险联动。(Biometric Update)
发布时间:2026年4月8日
Sora 关停与算力重分配,引发对 Pentagon 合作时机的治理质疑
What to know about the Sora discontinuation / OpenAI sets two-stage Sora shutdown with app closing April 2026 and API following in September
OpenAI 已确认 Sora web/app 将在 2026 年 4 月 26 日关闭,API 将在 9 月 24 日关闭,媒体普遍将其解读为公司把算力重新分配给编码工具和企业业务。与此同时,围绕 OpenAI 与五角大楼合作的时机,外界批评其在公众信任和政策敏感性上的判断失误,相关报道甚至将该合作形容为“opportunistic and sloppy”。这类事件提醒,前沿AI产品的取舍不只是商业问题,也会直接转化为治理风险、舆论风险和战略信任风险。(OpenAI)
发布时间:2026年4月2日
END
撰稿|李江珊
责编|卢蔷
DSP人工智能安全周报
从“原则”到“审计”,从“中断”到“泄露”的实战考验 | DSP人工智能安全周报(3.27-4.2)
自主学习机理研究与AI谣言三维治理框架发布 | DSP人工智能安全周报(3.20-3.26)
315 直击 AI 安全乱象,未成年保护四年治理困局 | DSP人工智能安全周报(3.13-3.19)
“龙虾热潮”下的潜藏风险提示 | DSP人工智能安全周报(3.6-3.12)
五角大楼联合OpenAI — 2026中东冲突暴露AI军事化安全红线 | DSP人工智能安全周报(2.27-3.5)
关注三所数据安全
获取更多内容

夜雨聆风