聚焦AI可信技术突破!北电数智联合复旦大学等团队提出“自动辩证越狱框架”入选ICLR 2026-夜雨聆风

聚焦AI可信技术突破!北电数智联合复旦大学等团队提出“自动辩证越狱框架”入选ICLR 2026

近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学、美国奥本大学等团队在AI安全领域取得重要突破，提出了全新的“自动辩证越狱框架”（Automatic Dialectic Jailbreak，简称“ADJ”），首次将“黑格尔辩证法”与“多目标博弈理论”引入大模型安全研究，在关键性能上显著超过现有主流方法，为攻克大模型安全攻防难题、构建全栈可信AI体系提供了全新视角与技术路径。目前，相关论文已入选2026国际学习表征会议（ICLR 2026）。

ICLR由国际机器学习学会（IMLS）主办，与NeurIPS、ICML并称为机器学习和人工智能领域三大顶级国际会议。ICLR 2026于4月23日至27日在巴西里约热内卢举行，本届会议共收到有效投稿19525篇，其中5355篇论文被录用，整体录用率仅27.4%。入选论文代表相关研究成果得到了国际学术界的高度认可。

北电数智首席科学家窦德景教授

在ICLR 2026现场介绍“自动辩证越狱框架”

以“攻”促“防”

为大模型装上“金钟罩”

随着大模型与AI智能体加速向产业场景渗透，越狱攻击（Jailbreak）等对抗性攻击手段正在成为AI发展中不容忽视的全新安全挑战。攻击者通过精心构造提示词，可以绕过模型的安全对齐机制等保护措施，诱导模型输出违规、有害、不安全的内容，直接威胁AI技术的应用安全。

研究具备强对抗性的越狱攻击方法，对系统性评测大模型防御能力、构建严密可靠的防御体系具有重要意义。然而，目前行业主流的越狱攻击方法普遍存在多种局限，如适应性不足，高度依赖固定的评估模型，难以应对多样化的防御机制；又如策略多样性不足，大多依赖固定的人工模板或单一策略。防御方因此缺乏理论严谨、覆盖全场景、具备高度自动化攻击能力的红队测试工具，无法提前暴露大模型的安全脆弱性。

针对行业难题，研究团队首次将“黑格尔辩证法”与“多目标博弈理论”引入大模型安全研究，提出自动辩证越狱框架ADJ，将越狱攻击过程建模为两个大模型之间的“正题-反题-合题”辩证式博弈循环，让攻击模型与防御模型开展持续的博弈优化：攻击模型提出越狱策略；防御模型识别漏洞并提出防御方案；攻击模型再基于防御反馈优化生成更鲁棒、更隐蔽的越狱策略。团队通过严格的数学推导，证明了该博弈过程最终可收敛至“帕累托-纳什均衡”，为AI系统的极限安全压力测试提供了严谨的理论支撑。

实验结果显示，ADJ框架在攻击成功率（ASR）与有害内容生成率（HS）两大核心指标上，显著超越了GCG、AutoDAN、PAIR、TAP等主流方法，在困惑度防御、RAIN防御、重分词防御等主流防护机制下仍保持极高成功率，成为当前业界性能最强、适配性最广的自动化红队测试框架之一。

打造AI安全防御“磨刀石”

驱动行业可信发展

秉承“用最强攻击发现最弱环节、用最高风险倒逼最强防御”的理念，ADJ框架通过模拟动态、高强度的攻防对抗环境，旨在打造AI安全防御的“磨刀石”，为开发人员提前暴露AI系统安全漏洞，构建更鲁棒的AI安全防御体系，进而实现AI智能体在真实生产环境中的可信、可控、合规落地，提供了全新的技术抓手。

北电数智始终聚焦AI技术在服务实体经济过程中所面临的关键瓶颈与真实痛点，构建起“全栈赋能、以用为纲”的创新产研体系，同时结合“数算模用”系统化工程能力以及丰富的产业深耕经验，可将前沿创新成果快速转化为面向实际生产场景的应用能力，赋能行业发展。

目前，ADJ的前沿洞见与相关技术理念，已全面融入北电数智的全栈AI能力体系，由此可为客户提供能够抵御已知攻击、动态适应未知威胁的可信AI产品与服务，满足金融、政务、工业、医疗等高敏感场景的安全需求。

可信安全是人工智能产业健康可持续发展的基石。北电数智持续深化全栈技术布局，以可信数据为根基、以全栈工程化能力为支撑、以垂直深耕和区域落地为路径，打造从底层算力到行业智能的完整AI产品与服务能力体系，实现“可信安全、技术赋能、场景深耕”的差异化高质量发展。

汇聚产业真知，共赴AI未来，扫描下方二维码，了解酒仙桥论坛详情，下载《中国城市人工智能指数报告》，抓住智能经济时代机遇，共探AI产业发展新路径。