聚焦AI可信技术突破!北电数智联合复旦大学等团队提出“自动辩证越狱框架”入选ICLR 2026
近日,由北电数智首席科学家窦德景教授牵头,联合复旦大学、美国奥本大学等团队在AI安全领域取得重要突破,提出了全新的“自动辩证越狱框架”(Automatic Dialectic Jailbreak,简称“ADJ”),首次将“黑格尔辩证法”与“多目标博弈理论”引入大模型安全研究,在关键性能上显著超过现有主流方法,为攻克大模型安全攻防难题、构建全栈可信AI体系提供了全新视角与技术路径。目前,相关论文已入选2026国际学习表征会议(ICLR 2026)。
ICLR由国际机器学习学会(IMLS)主办,与NeurIPS、ICML并称为机器学习和人工智能领域三大顶级国际会议。ICLR 2026于4月23日至27日在巴西里约热内卢举行,本届会议共收到有效投稿19525篇,其中5355篇论文被录用,整体录用率仅27.4%。入选论文代表相关研究成果得到了国际学术界的高度认可。
北电数智首席科学家窦德景教授
在ICLR 2026现场介绍“自动辩证越狱框架”
随着大模型与AI智能体加速向产业场景渗透,越狱攻击(Jailbreak)等对抗性攻击手段正在成为AI发展中不容忽视的全新安全挑战。攻击者通过精心构造提示词,可以绕过模型的安全对齐机制等保护措施,诱导模型输出违规、有害、不安全的内容,直接威胁AI技术的应用安全。
研究具备强对抗性的越狱攻击方法,对系统性评测大模型防御能力、构建严密可靠的防御体系具有重要意义。然而,目前行业主流的越狱攻击方法普遍存在多种局限,如适应性不足,高度依赖固定的评估模型,难以应对多样化的防御机制;又如策略多样性不足,大多依赖固定的人工模板或单一策略。防御方因此缺乏理论严谨、覆盖全场景、具备高度自动化攻击能力的红队测试工具,无法提前暴露大模型的安全脆弱性。
针对行业难题,研究团队首次将“黑格尔辩证法”与“多目标博弈理论”引入大模型安全研究,提出自动辩证越狱框架ADJ,将越狱攻击过程建模为两个大模型之间的“正题-反题-合题”辩证式博弈循环,让攻击模型与防御模型开展持续的博弈优化:攻击模型提出越狱策略;防御模型识别漏洞并提出防御方案;攻击模型再基于防御反馈优化生成更鲁棒、更隐蔽的越狱策略。团队通过严格的数学推导,证明了该博弈过程最终可收敛至“帕累托-纳什均衡”,为AI系统的极限安全压力测试提供了严谨的理论支撑。
实验结果显示,ADJ框架在攻击成功率(ASR)与有害内容生成率(HS)两大核心指标上,显著超越了GCG、AutoDAN、PAIR、TAP等主流方法,在困惑度防御、RAIN防御、重分词防御等主流防护机制下仍保持极高成功率,成为当前业界性能最强、适配性最广的自动化红队测试框架之一。
秉承“用最强攻击发现最弱环节、用最高风险倒逼最强防御”的理念,ADJ框架通过模拟动态、高强度的攻防对抗环境,旨在打造AI安全防御的“磨刀石”,为开发人员提前暴露AI系统安全漏洞,构建更鲁棒的AI安全防御体系,进而实现AI智能体在真实生产环境中的可信、可控、合规落地,提供了全新的技术抓手。
北电数智始终聚焦AI技术在服务实体经济过程中所面临的关键瓶颈与真实痛点,构建起“全栈赋能、以用为纲”的创新产研体系,同时结合“数算模用”系统化工程能力以及丰富的产业深耕经验,可将前沿创新成果快速转化为面向实际生产场景的应用能力,赋能行业发展。
目前,ADJ的前沿洞见与相关技术理念,已全面融入北电数智的全栈AI能力体系,由此可为客户提供能够抵御已知攻击、动态适应未知威胁的可信AI产品与服务,满足金融、政务、工业、医疗等高敏感场景的安全需求。
可信安全是人工智能产业健康可持续发展的基石。北电数智持续深化全栈技术布局,以可信数据为根基、以全栈工程化能力为支撑、以垂直深耕和区域落地为路径,打造从底层算力到行业智能的完整AI产品与服务能力体系,实现“可信安全、技术赋能、场景深耕”的差异化高质量发展。
汇聚产业真知,共赴AI未来,扫描下方二维码,了解酒仙桥论坛详情,下载《中国城市人工智能指数报告》,抓住智能经济时代机遇,共探AI产业发展新路径。