活动预告|CodeWisdom软件智能化开发系列学术报告第19期:AI Agent安全:内外兼修-夜雨聆风

活动预告|CodeWisdom软件智能化开发系列学术报告第19期:AI Agent安全:内外兼修

李佳

清华大学人工智能学院助理教授，博士生导师

内容简介

题目

AI Agent安全：内外兼修

摘要

随着以OpenClaw 为代表的AI Agent 快速走向实际应用，模型正从“生成内容”迈向“执行任务”：用户只需下达指令，Agent便可自主调用工具、操作计算机，完成调研、编程等复杂工作。与此同时，Agent 的能力边界、环境交互范围与可调用权限持续扩大，也使其面临更复杂、更现实的安全威胁。本报告将首先介绍Agent面临的典型安全风险，包括攻击者利用环境触发器等手段，劫持Agent执行高风险操作，进而造成隐私泄露与财产损失。随后，报告将展示一种面向Agent 安全的“内外兼修”防御框架：一方面从模型内部状态出发，提出深度对齐技术，提升Agent对恶意指令的感知、辨别与拒答能力；另一方面引入可证明的形式化约束，对Agent的执行过程进行外部管控，从而实现对不安全内容与高风险行为的有效拦截。

报告人

李佳，清华大学人工智能学院助理教授，博士生导师。他于2025年在北京大学取得博士学位，师从金芝教授。他主要研究大模型驱动的Agent，例如Agent推理、Agent安全、软件工程Agent。近五年，他在NeurIPS、ACL、ICSE、ASE、FSE等CCF A 类会议和期刊发表论文三十余篇，包含多篇Oral文章，引用累计两千余次。研究成果多次被麻省理工学院、斯坦福大学等机构的研究者讨论，并被《中国科技网》和《中国日报》等主流媒体报道。部分研究成果被转化为实际应用，服务全球数百万开发者。曾荣获中国计算机学会软工专委优秀博士学位论文、北京市优秀毕业生等荣誉称号。

时间安排

❖

时间：

2026年5月9日 15:00～16:00

地点：

复旦大学江湾校区二号交叉学科楼A2003会议室

❖

腾讯会议：

会议号：983 647 757

会议密码：613757