活动预告|CodeWisdom软件智能化开发系列学术报告第19期:AI Agent安全:内外兼修

李佳
清华大学人工智能学院助理教授,博士生导师

内容简介

题目
AI Agent安全:内外兼修
摘要
随着以OpenClaw 为代表的AI Agent 快速走向实际应用,模型正从“生成内容”迈向“执行任务”:用户只需下达指令,Agent便可自主调用工具、操作计算机,完成调研、编程等复杂工作。与此同时,Agent 的能力边界、环境交互范围与可调用权限持续扩大,也使其面临更复杂、更现实的安全威胁。本报告将首先介绍Agent面临的典型安全风险,包括攻击者利用环境触发器等手段,劫持Agent执行高风险操作,进而造成隐私泄露与财产损失。随后,报告将展示一种面向Agent 安全的“内外兼修”防御框架:一方面从模型内部状态出发,提出深度对齐技术,提升Agent对恶意指令的感知、辨别与拒答能力;另一方面引入可证明的形式化约束,对Agent的执行过程进行外部管控,从而实现对不安全内容与高风险行为的有效拦截。
报告人
李佳,清华大学人工智能学院助理教授,博士生导师。他于2025年在北京大学取得博士学位,师从金芝教授。他主要研究大模型驱动的Agent,例如Agent推理、Agent安全、软件工程Agent。近五年,他在NeurIPS、ACL、ICSE、ASE、FSE等CCF A 类会议和期刊发表论文三十余篇,包含多篇Oral文章,引用累计两千余次。研究成果多次被麻省理工学院、斯坦福大学等机构的研究者讨论,并被《中国科技网》和《中国日报》等主流媒体报道。部分研究成果被转化为实际应用,服务全球数百万开发者。曾荣获中国计算机学会软工专委优秀博士学位论文、北京市优秀毕业生等荣誉称号。

时间安排

❖
时间:
2026年5月9日 15:00~16:00
地点:
复旦大学江湾校区二号交叉学科楼A2003会议室
❖
腾讯会议:
会议号:983 647 757
会议密码:613757



夜雨聆风