乐于分享
好东西不私藏

活动预告|CodeWisdom软件智能化开发系列学术报告第19期:AI Agent安全:内外兼修

活动预告|CodeWisdom软件智能化开发系列学术报告第19期:AI Agent安全:内外兼修

李佳

清华大学人工智能学院助理教授,博士生导师

内容简介

题目

AI Agent安全:内外兼修

摘要

随着以OpenClaw 为代表的AI Agent 快速走向实际应用,模型正从生成内容迈向执行任务:用户只需下达指令,Agent便可自主调用工具、操作计算机,完成调研、编程等复杂工作。与此同时,Agent 的能力边界、环境交互范围与可调用权限持续扩大,也使其面临更复杂、更现实的安全威胁。本报告将首先介绍Agent面临的典型安全风险,包括攻击者利用环境触发器等手段,劫持Agent执行高风险操作,进而造成隐私泄露与财产损失。随后,报告将展示一种面向Agent 安全的内外兼修防御框架:一方面从模型内部状态出发,提出深度对齐技术,提升Agent对恶意指令的感知、辨别与拒答能力;另一方面引入可证明的形式化约束,对Agent的执行过程进行外部管控,从而实现对不安全内容与高风险行为的有效拦截。

报告人

李佳,清华大学人工智能学院助理教授,博士生导师。他于2025年在北京大学取得博士学位,师从金芝教授。他主要研究大模型驱动的Agent,例如Agent推理、Agent安全、软件工程Agent。近五年,他在NeurIPSACLICSEASEFSECCF A 类会议和期刊发表论文三十余篇,包含多篇Oral文章,引用累计两千余次。研究成果多次被麻省理工学院、斯坦福大学等机构的研究者讨论,并被《中国科技网》和《中国日报》等主流媒体报道。部分研究成果被转化为实际应用,服务全球数百万开发者。曾荣获中国计算机学会软工专委优秀博士学位论文、北京市优秀毕业生等荣誉称号。

时间安排

时间:

2026年5月9日 15:00~16:00

地点:

复旦大学江湾校区二号交叉学科楼A2003会议室

腾讯会议:

会议号:983 647 757

会议密码:613757