
AI智能体|Harness工程|智能体运行时 (Agent Runtime)|具身智能

燕园叶话第141期沙龙,超5200人观看过(有若干媒体未统计进来),感谢杨仝团队的老师和同学们的精彩分享、会议室多位嘉宾的高质量参与和提问观众们的积极互动;也感谢转播的媒体老师和在线上直播间互动的观众们。
欢迎更多朋友们加入燕园叶话的每周的讨论当中,我们会准备书籍等礼物赠予提出高质量问题的朋友们~
错过讲座直播的朋友,可以在下图合作媒体的04月05日的回放里找。
亦推荐访问bilibili up主 乐生活与爱IT 查看回放:
20260405-燕园叶话 第141期《剖析OpenClaw和Claude Code系列》
https://www.bilibili.com/video/BV1bBD2B6EC7/










四、会议纪要:
下载完整讲稿,请订阅 燕园叶话 知识星球。

该知识星球还有150多份高质量文档,包括经授权的燕园叶话嘉宾原创演讲稿100多份--价值上千元。后续将持续上传更多高质量文档,并且不定期涨价。
使用AIGC工具或平台帮助整理出的会议纪要如下(感谢 邵舸同学):
本次专场全面剖析了AI智能体从软件系统的架构设计到物理世界落地的全链路前沿探索。
北京大学杨仝研究员团队及主理人系统性地指出,当前大模型的发展已经跨越了单纯优化“骏马”(基座模型)的阶段,迎来了为马匹套上“鞍鞯辔头”(Harness配套环境)的关键时期。
团队的核心观点认为,Prompt工程试图将复杂的工程问题压缩成自然语言,本质上是一种有损压缩,导致了系统脆弱性和执行天花板。未来的核心竞争力将彻底转向“Harness系统设计”——通过构建包含约束、告知、验证和纠错四大支柱的控制系统,才能让不可预测的模型转化为可靠的生产力。
在工业与企业级应用落地方面,团队明确提出,完全依赖大模型实时推理来处理确定性工作流是低效且昂贵的。未来的理想架构应当是“本地低算力小模型+固化代码脚本(Pipeline)”。通过将高频重复任务提炼为Python或JSON形式的确定性脚本,仅在分支决策或异常处理时调用模型,从而实现执行结果的绝对稳定和Token消耗的断崖式下降。
此外,智能体的演进不会局限于数字空间。团队提出,评测体系必须从传统的“黑盒问答”转向针对Agent行为边界的“白盒验证”。更重要的是,智能体正以具身机器为载体走向物理世界。通过创新的异步通信架构(如论坛中介模式),多个大型语言模型可以跨地域自主协作,指挥机器狗、无人矿车等实体设备执行复杂的三维空间任务,彻底打破线上与线下的技术隔阂。
2)演讲内容大纲
Peter 叶毓睿(燕园叶话主理人)开场:
开场与背景设定:AI技术的高速迭代正在深刻改变程序员与从业者的工作模式。 实践洞察:自然语言驱动的大模型和智能体平台(如OpenClaw)在处理复杂逻辑时表现出极高的丝滑度与专业性。 趋势前瞻:指出当前已进入智能体能够作为“API调用者”深度参与业务流程的时代,呼吁从业者必须迅速拥抱架构设计思维,从“自己写代码”转向“设计系统让AI写代码”。
王砚舒(北京大学计算机学院讲师)分享大纲:
范式演进:梳理AI工程从Prompt Engineering(自然语言有损压缩)、Context Engineering(检索增强与上下文组装)到Harness Engineering(程序确定性执行约束)的三个阶段。 Harness四大支柱:详细解析Constraint(设定边界)、Inform(提供信息)、Verify(检查结果)、Correct(纠正错误)的设计理念。 OpenClaw架构剖析:深挖Gateway控制面、类型化安全过滤、可插拔记忆系统,以及如何通过Skill和MCP系统保持核心精简。 失控案例与Ruins项目:针对企业面临的Agent账单失控与可靠性衰减问题,提出开源的Ruins控制平台,引入智能降级、熔断器和追踪回放机制,为智能体装上“刹车”。
张熙(北京大学DS Lab成员)分享大纲:
FairyClaw设计初衷:从零开发,专为后端服务器长期运行设计的异步事件驱动Agent运行时。 核心机制突破:采用事件总线加单步推理模式,状态完全外显,不再复用传统的循环黑盒模式。 Skill系统重构:摒弃大量消耗Token的自然语言Skill描述,采用“Python+JSON”脚本结合少量自然语言,提升执行的绝对确定性。 架构与拓展性:提出能力组(Capability Group)的高内聚低耦合路由概念,结合五阶段回调流水线,实现灵活的流程控制与任务委派。
叶博文(北京大学DS Lab成员)分享大纲:
评测体系危机:揭示传统基于Chatbot的评测体系在Agent工作流场景下的严重失效(遗漏约44%安全漏洞及高估执行成功率)。 ClawEval评测框架:构建基于真实虚拟服务器环境的白盒评测系统,引入Safety作为关键乘法因子。 核心评测发现:在超过7000条轨迹测试中,Claude Opus在稳定性和鲁棒性上表现优异;部分主打多模态的模型在Agent架构下的实际工程体验不及预期。 鲁棒性压力测试:通过注入网络延迟、返回错误码等Error测试,证明模型越强抗干扰能力越好,但整体不稳定性仍是行业痛点。
王雅萱(北京大学元培学院、DS Lab成员)分享大纲:
异构多智能体路径规划(TZPP):解决零先验知识与复杂物理环境下的导航难题。通过“机器人指挥+机器狗探索”协同,引入环境全方位旋转扫描与碰撞避让逻辑。 AgentRob交互范式:首创以开源论坛为中介的三层架构(论坛层-智能体层-机器人层)。 异步协作优势:利用论坛的异步性、持久化记录和社交上下文,让LLM通过MCP工具化身“论坛用户”发帖派发指令。 物理世界实战:展示安全违规检测拦截、会议室白板拍摄等Demo,并实现了跨越三千公里的具身智能设备跨地域协同作战。
问题一:对于规则明确、流程固定的重复性任务(如银行券商的清算、财务报销),每步都消耗Token调用大模型是否必要?能否固化为脚本?
答:对于确定性极高的工业或金融场景,每一步实时调大模型进行推理不仅成本高昂,且可能导致不可接受的数据偏差。正确的思路是利用AI梳理并走通全流程,然后将关键步骤固化为Python代码或RPA脚本(即强结构化数据)。
未来的理想形态是:本地部署低算力小模型,只负责判断何时触发哪一条固化的Pipeline,触发后完全按代码本地执行,Token消耗趋近于零,从而保障绝对的确定性与安全性。
问题二:OpenClaw在执行Skill时(尤其是包含安装依赖、执行脚本等多个命令时),内部是如何确保执行顺序的?
答:大模型在读取Skill后,会自动分析各项任务的前置依赖关系,在内部形成类似DAG(有向无环图)的执行结构。对于没有前向依赖的任务,系统会并行执行(甚至开启多个子Agent同步处理);对于存在依赖关系的任务则严格串行。这保证了复杂Skill执行的效率与准确性。
问题三:像机器人踢足球那样,让具身机器人完全通过自学习(强化学习)来掌握物理技能而无需人工规则,目前可行吗?
答:理论上可行,但在真实场景落地面临极大挑战。主要问题在于效率极其低下,且从模拟器迁移到现实物理世界(Sim-to-Real Gap)存在巨大的误差。此外,在实体机械上进行强化学习,其原位重置和损失计算的工程难度极高,因此短期内结合大模型的高层指令下发与底层确定性控制仍是更优解。
问题四:在实际应用中,如何利用大模型和公开数据快速为证券交易所或券商生成定制化的投资研究报告?
答:这是一个非常经典且高价值的商业场景。此类信息梳理产品对交易精度的要求相对宽松,非常适合大语言模型接入。目前业界(如头部互联网券商)已广泛部署类似架构。
技术实现难度不大,核心壁垒在于两点:一是外部数据源(如高质量实时新闻、企查查等API)的获取质量;二是企业内部私有数据链路的打通与合规整合。
问题五:在工业应用或服务器管理中,如何根本性地保障大模型调度过程中的信息安全?
答:基础的安全策略可以通过Docker部署、文件读写目录严格限制来实现;进阶防范可以通过开发特定的能力组插件及回调函数,在执行前对API调用进行审查或拦截不可逆操作。然而,彻底解决云端数据泄露、路由劫持或监听问题的终极方案,是实现高能力基座模型在端侧(如手机、本地服务器、机器人主机)的完全本地化部署。
五、下期预告
燕园叶话 第142期(2026年04月12日,周日20点00分)
贾如阳《龙虾AI应用热门场景》
后续有贵宾愿意赞助场地、晚餐等,Peter叶毓睿(燕园叶话主理人,微信公众号 乐生活与爱IT Plus主理人)也愿意组织,相信头脑风暴、充分讨论(闭门可畅所欲言)会给各自带来启发。4人以上即可组织线下活动。
将来燕园叶话会相应增加线下频次,增加彼此的链接和信任,促进更多商机。
请注意关注视频号乐生活与爱IT,或者扫码进元宇宙理性乐观 微信群(近几日才有效),关注群内动态。
注意,已经在其他“元宇宙理性乐观群”的朋友就没必要加入了,分享的信息都是一样的。过些天,除了志愿者之外,将考虑移除那些同时占用多个“元宇宙理性乐观群”的群友。
请观众长期保存,如下的两种参会方式,其中腾讯会议的号码从2025年4月27日有所改变,以往的会议号作废。
腾讯会议:576-2467-9700(密码: 230101)
PS: 由于B站规则更改,近段时间不再同步直播,而是延迟几天上传到B站的方式,但考虑到B站审核机制等问题可能上传受限,不能确保。建议当日由腾讯会议参会。
下载 迟小羽《人工智能技术原理及应用工具简介》& 付立军《企业数字转型如何“不花冤枉钱”?——区块链与效果契约的实践路径》
张小洵《RVAgents:虚实共生的具身智能体驱动的未来互联网络与智能体城市》& 迟小羽《人工智能技术原理及应用工具简介》
徐亮《人工智能赋能产业创新》& 张小洵《RVAgents:虚实共生的具身智能体驱动的未来互联网络与智能体城市》
下载 董慧智:《解构智能体经济的要素市场》& 徐亮《人工智能赋能产业创新》
下载 占冰强《MCP引领AI Agent互联网》 & 董慧智《解构智能体经济的要素市场》
下载 《AI后训练时代,如何建设高质量数据集》& 占冰强《MCP引领AI Agent互联网》
下载 《剖析智能体协议MCP、A2A、ANP:智能体互联网的黎明之前》 & 胡翌霖-网络空间会有关税吗? 再谈AI+Web3
下载 杨仝-大模型蒸馏技术(Deepseek Tiny R1)
下载 朱飞-浅谈实时物理仿真...与物理AI & 预告:北大 杨仝-大模型蒸馏技术(Deepseek)
燕园叶话携手中国移联人工智能与元宇宙产业委,揭晓“2024年度十佳讲座”
2025年2月23日(周日),今天办了3场Deepseek专题研讨会(深度)
燕园叶话 两周年 & 下载 白强-中国AI出海与Web3,兼谈日本AI & 斯白露-类脑智能:推动人工智能发展的新范式
美国政府战略储备BTC剖析,及其对全球(含香港)金融格局的潜在影响
内有视频的回放链接,大概在第88分钟开始分享,美国联邦储备BTC,以及中国可能如何应对
超40家北大系AI公司集聚郑州,欲打造全国首个AI城市示范基地
综述和下载: Dr. Zhang “国学文化和系统工程” & 李元雄 "AI芯片如何封装"
下载: AIGC九种实践等 & 蔡恒进: AI海啸中的财富密码
下载: 苏彤:元宇宙、大数创与人文地球-从AI“巴黎奥运”谈起
下载: 《邵志兢-空间视频的前世今生:从体积视频到高斯抛射》
下载: 蔡剑晖-Web3如何在国内落地(从肖风博士的三代币模型谈起)
下载: 唐兴波-3D引擎+工具+资产:构建数字新世界的核心要素
下载 廖博谛《分权制衡、去“中心化收钱“ 与Web3的界定标准》
下载 Owen Zhu《AI Infra(软件基础设施)的前世今生》
下载 黄剑炜《人工智能突破嗅觉领域-数字气味技术结合ChatGPT的应用》
9.13 工信部发布元宇宙、通用人工智能等方向揭榜挂帅的创新任务
AI算力需求平均每2个月翻一倍? & 《脑启发计算——我们需要一个总体规划》译文
(备注:AI算力需求这个增速很惊人!意味着5年达到10亿倍!)
中央美院 孟虹《信息美学 - 差异、建构及其美学评价》 演讲稿下载
北京西城区全面启动马连道·茶文化·中国数据街,数字经济真的来了!

夜雨聆风