燕园叶话第141期回顾《剖析OpenClaw和Claude Code系列》

一、摘要

AI智能体｜Harness工程｜智能体运行时 (Agent Runtime)｜具身智能

👉为什么“Prompt工程师”正在快速向“Harness工程师”演进？

👉如何通过引入控制面与约束设计，解决LLM在生产环境中的可靠性与成本失控难题？

👉专为后端长期运行设计的FairyClaw运行时，如何大幅降低Token消耗？

👉传统的Chatbot评测体系为何在Agent场景下严重失效，导致近29%的假性通过率？

👉AgentRob如何让LLM跨越三千公里，自主指挥物理世界中的机器人与无人矿车？

二、编者按

微信公众号乐生活与爱IT Plus，微信视频号乐生活与爱IT-Plus 作者，bilibili up主乐生活与爱IT 欢迎您加入知识星球【燕园叶话资料和信息分享】，获取过往1-2年燕园叶话的嘉宾授权讲稿/演示文稿，星球主与小伙伴们的最新调研文章/市场与行业观察和其他高价值文档，超过150份，其中超100份以上是燕园叶话嘉宾原创讲稿，其他地方很难获取，星球内容持续更新中。

现已涨价到238元，每隔几周或几月后，随着高质量文档的不断增加，不定期涨价。4月5日的4份讲稿，将上传到燕园叶话知识星球上。

感谢香港大学CAMO中心Research Assistant邵舸同学整理本期公众号文章内容。

燕园叶话2025年度10大演讲投票评选活动正在进行中，欢迎大家复制链接或点击阅读原文前往公众号文章查看详情。十分感谢大家的参与和支持！

投票&回顾：2025年度燕园叶话十佳演讲嘉宾暨三周年志庆

三、会后总结

燕园叶话第141期沙龙，超5200人观看过（有若干媒体未统计进来），感谢杨仝团队的老师和同学们的精彩分享、会议室多位嘉宾的高质量参与和提问观众们的积极互动；也感谢转播的媒体老师和在线上直播间互动的观众们。

欢迎更多朋友们加入燕园叶话的每周的讨论当中，我们会准备书籍等礼物赠予提出高质量问题的朋友们～

错过讲座直播的朋友，可以在下图合作媒体的04月05日的回放里找。

亦推荐访问bilibili up主乐生活与爱IT 查看回放：

20260405-燕园叶话第141期《剖析OpenClaw和Claude Code系列》

https://www.bilibili.com/video/BV1bBD2B6EC7/

燕园叶话欢迎大家一起打造AI培训平台，加入到这个AI全民科普计划（十个顶级专家，百个中高级的资深专家；千个甚至万个最高层，也即5~6层AI老师。无论是AI老师，或者需要培训的甲方，都欢迎和我私信联系、探讨。用Web3/DAO的方式，看看如何达成共识分润？

四、会议纪要：

下载完整讲稿，请订阅燕园叶话知识星球。

该知识星球还有150多份高质量文档，包括经授权的燕园叶话嘉宾原创演讲稿100多份--价值上千元。后续将持续上传更多高质量文档，并且不定期涨价。

使用AIGC工具或平台帮助整理出的会议纪要如下（感谢邵舸同学）：

1）会议观点总结

本次专场全面剖析了AI智能体从软件系统的架构设计到物理世界落地的全链路前沿探索。

北京大学杨仝研究员团队及主理人系统性地指出，当前大模型的发展已经跨越了单纯优化“骏马”（基座模型）的阶段，迎来了为马匹套上“鞍鞯辔头”（Harness配套环境）的关键时期。

团队的核心观点认为，Prompt工程试图将复杂的工程问题压缩成自然语言，本质上是一种有损压缩，导致了系统脆弱性和执行天花板。未来的核心竞争力将彻底转向“Harness系统设计”——通过构建包含约束、告知、验证和纠错四大支柱的控制系统，才能让不可预测的模型转化为可靠的生产力。

在工业与企业级应用落地方面，团队明确提出，完全依赖大模型实时推理来处理确定性工作流是低效且昂贵的。未来的理想架构应当是“本地低算力小模型+固化代码脚本（Pipeline）”。通过将高频重复任务提炼为Python或JSON形式的确定性脚本，仅在分支决策或异常处理时调用模型，从而实现执行结果的绝对稳定和Token消耗的断崖式下降。

此外，智能体的演进不会局限于数字空间。团队提出，评测体系必须从传统的“黑盒问答”转向针对Agent行为边界的“白盒验证”。更重要的是，智能体正以具身机器为载体走向物理世界。通过创新的异步通信架构（如论坛中介模式），多个大型语言模型可以跨地域自主协作，指挥机器狗、无人矿车等实体设备执行复杂的三维空间任务，彻底打破线上与线下的技术隔阂。

2）演讲内容大纲

Peter 叶毓睿（燕园叶话主理人）开场：

开场与背景设定：AI技术的高速迭代正在深刻改变程序员与从业者的工作模式。
实践洞察：自然语言驱动的大模型和智能体平台（如OpenClaw）在处理复杂逻辑时表现出极高的丝滑度与专业性。
趋势前瞻：指出当前已进入智能体能够作为“API调用者”深度参与业务流程的时代，呼吁从业者必须迅速拥抱架构设计思维，从“自己写代码”转向“设计系统让AI写代码”。

王砚舒（北京大学计算机学院讲师）分享大纲：

范式演进：梳理AI工程从Prompt Engineering（自然语言有损压缩）、Context Engineering（检索增强与上下文组装）到Harness Engineering（程序确定性执行约束）的三个阶段。
Harness四大支柱：详细解析Constraint（设定边界）、Inform（提供信息）、Verify（检查结果）、Correct（纠正错误）的设计理念。
OpenClaw架构剖析：深挖Gateway控制面、类型化安全过滤、可插拔记忆系统，以及如何通过Skill和MCP系统保持核心精简。
失控案例与Ruins项目：针对企业面临的Agent账单失控与可靠性衰减问题，提出开源的Ruins控制平台，引入智能降级、熔断器和追踪回放机制，为智能体装上“刹车”。

张熙（北京大学DS Lab成员）分享大纲：

FairyClaw设计初衷：从零开发，专为后端服务器长期运行设计的异步事件驱动Agent运行时。
核心机制突破：采用事件总线加单步推理模式，状态完全外显，不再复用传统的循环黑盒模式。
Skill系统重构：摒弃大量消耗Token的自然语言Skill描述，采用“Python+JSON”脚本结合少量自然语言，提升执行的绝对确定性。
架构与拓展性：提出能力组（Capability Group）的高内聚低耦合路由概念，结合五阶段回调流水线，实现灵活的流程控制与任务委派。

叶博文（北京大学DS Lab成员）分享大纲：

评测体系危机：揭示传统基于Chatbot的评测体系在Agent工作流场景下的严重失效（遗漏约44%安全漏洞及高估执行成功率）。
ClawEval评测框架：构建基于真实虚拟服务器环境的白盒评测系统，引入Safety作为关键乘法因子。
核心评测发现：在超过7000条轨迹测试中，Claude Opus在稳定性和鲁棒性上表现优异；部分主打多模态的模型在Agent架构下的实际工程体验不及预期。
鲁棒性压力测试：通过注入网络延迟、返回错误码等Error测试，证明模型越强抗干扰能力越好，但整体不稳定性仍是行业痛点。

王雅萱（北京大学元培学院、DS Lab成员）分享大纲：

异构多智能体路径规划（TZPP）：解决零先验知识与复杂物理环境下的导航难题。通过“机器人指挥+机器狗探索”协同，引入环境全方位旋转扫描与碰撞避让逻辑。
AgentRob交互范式：首创以开源论坛为中介的三层架构（论坛层-智能体层-机器人层）。
异步协作优势：利用论坛的异步性、持久化记录和社交上下文，让LLM通过MCP工具化身“论坛用户”发帖派发指令。
物理世界实战：展示安全违规检测拦截、会议室白板拍摄等Demo，并实现了跨越三千公里的具身智能设备跨地域协同作战。

3）问答环节

问题一：对于规则明确、流程固定的重复性任务（如银行券商的清算、财务报销），每步都消耗Token调用大模型是否必要？能否固化为脚本？

答：对于确定性极高的工业或金融场景，每一步实时调大模型进行推理不仅成本高昂，且可能导致不可接受的数据偏差。正确的思路是利用AI梳理并走通全流程，然后将关键步骤固化为Python代码或RPA脚本（即强结构化数据）。

未来的理想形态是：本地部署低算力小模型，只负责判断何时触发哪一条固化的Pipeline，触发后完全按代码本地执行，Token消耗趋近于零，从而保障绝对的确定性与安全性。

问题二：OpenClaw在执行Skill时（尤其是包含安装依赖、执行脚本等多个命令时），内部是如何确保执行顺序的？

答：大模型在读取Skill后，会自动分析各项任务的前置依赖关系，在内部形成类似DAG（有向无环图）的执行结构。对于没有前向依赖的任务，系统会并行执行（甚至开启多个子Agent同步处理）；对于存在依赖关系的任务则严格串行。这保证了复杂Skill执行的效率与准确性。

问题三：像机器人踢足球那样，让具身机器人完全通过自学习（强化学习）来掌握物理技能而无需人工规则，目前可行吗？

答：理论上可行，但在真实场景落地面临极大挑战。主要问题在于效率极其低下，且从模拟器迁移到现实物理世界（Sim-to-Real Gap）存在巨大的误差。此外，在实体机械上进行强化学习，其原位重置和损失计算的工程难度极高，因此短期内结合大模型的高层指令下发与底层确定性控制仍是更优解。

问题四：在实际应用中，如何利用大模型和公开数据快速为证券交易所或券商生成定制化的投资研究报告？

答：这是一个非常经典且高价值的商业场景。此类信息梳理产品对交易精度的要求相对宽松，非常适合大语言模型接入。目前业界（如头部互联网券商）已广泛部署类似架构。

技术实现难度不大，核心壁垒在于两点：一是外部数据源（如高质量实时新闻、企查查等API）的获取质量；二是企业内部私有数据链路的打通与合规整合。

问题五：在工业应用或服务器管理中，如何根本性地保障大模型调度过程中的信息安全？

答：基础的安全策略可以通过Docker部署、文件读写目录严格限制来实现；进阶防范可以通过开发特定的能力组插件及回调函数，在执行前对API调用进行审查或拦截不可逆操作。然而，彻底解决云端数据泄露、路由劫持或监听问题的终极方案，是实现高能力基座模型在端侧（如手机、本地服务器、机器人主机）的完全本地化部署。

五、下期预告

燕园叶话第142期（2026年04月12日，周日20点00分）

贾如阳《龙虾AI应用热门场景》

后续有贵宾愿意赞助场地、晚餐等，Peter叶毓睿（燕园叶话主理人，微信公众号乐生活与爱IT Plus主理人）也愿意组织，相信头脑风暴、充分讨论（闭门可畅所欲言）会给各自带来启发。4人以上即可组织线下活动。

将来燕园叶话会相应增加线下频次，增加彼此的链接和信任，促进更多商机。

请注意关注视频号乐生活与爱IT，或者扫码进元宇宙理性乐观微信群(近几日才有效)，关注群内动态。

注意，已经在其他“元宇宙理性乐观群”的朋友就没必要加入了，分享的信息都是一样的。过些天，除了志愿者之外，将考虑移除那些同时占用多个“元宇宙理性乐观群”的群友。

请观众长期保存，如下的两种参会方式，其中腾讯会议的号码从2025年4月27日有所改变，以往的会议号作废。

腾讯会议：576-2467-9700（密码: 230101）

PS: 由于B站规则更改，近段时间不再同步直播，而是延迟几天上传到B站的方式，但考虑到B站审核机制等问题可能上传受限，不能确保。建议当日由腾讯会议参会。

六、扩展阅读

叶毓睿《OpenClaw"龙虾"的发展、实战和趋势》& 高志《如何用国产版龙虾AgentSwarm，替你完成真实工作？》