AI Agent产品发展现状与思考-夜雨聆风

AI Agent产品发展现状与思考

哈喽，大家好，今天产品老高跟大家聊一聊关于 AI Agent 系列产品的感受。现在市面上其实有很多类似产品，无论是 Claude Code、CodeX，或者是我们说的 OC Cloud、Hermes，其实都属于这一类型。

五一的时候，我也在思考这个事情，因为我自己也在尝试手动搭建所谓的 Agent 系统。我觉得在测试过程中，不一定非要做出完整的系统，但这个过程有助于对整体的理解和一些思考。而且现在正处于一个百花齐放的阶段。

今天我想和大家分享一下这段时间的一些思考内容。

首先，现在市面上绝大多数的 AI Agent 其实分为两派：

一派是执行派，关注如何将系统工程化。OpenCloud 可能属于比较初级的工程化能力，像 Claude Code 就相对比较完善。
市面上还有很多，比如 Superpower、CRU 的 AI，这些其实都属于工程化能力的延伸，本质上就是我们常说的驾驭工程的那套东西，并做了一些扩展。

但我们发现一个核心问题：无论是 Hermes 的自进化能力，还是 Claude Code 的开发能力，包括工程的排程能力，本质上核心面对的都是复杂性，需要多节点的协同。

第一点，不是所有的人都需要做复杂的任务执行，更多的是人无法快速利用AI思考出宏大问题的条例，比如如何做红烧肉，这就是一个类似看似简单又复杂的问题。那么他需要的是条理性的简单执行，而不是复杂任务的排程。

第二点，现在绝大多数的 Agent 都在向全面性发展。无论是增加技能、工程能力，还是像 Hermes 那样的工程驾驭能力，或是安全设置、配置文件管理等，本质上都是在追求功能的全面性。

在此基础上，我们再去探讨如何实现多 Agent 协同或单一 Agent 的协同，讨论它们之间的差异。我个人认为，这里存在一个误区。

理论上，我们现在绝大多数 AI 的发展是偏向拟人化的。但如果考虑一个真实员工的执行能力，他不太可能胜任所有工种。当然，他可能做到“一专多能”，我认为这已经是大多数情况下的极限了。

在“一专多能”的基础上，更常见的情况是：一个员工知识面很广，但专项技能是在某个领域逐渐深挖的。在这样的基础上，再进行多 Agent 协同，也就是模拟具有团队意识的员工组合去解决问题，效果可能会更好。

第三点，关于当前很多场景下讨论的单 Agent 与多 Agent 协同。无论是通过 Session 生成的 Sub-Agent，还是主 Agent，本质上，大家都会通过各类工具（如飞书、QQ 等方式）来建立多 Agent 进行讨论和生成。

在这个过程中，我想到一点：可能由于我本身是做产品的，我在思考，其实所有人在工作过程中，很多时候是在同一个人的角度下，切换多个（我姑且称之为）“人格”来进行作业。这意味着，当我作为一个工程师、医生或会计在日常工作时，可能没有表现出我的音乐天赋、运动天赋、绘画天赋或语言天赋。

但在某一项具体工作中，例如刚好遇到一项需要外语的工作，那么我的语言天赋和我的专职工作就可能进入一种双向协作的状态。而且，在执行时，你是进行切换的。可能前一秒你还在和他阐述方案，下一秒当对方用外语提问时，你会快速切换到同频的逻辑。

我们在思考时也是类似的逻辑：我会先自己思考方案是否可行，然后再考虑是否需要用外语翻译。

所以，这个方案是需要调整的，它相当于是一个头脑风暴的过程。因此我理解，其实我们在很多时候，并不是单纯地把任务排成队列，而是要结合同一个 Agent 下的“多人格”体系，以及多 Agent 协同。

每个 Agent 其实有不同的能力边界和能力特性，在这种情况下的协同才是有意义的。如果所有的 Agent 都是全能的，那么多 Agent 和单一 Agent 的意义，其实就变成了是一个人干活还是多个人干活，而且中间的利弊是很明确的，是有差异的。比方说多 Agent 的协同，就会有很大的问题，包括记忆的管理等等。

所以我一直理解，第三点应该是：我们把“单 Agent 的多人格”和“多 Agent 的协同”两个事情分开且并行。而现在绝大多数 Agent 是用 Session 来进行的。Session 管理的好处在于，我们所有的操作都是从 Prompt 或者这个上下文出发，Session 一开始就直接继承了这个逻辑。但按照这个研究逻辑的话，Session 其实不太有利于形成任务体系的那种所谓的标准化量化管理。我们现在在 Session 里去提炼的任务，大多数是以记忆性的方式去走，这样的话会给记忆造成很大的负担。

对比人来说，并不一定有人会记得所有任务的细节。我可能只是在记忆里有一个任务的概念，知道今天有这件事要做，以及这件事的目标是什么、要做到什么程度。但具体去执行任务时，应该有独立的任务管理，类似于手机的笔记本或在线文档。

所以，我理解这是我看到的绝大多数现有 Agent 系统的状况。这可能与我认知或思考的方向不太一样，因此我尝试看能否将这些想法做一些结合。

当然，我并不是否定国外一些成熟的软件，大家的专业度肯定比我高。但我觉得在这个时代，其实大家都可以尝试从不同角度给出一些突破。这就是为什么现在 AI 新闻每天都会有很多让人新奇的产品出现，因为它确实提供了很多多样性。AI 之所以能高速发展，正是因为它遵从了人类早期发展的规律——物种的多样性。每个人都是个体，所以才能快速发展。一旦同质化，反而会不太容易。

这是我理解的三个点。在此基础上，我做的一套架构设计可以给大家分享一下。后续有机会，我会再给大家讲解，看能否逐渐把它做成系统开放给大家使用。

整个agent系统我给他定位是团队的员工，核心能力如下

核心能力	说明	实现方式
认知能力	记忆、学习、经验积累	四域三层记忆宫殿
执行能力	多线程、任务管理、技能库	任务分级调度系统
协同能力	多 Main 协作、群消息处理	群消息分级 + 心跳监控
发现能力	局域网 Agent 发现与激活	mDNS + HTTP 广播
安全能力	通信白名单、用户确认、定期校验	协同安全机制
规矩意识	社会准则、DoD、效率	Harness 五层系统
进化能力	自学习、自复盘、成长	性能分析与优化机制

我认为是个人工作站的形式，大家可以拭目以待，感谢。