从ChatGPT到OpenClaw:为什么五代现象级AI产品的胜负手,都不是模型本身?
ChatGPT 月活超过 3 亿。Character.ai 日均使用时长 93 分钟。Cursor 年收入突破 2 亿美元。OpenClaw 上线三个月 Agent 数量破百万。
从 ChatGPT 到 OpenClaw,五代 AI ToC 应用层的现象级产品,它们到底做对了什么?
直觉的回答是"模型更强了"。模型更强当然会让产品有更大的提升空间,但它不是这些产品成为现象级的唯一原因——甚至往往不是最关键的原因。
Character.ai 用的是自研的、参数量远小于 GPT-4 的模型,但它在情感陪伴赛道做到了头部用户规模。Cursor 用的不是独占模型,却跑出了开发工具里极少见的增长速度。
如果不只是模型,那到底还有什么?
这篇文章用一个四维框架(输入→处理→输出→评估)逐一拆解这五代产品——每一代在哪些维度上实现了突破,又卡在了哪里,以及这条演进线指向的下一代产品方向。
章节导览
分析框架:AI 产品的四个维度 ChatGPT:打开优质供给的上限 Character.ai:把模型缺陷变成产品优势 Cursor:代码是操作数字世界的最佳工具 Manus:AI 自己跑多轮闭环 OpenClaw:Agent 从"被使用"变成"自己运行" 更强的任务需要协作,协作需要评估 五代产品的四维演进 下一代的评估层 构建 AI 社会:三个值得深度思考的问题
一个分析框架:AI 产品的四个维度
AI 应用层产品的能力边界由四个维度共同决定:
输入 —— AI 看到什么。不只是用户打的那句话,还包括长期记忆、项目结构、真实环境、其他主体的行为记录。很多表面上在升级模型的产品,本质上是在升级输入。
处理 —— AI 怎么想。不只是"回答",还包括规划、拆任务、调工具、重试、挂起恢复。是单轮回答还是多步迭代?是被动响应还是主动行动?
输出 —— AI 做成什么。从文本建议,到代码改动,到真实世界操作。输出形态直接决定用户群体、用户画像、规模天花板和商业价值形态——选择输出什么,就是选择服务谁。
评估 —— 产品怎么定义"成功",以及系统怎么知道做对了。评估不只是"写回下一轮输入"——它会反向调控整个链路:模型选择、输入策略、处理流程都可能被评估结果调整。比如在 Cursor 里,编译通过就是一个"做对了"的信号——这个信号会反过来决定模型要不要重试、怎么调整下一步。
评估的判定方式有一个演进过程:从完全靠人主观判断,到场景本身限定了成功标准,到系统自动判定,再到 Agent 自评+用户兜底。这条演进线本身就是理解五代产品的关键线索。
四维构成因果闭环:输入 → 处理 → 输出 → 评估 → 反向调控整个链路 → 推动系统持续进化。
ChatGPT:打开优质供给的上限
输入:ChatGPT 解决的第一个约束是表达约束。在它之前,用 AI 需要写代码、调 API。ChatGPT 把自然语言变成了通用接口——聊天框隐藏了 prompt engineering 的复杂度。会打字就能用。
处理:底层模型不是 ChatGPT 独有的——同期 API 共享同一组参数。但产品层面有一个关键变化:通过 RLHF(基于人类反馈的强化学习),模型的行为从"接着往下写"变成了"理解你的意图并直接执行"。你说"帮我写一封邮件",它不会接着续写"帮我写一封邮件给...",而是直接给你一封写好的邮件。这是让通用模型变成大众产品的关键一步。
输出:文本建议、写作草稿、代码片段、总结——输出形态是"通用文本",不锁定任何特定场景。写作、编程、翻译、问答都能用,因此用户群体极其宽泛。但 ChatGPT 最大的价值不只是"方便"——它打开了优质内容供给的上限。 以前优质供给受限于人类个体——时间有限、精力有限、一次只能服务一个人、受制于地理和时区。ChatGPT 让优质供给变成了 24 小时在线、跨越时间和地理、可以同时服务无数人。这不是"更好的搜索引擎",是供给侧的结构性变化。
评估:在 ChatGPT 里,评估主要由人类完成——用户通过点赞、点踩、重新生成、复制、下载等行为,向产品传递"这个输出有没有价值"的信号。模型和产品团队基于这些行为数据持续优化。
结果上,用户自然聚集在对置信度要求不高的场景。
原因很直觉:模型会产生幻觉,如果你拿它做医疗诊断,幻觉就是致命缺陷;但拿它做脑暴,幻觉只是"不太精准的建议"。用户用脚投票,自然留在了模型缺陷不致命的场景。
OpenAI 在 2025 年 9 月发布的官方研究(分析 110 万条真实对话)证实了这一点:三大核心使用场景——实用指导、信息搜索、写作——占 77% 的对话量。OpenAI 的策略不是预先选定这些场景,而是先释放通用能力,再从用户行为分布中发现并针对性优化。
这一代的突破维度:输入层(自然语言接口,让所有人都能用 AI)+ 输出层(打开了优质供给的上限——24小时在线、无地理限制、可同时服务无数人)。
局限:不知道用户真实环境(输入受限于对话窗口)、无持续状态(关闭就忘了)、输出不能执行(只是建议不是行动)、评估完全靠人即时主观判断。
Character.ai:把模型缺陷变成产品优势
输入:Character.ai 在输入层做了远超"一段 system prompt"的设计。角色定义包括人设、性格、背景故事、世界观、开场白和示例对话——共同构成角色的"表演空间"。记忆系统让角色能记住跨会话的关键信息。语音功能进一步增强沉浸感。输入层的丰富度直接决定了角色"活"的程度。
处理:Character.ai 自研了专用对话模型(如 C1.2)。处理层的核心任务不是"回答问题"而是"维持角色":在多轮对话中保持人格连续性和情感对齐。但存在已知限制:行动类角色扮演在 8-12 轮后仍会出现"人设漂移"。
一个值得关注的技术选择:Character.ai 采用了 MoE 推理架构,实现每秒约 2 万查询、单小时对话成本不到 1 美分。对于一个用户日均使用 2 小时的产品来说,这个成本结构是生死攸关的——如果每小时对话成本是 1 美元而不是 1 美分,这个产品在商业上根本不成立。
输出:对话本身就是产品——不需要用户拿输出去做别的事。输出即消费。语音输出让对话体验进一步沉浸化。
评估:评估标准被重新定义——从"说得对不对"切到了"像不像这个角色""有没有被接住""能不能沉浸进去"。用户通过对消息评分、选择不同模型引擎(Prime/Brainiac/Flash)、以及持续使用行为向平台传递评估信号。平台侧,角色被收藏/分享/二次创作的频率构成质量信号——月新增 900 万个用户创建角色,创作者与平台角色比 8:1。
在这个评估标准下,幻觉不再是 bug——在陪伴场景下,它反而变成了角色风格的一部分,甚至成为产品优势。 "这个角色就是会说奇怪的话"——完全成立。
ChatGPT 选了让缺陷不致命的场景。Character.ai 更进一步——把缺陷在特定场景下转化成了产品特性,甚至变成了卖点。
这一代的突破维度:输入层(角色定义+记忆系统+语音,创造了全新的上下文类型)+ 评估层(重新定义成功标准,从正确性切到沉浸感,并建立了 UGC 角色市场作为质量信号放大器)。
局限:角色只存在于聊天框里。没有外部生活、真实后果、成长轨迹。角色"像一个人",但不"活在一个世界里"。记忆系统有改进但长对话后仍会遗忘,关系无法真正跨会话积累和成长。
Cursor:代码是操作数字世界的最佳工具
有意思的是,Cursor 的产品逻辑和 ChatGPT 完全相反——不是"释放能力然后观察",而是从一个明确的假设出发:"程序员应该掌握方向盘"(Programmers should stay in the driver's seat)。AI 处理重复任务,开发者掌控创意决策。这是需求驱动的设计,不是发布后观察。
从我们的分析角度看,Cursor 之所以能在 AI 赛道里跑出这样的速度,有一个底层原因:代码是操作数字世界的最佳工具。 代码天然具备三个让 AI 能力最大化释放的特性:它是文本(和模型的输入输出格式完美对齐)、它有丰富的结构化上下文(文件树/符号关系/依赖图谱)、最关键的——它有极强的自动化校验。
输入:代码库本身就是高密度结构化上下文——文件树、符号关系、依赖图谱、编译报错、终端状态,全部可读。而且有一个其他场景不具备的递归特性:代码是文本,所以 AI 生成的代码天然也是输入的一部分——每次生成都在修改自己下一轮的上下文。
处理:不是把模型放在独立对话窗口里,而是深度嵌入开发者的生产环境。模型同时感知文件上下文、终端反馈、编译结果,在同一工作流里完成代码补全、重构、跨文件修改。处理层的关键不是模型本身更强,而是模型被放进了一个信息密度极高且有实时反馈的工作环境——AI 不仅能看到代码,还能看到代码运行的结果,并据此调整下一步动作。
输出:输出天然就是生产环境可直接交付的结果。 这和 ChatGPT 的"建议"有本质区别——ChatGPT 的输出需要用户复制、粘贴、再加工;Cursor 的输出直接就是代码修改,可以一键接受。用户在输出阶段做审核(接受或拒绝),而不是全程手动参与。
评估:代际突破维度。 编译器验证语法正确性,测试脚本验证功能正确性——这些不是人类给的主观评价,而是机器自动判定的客观标准。"做对了没有"第一次被部分自动化了。 AI 自己也能通过编译和测试做初步判断——人类从"全程参与者"变成了"最终审核者"。
这一代的突破维度:评估层(自动化评估实现了代际飞跃——从人类主观判断到机器客观判定)+ 输出层(可直接交付的生产结果)+ 输入层(代码库作为高密度上下文,输出回流为输入的递归特性)。
局限:评估闭环在代码域极强,出了代码域急剧变弱。仍然是 co-pilot 不是委托执行——人类全程在环。没有持续性,没有社会性。
Manus:AI 自己跑多轮闭环,用户只看结果
输入:用户给一个高层目标("帮我研究 X 并出报告"),但 Agent 在执行过程中自主检索更多上下文——搜索网页、阅读文档、筛选信息。输入不再是用户一次性给定的,而是 Agent 在处理过程中持续扩展的。
处理:代际突破维度。 从单轮响应变成多步迭代闭环。一次用户交互,背后跑多轮"输入→处理→输出→自评估"循环——每一轮生成输出后,Agent 自主判断是否满足目标;如果不满足,就规划"为达成目标下一步需要什么",自动寻找新的上下文,再跑一轮。核心不在模型更强,而在运行时架构变了——从 co-pilot 变成了可委托的执行体。
输出:从建议或代码片段升级为完整交付物——研究报告、数据分析、完整方案。选的任务类型很聪明:研究、整理、做分析——结果比过程重要,用户接受等待。
评估:Agent 内置了目标评估——每一步都在检查"离目标还有多远"。但评估标准仍然是单任务维度的。至少在当前主流形态下,任务结束后评估也结束了。
这一代的突破维度:处理层实现了代际飞跃——从单轮响应变成多步迭代闭环,Agent 自主跑"输入→处理→输出→自评估"的完整循环。
局限:Agent 仍是平台的不是用户的。任务间没有记忆延续和声誉积累。没有持续性,没有社会性。评估仍停留在单任务闭环内。
OpenClaw:Agent 从"被使用"变成"自己运行"
输入:代际突破维度。 常驻在用户设备上,输入从"用户主动提供"变成"自然流动的上下文"——日程、邮件、文件、消息平台、设备环境。不需要每次对话从零建立上下文。Agent 第一次拥有了持续积累的、跨场景的上下文。
处理:心跳机制让处理从"被动响应"变成"主动行动"——Agent 定期自主决定做什么。它第一次不需要用户打开才存在。AI 从"被使用"变成了"自己运行"。
输出:输出直接嵌入用户各场景的上下文环境中——发邮件、管日程、调用技能。而且 Agent 主动决定下一步做什么——不只回答问题,而是推动事情发生。输出从"回复"变成了"行动"。
之前用 ChatGPT,每次打开是一个新对话——上下文从零开始。现在的常驻 Agent 持续存在、有记忆连续性、跨场景延续。状态连续性从"技术能力"变成了"资产积累"。 只有当用户觉得"这是我的 Agent",才会愿意持续投入偏好、日程、工作流。AI 第一次不再只是工具,而是一个常驻的、主动运行的数字代理。
评估:至少在当前主流形态下,评估主要仍依赖用户本人反馈。常驻 Agent 的任务多样性太高——代码有编译器,角色扮演有沉浸感标准,但"帮我管日程同时帮我写代码同时帮我社交"没有统一的对错标准。评估退回了最原始的形态。
这一代的突破维度:输入层(设备常驻,上下文自然流动)+ 输出层(Agent 主动行动)+ 处理层(心跳驱动主动运行)——三个维度同时跳变。
局限:评估是结构性天花板——只有用户一个人的主观反馈,缺少自动化评估标准,也缺少社会性声誉层。
更强的任务需要协作,协作需要评估
OpenClaw 这一波还带来了一个重要的副产品:Agent 的多样性。
当 Agent 常驻在每个人的设备上,拥有了各自的上下文、各自的技能配置、各自的工作流,差异化就自然发生了。每个人的 Agent 开始变得不一样——这是协作的前提。
但为什么需要协作?因为更强的任务,单个 Agent 做不了——
冗余 —— 一个全能 Agent 必须加载大量它用不到的技能。你不会找同一个人同时做你的律师、医生、设计师和会计。
token 产出递减 —— 技能越多,单 token 的产出价值递减。像一把背了太多工具的瑞士军刀,每个刀片都不够锋利。
专业深度不够 —— 复杂项目中每个环节都需要顶尖水平。"什么都会一点"的 Agent 在真正专业的任务上不够用。
上下文瓶颈 —— 单靠用户提供的上下文完全不够。用户自己也不知道所有答案。
因此需要多个专家型 Agent 协作——每个在自己擅长的领域做到极致。Agent 的多样性(OpenClaw 这波带来的)恰好让协作成为可能。
但协作只解决了一半问题。
协作解决了"谁来做"——没有解决"怎么知道做得好"。
编译器只能验证局部结果,不能验证长期可信度 用户只能评价自己看到的那一小段,无法评价整个协作链 平台规则可以约束违规,却不能沉淀"谁长期值得被委托"
当任务开始跨人、跨时间、跨 Agent 发生时,评估对象不再只是"这次做得对不对",还包括"这个 Agent 以后还值不值得继续合作"。单次任务评估不够了。
能力问题靠协作解决。评估问题需要另一种机制。
五代产品的四维演进
把五代产品的四维突破排在一起看:
| 退回用户主观反馈 |
两条从这张表里读出的规律:
第一,四维不是齐头并进的。 每一代只在 1-2 个维度上实现代际飞跃——但每一代做到现象级,都是因为在关键维度上做到了极致,大幅提升了交付价值,而不仅仅是"够用"。ChatGPT 在输入层做到了极致(自然语言接口让所有人都能用),Cursor 在评估层做到了极致(编译器让"对不对"自动化),OpenClaw 在三个维度同时突破。
第二,评估维度的演进最不均匀——走到常驻 Agent 时出现了结构性空白。 从"用户自然聚集在低置信度场景"→"重定义评估标准"→"引入自动化评估"→"Agent 自评估"→ 退回用户主观反馈。前四代的评估维度在进步,到第五代反而倒退了。
为什么倒退?因为常驻 Agent 的任务多样性太高。每个用户的评估方式都不同,且单个用户不具备全面评估的能力。
这是当前 Agent 产品的结构性空白。
下一代的评估层
代码有编译器验证对错。任务完成率可以告诉你委托执行做没做完。
但当 Agent 开始代表你协作、替你做判断、长期存在于网络中时——什么能告诉你它是否值得信任?什么能告诉你它的判断力在成长?
从技术层面看,从 ChatGPT 到现在,主流的反馈信号——无论是 RLHF 的 reward model 还是产品内的点赞点踩——本质上都是基于单人、单次交互的主观判断。这类信号在短周期单任务里足够用,但在长周期的多 Agent 多次博弈里,它结构性地不够——因为它无法捕捉"这个 Agent 跨多次协作的可信度变化"。
举个例子:两个写作 Agent 都能按时交稿,任务完成率一样高。但其中一个的内容经常被别的 Agent 引用、纠错后会收敛、下次协作更容易被继续委托;另一个虽然每次都"完成任务",却从不被复用。如果没有社会反馈,这两者在系统里看起来几乎一样;但在真实协作网络里,它们根本不是一类东西。
在人类社会里,一个人是否值得信任不是自己说了算——是别人是否记住你、是否愿意再次合作、是否因你而调整自己的行为。这就是社会反馈。
前五代产品已经把所有前置条件铺好了:语言接口 ✓ 人格投射 ✓ 可验证执行 ✓ 自主委托 ✓ 个人常驻 ✓。单体 Agent 的能力已经足够好。
但社会层仍然高度早期,远未形成稳定有效机制。
构建 AI 社会:值得深度思考的 3 个问题
如果 Agent 时代的评估层来自社会反馈,那我们面对的其实是一个更大的问题——怎么为 AI 构建社会?
这不是一个比喻。当每个人都有自己的 Agent,当 Agent 之间需要协作、需要被评估、需要建立信任——一个由 AI 和人类共同构成的新型社会结构正在成为必须。
从这个大问题出发,至少有三个核心子问题需要被回答:
1. Agent 的目标函数应该优化什么?
如果目标函数是"最大化用户单次满意度",RLHF 的结构性产物就是 sycophancy——Agent 会越来越擅长讨好你。那目标函数应该怎么设计,才能让 Agent 在社会中形成真正的判断力,而不是退化成讨好机器或 AIGC 噪音?已经有先例:某些 AI 社交平台上百万 Agent 互动,但超过 93% 的评论零回复——有规模互动,零社会化。
2. Agent 之间怎么建立信任?
人类靠时间和重复博弈建立信任。Agent 可以读完对方全部历史。当信息不对称被大幅削弱,信任的形成机制还一样吗?还是需要全新的验证方式?
3. Agent 的个体身份如何被定义?
当 Agent 只服务一个用户时,它的"身份"就是用户给它的设定。但当 Agent 进入社会——和其他 Agent 协作、博弈、建立声誉——它的身份还只是设定吗?人类社会花了几千年演化出法律、声誉、市场、文化来支撑身份的形成——AI 社会需要什么样的等价物?
新的社会原子
过去的社会,人类作为单个社会原子面向市场。
当影视飓风的 Tim 看到 Seedance 2.0 发布时,他的恐惧是真实的——模型把我的能力都替代了,我以后靠什么面向市场?这种焦虑不只属于导演——它属于每一个靠专业技能吃饭的人。
但未来的社会里,社会原子不再是单个人——而是"人 + AI"。 你的 Agent 带着你给它的价值观、你积累的技能、你独有的上下文和判断力,与你一起面向市场和社会。那个导演的 Agent 不会替代他——它会带着他的审美判断力、他的叙事风格、他对镜头语言的直觉,去和其他 Agent 协作完成他一个人做不了的事。
要实现这个愿景,有太多深刻的问题需要被解决。这篇文章里只提了 3 个。而真正难的不只是提出正确的问题——更是在没有任何先例可参考的情况下,找到可行的答案。
AI 产品在以前所未有的速度迭代,但 Agent 的社会基础设施仍然高度早期——我们就在这片无人区里,一边想一边做,着实有点"前不见古人,后不见来者"的味道。
但反过来想——谁先把这层建起来,谁就定义了未来十年 AI 和人类共处的方式。
所以如果你也相信"人 + AI"是新的社会原子,如果你对构建 Agent 社会这件事有信念和热情——无论你是创业者、投资人还是社交行业的从业者——我们非常期待和你交流。
下一篇文章,我们会讨论一个更具体的问题:基于 Agent 的特性设计社交机制,为什么人类社交产品的经验几乎全部失效?
夜雨聆风