未来的软件不是给人用的
今天早上折腾了几个小时OpenClaw,有一个念头越来越清晰:我们正在经历一场静悄悄的范式转换——软件的”用户”正在从人类变成AI智能体(Agent)。
这不是科幻。这件事正在发生。
一、一次实操引发的思考
OpenClaw是最近爆火的开源AI Agent框架,短短几个月GitHub星标过10万,全球估计有三四十万用户。它不是一个聊天机器人,而是一个跑在你自己机器上的持久化Agent网关——你通过微信、Telegram、Slack给它发消息,它不仅能回复,还能替你执行真实的操作:发邮件、管日程、跑终端命令、部署代码。
但今天早上让我真正兴奋的,不是这些花哨的功能,而是两个更底层的发现。
第一个发现:经验可以固化。 与AI反复交互中,我发现它总在某些地方犯同样的错。过去的做法是每次手动纠正,换个会话窗口它又犯。OpenClaw的Skill机制给了一个优雅的解法:把正确的做法写成一个SKILL.md文件,Agent下次遇到同类任务直接按这个来。这等于是”教会”了Agent干活——你的交互经验不再是一次性的,而是变成了可复用的知识资产。
第二个发现:多Agent各管各的上下文。 OpenClaw支持多智能体路由,每个Agent拥有独立的工作空间、独立的技能集、独立的会话记忆。一个Agent专门写代码,一个Agent专门审代码,一个Agent专门跑测试,通过一条确定性的Pipeline串起来。每个Agent只看到自己需要的东西,上下文窗口不会被无关信息稀释。
这两个发现让我开始想一个更大的问题:当AI Agent成为软件的主要使用者,软件应该长什么样?
二、Karpathy说:有一类新用户出现了
几乎在同一时间线上,Andrej Karpathy——OpenAI创始成员、特斯拉前AI总监、”vibe coding”一词的发明者——在2025年YC AI创业营的演讲中,抛出了一个改变游戏规则的判断:
“出现了一个全新的数字信息消费者和操作者类别——不是人类,也不是传统程序,而是AI Agent。”
他举了两个对比案例来说明这意味着什么。
第一个是身份认证服务Clerk的文档。它写得很好——对人类来说。图文并茂,标注了”先点击这个按钮””再拖动到那个位置”,一步一步截图教你。问题是:AI Agent不会”点击”,也看不懂截图。当Karpathy试图让AI帮他集成Clerk时,AI完全懵了。
第二个是部署平台Vercel。它把文档重新设计了一遍,加入了curl命令、结构化API说明、机器可解析的格式。AI Agent读完文档就能直接操作,不需要人类翻译。Karpathy说——这就是”为Agent而建”。
他还提出了llms.txt的概念:网站除了给人看的HTML页面之外,应该提供一份给LLM读的纯文本版本。因为HTML是给浏览器渲染、给人的眼睛看的;Agent需要的是干净的、可解析的、结构化的信息。
这个观察揭示了一个深刻的矛盾:过去七十年,所有软件都是围绕”人如何使用”来设计的。但现在,软件的使用者正在增加一个新物种。
三、软件的界面正在消失
让我们把这个逻辑推到底。
传统软件的核心是什么?是GUI——图形用户界面。按钮、菜单、拖拽、弹窗,一切设计都是为了让人类的眼睛能看到、手指能操作。过去几十年,软件工程师的大量精力花在了”界面”上:怎么让按钮更好看,怎么让流程更直觉,怎么减少用户的点击次数。
但Agent不需要这些。
Agent需要的是:一个清晰的API,一份结构化的说明文档,一套可编程的接口。它不需要看到按钮——它需要知道可以调用什么函数。它不需要漂亮的排版——它需要机器可解析的数据格式。它不关心交互动效——它关心返回值是否符合预期的Schema。
这就是为什么Karpathy把LLM类比为一种新的操作系统。在传统操作系统上,我们开发App给人用;在LLM这个”新OS”上,我们开发Skill给Agent用。这两件事的设计逻辑完全不同。
回到我早上的OpenClaw体验。那个SKILL.md文件是什么?它就是一种”给Agent用的软件”。它没有界面,没有按钮,没有交互流程。它就是一段Markdown文本,里面写着:遇到什么情况该怎么做、用什么工具、按什么顺序。Agent读取它,就像人类打开一个App。
而多Agent的Pipeline呢?它就是一种”给Agent设计的工作流”。传统的项目管理软件(Jira、Trello、飞书)是给人类项目经理看的——看板、泳道、甘特图。但Agent不需要看板。Agent需要的是一个YAML文件,定义:第一步谁做什么,第二步谁接手,做完了输出到哪里,出错了怎么回退。
有一位开发者在分享他的OpenClaw多Agent流水线时说了一句很精辟的话:“每当我试图在Prompt里写流程控制(’做完了就发给审稿人’),就引入了一个失败模式。LLM不是可靠的路由器。” 他的解决方案是:让代码管流程,让LLM管创意。用确定性的工作流引擎串联各个Agent,每个Agent只在自己擅长的环节发挥作用。
这和传统的软件架构思维完全是两回事。我们不是在设计”用户体验”,而是在设计”Agent体验”。
四、三个正在发生的转变
如果”软件为Agent而生”这个判断成立,至少有三个深刻的转变正在发生。
第一,文档比界面更重要。 在传统软件世界里,文档是附属品——没人爱读文档,大家靠直觉操作界面。但在Agent时代,文档就是界面。一个服务如果没有清晰的、机器可解析的文档,Agent就用不了它,这个服务就等于不存在。Karpathy提到的llms.txt、Vercel改造文档的做法,都是这个方向的先声。
第二,API优先,GUI可选。 以前我们先做界面,再补API。未来应该反过来:先做一套Agent能调用的API和工具集,GUI只是人类偶尔需要”看一眼”时的可视化层。这就像现在很多开发者已经习惯用命令行而不是图形界面——Agent更进一步,连命令行都不需要,它直接调函数。
第三,软件的”用户测试”要重新定义。 以前我们做用户测试,是找真人来点点看,看他们在哪里困惑、在哪里放弃。未来我们应该也做”Agent测试”——让AI Agent来使用你的软件/API/文档,看它在哪里失败、在哪里产生幻觉、在哪里调用出错。如果Agent用不顺,说明你的接口设计有问题。
五、回到我的实践:科研写作中的Agent
说回我自己的领域。在科研写作中,我已经在用一套多Agent协作的方式工作。一个Agent负责按大纲生成初稿(Writer),另一个Agent从学术规范和逻辑严密性的角度审稿(Reviewer),然后Writer根据审稿意见修改,循环迭代直到质量达标。
每个Agent有自己专属的Skill——Writer的Skill里写着”如何组织段落””如何引用文献””如何使用学术用语”;Reviewer的Skill里写着”检查论证链是否完整””术语是否前后一致””数据引用是否有出处”。它们各司其职,互不干扰,通过Pipeline自动衔接。
这套系统的本质是什么?就是一组”给Agent用的软件”。SKILL.md是Agent的操作手册,Pipeline是Agent的工作流程,研究素材库是Agent的参考数据库。整个过程中没有一个GUI按钮。
更有意思的是,这套系统可以持续学习。每次我发现一个新的写作规范或者纠正一个常见错误,我就更新对应的Skill。下次所有Agent自动继承这个改进。这和传统软件的版本更新不同——它更像是在给一支团队”培训”新技能,只不过这支团队是AI Agent。
六、一个更大的图景
让我们把视野拉远一点。
Karpathy把软件的演进分为三个时代:Software 1.0是手写代码,Software 2.0是神经网络权重,Software 3.0是自然语言编程。在3.0时代,”最热门的编程语言是英语”。
但我想在此基础上加一层:在Software 3.0时代,不仅编程的方式变了,软件的服务对象也变了。
过去:人写代码 → 代码服务于人。 现在:人用自然语言 → LLM生成代码 → 代码服务于人。 未来:人定义意图 → Agent编排Agent → 软件服务于Agent → Agent服务于人。
注意最后这个链条。人不再直接”使用”大多数软件。人定义目标和约束,Agent去调用各种工具和服务来完成任务。人最终看到的是结果,而不是过程。就像你不需要知道快递分拣中心的传送带怎么运转——你只需要下单,然后收到包裹。
这意味着,未来大量的软件将是”Agent-to-Agent”的——Agent A调用Service B,Service B调用Tool C,整条链路上没有任何人类在操作界面。人类只在最开头定义任务,和最末端验收结果。
SaaS行业2026年初的股价暴跌(48小时蒸发2850亿美元)或许就是这个转变的早期信号。当每个人都可以用自然语言让Agent生成一个完全定制的工具,谁还需要为通用SaaS付费?当Agent可以直接调用底层API完成任务,谁还需要一个精心设计的人类界面?
七、写在最后
回到今天早上那个让我兴奋的时刻。
OpenClaw之所以让我觉得”对了”,不是因为它有多少花哨功能,而是因为它让我第一次真切地体验到:软件可以不是给人”用”的,而是给Agent”读”的。
一个Skill文件就是一个Agent的App。一条Pipeline就是一个Agent的工作流。一套多Agent架构就是一个Agent的组织。在这个世界里,Markdown比按钮重要,API比界面重要,结构化比美观重要。
Karpathy说,2025到2035是Agent的十年。我越来越相信他是对的。但他还补充了一句很重要的话:”不是钢铁侠的机器人,而是钢铁侠的战衣。”——Agent不是替代人的,而是增强人的。人负责定义意图、设定边界、验收结果;Agent负责执行、协调、优化。
那么,作为这个时代的参与者,我们该做什么?
如果你是开发者:开始为Agent设计你的产品。不只是加个API,而是从根本上想:如果你的用户是一个LLM驱动的Agent,你的文档够不够清晰?你的接口够不够结构化?你的错误信息够不够对Agent友好?
如果你是研究者:考虑把你的知识体系”Skill化”。你在某个领域积累的判断力、方法论、经验法则,能不能写成Agent可以读取和执行的指令集?这不是降低你的价值,恰恰相反——这是把你的专业知识从”存在脑子里”变成”可以规模化复用”。
如果你是管理者:重新审视你的团队工作流,哪些环节可以被多Agent Pipeline替代?不是替代人,而是替代人与人之间低效的信息传递和重复劳动。让人做人擅长的事——定义方向、做出判断、承担责任;让Agent做Agent擅长的事——执行指令、处理信息、保持一致性。
未来的软件不是给人用的。它是给Agent用的,而Agent是给人服务的。
这不是一个遥远的预言。这是今天早上我在OpenClaw上亲手体验到的现实。
作者按:Andrej Karpathy是OpenAI创始成员、特斯拉前AI总监,2025年提出”vibe coding”和”Software 3.0″概念。OpenClaw是由Peter Steinberger创建的开源AI Agent框架,支持多智能体路由和技能系统(github.com/openclaw/openclaw)。本文观点仅代表个人思考,欢迎讨论。
夜雨聆风
