乐于分享
好东西不私藏

AI Agent 界面战争结束了:GUI 赢了,一人公司怎么接招

AI Agent 界面战争结束了:GUI 赢了,一人公司怎么接招

Riley Brown 做了个决定:把团队的七个工程师全部从 Claude Code 和 Cursor 迁到 OpenAI Codex。不是试用,是永久切换。

免费当然有吸引力。但这不是重点。

重点是他给 Startup Ideas Podcast 录的那期 masterclass,把一件很多人还没意识到的事说清楚了:AI 智能体的交互界面,正在收敛为一个行业标准。

而且这个标准,已经不是你以为的那个了。


你以为你在选工具,其实标准已经定了

2025 年,终端界面是王道。

Cloud Code 跑在终端里,很酷。Cursor 的 terminal 模式让开发者觉得自己在掌控一切。那时候的叙事是:真正的工程师都在用命令行,GUI 是给外行玩的。

Codex 出来之后,事情变了。

它看起来像 ChatGPT。左边聊天列表,中间对话区域,右边是工作产出。就这么简单。

简单恰恰是它的杀伤力。

Cloud Code 的新桌面版用了这个布局。Cursor 用了这个布局。Codex 也用了。

这不是巧合。这是一个模式在收敛。

终端最大的问题是门槛。不是技术门槛——是心理门槛。你打开一个终端窗口,看到闪烁的光标,第一件事是”我该敲什么”。对不在代码一线的人来说,这个问号足以让他们关掉窗口。

Codex 的方案不是降低 Agent 的能力,而是降低进入 Agent 的心理阻力。同样的 Agent,换个壳,使用人数差一个数量级。

让我想起工厂用电的老故事。

工厂花了几十年才明白怎么用电——他们不是把电线拉到厂房里就完事了,而是花了三十年把蒸汽机的位置空出来,重新设计整个生产线。电动机不是”替代”了蒸汽机,电动机重新定义了工厂长什么样。

GUI 对 AI Agent 来说,就是那个”重新定义”。


文件夹即操作系统

Codex 最不起眼的功能,可能恰恰是最重要的。

它按文件夹组织工作。每个文件夹是一个项目。项目里的每个聊天都挂在项目下面。

你不再是在跟一个聊天机器人对话。你是在一个工作空间里操作。文件夹是项目上下文,聊天是任务线程,Agent 是工人。

Riley 说,按 Command-N 就能启动一个新的并行 Agent。一个在研究,一个在写代码,第三个在做别的什么。旋转的点表示 Agent 在干活,蓝色的点表示完成了、你没看。

这就是多任务。不需要你开七八个浏览器标签,不需要你在不同的工具之间切换。同一个界面,同一个权限体系,同一个项目上下文。

Anthropic 把 Claude Code(编码)和 Claude Cowork(业务工作流)做成了两个独立产品。你不能用 Cowork 来构建应用,你得切到另一个产品。

Codex 不做这个切割。知识工作、编码工作、自动化、文档——全部在一起。

这个区别听起来像产品经理的争论。但对一个人干活的人来说,它是天壤之别。

你不需要在五个工具之间维持五个不同的上下文。你在一个地方完成所有事情。


把重复动作压缩成一行命令

Codex 有一个叫 Skills 的功能。

用法很简单:你识别一个经常做的任务,把它封装成一个可复用的 Agent,然后用名字调用它。

Riley 举了个例子——“YouTube Researcher”。一条命令,拉取某个创作者最近 10 个视频的转录,生成一份定制报告。

这不是新概念。但放在 Codex 这个环境里,味道就变了。

当你有一堆 Skills,每个对应一个你经常做的任务,Codex 就不再像一个聊天机器人。它开始像一个操作系统。

你不需要记住每个任务的完整操作流程。你只需要记住名字。

对一人公司来说,这意味着什么?

意味着你在积累”操作资产”。每次封装一个 Skill,你就把一个原本需要你亲自做的流程,变成了系统里的一条指令。这些指令不会跑,不会离职,不会请假。

花一个月积累的 Skills,是你作为超级个体的护城河。别人复制得了产品思路,复制不了你那套被反复打磨的自动化工作流。


浏览器 Agent:三个月后的分水岭

Riley 在 masterclass 里提到一件事,很多人可能没注意到。

他一直对 AI 控制浏览器持怀疑态度——慢、无聊、不如直接告诉 Agent 做什么。

但 GPT 5.5 改变了他的想法。他的预测:三个月内,浏览器 Agent 控制浏览器的能力将达到和人类持平。

这件事值得认真对待。

想想你每天有多少时间花在浏览器上:查资料、填表格、提交工单、比价、看文档。这些任务不需要”思考”,但需要你”操作”。如果 Agent 能替你操作,你省下来的不是时间——是认知带宽。

不需要等它完美。Riley 说:趁速度还没到位,先把文档和工作流准备好。等它准备好了,你就是第一批能用上的人。

这个节奏很熟悉。2023 年初那些早早开始用 ChatGPT 的人,和等到年底才开始用的人,差距不是”用了没用”,是”用得多深”。


第一天跑什么

Riley 列了四个项目,建议按顺序来:

先玩 30 分钟。这是反直觉的——大多数人打开新工具就想提高生产力,第一会话就想产出。Riley 说先玩。做个游戏。让浏览器 Agent 自己跟自己下棋。感受一下这东西能干什么。

然后跑一个深度研究。选一个话题,让 Codex 用最大算力去查,整理成表格,再把表格转成文档和演示文稿。一次任务,三个产出物。你会立刻理解它的输出范围有多宽。

第三个做 3D 模拟。或者在 Mac 上一步生成一个移动应用。不是为了实用,是为了感受可能性。

最后,自动化你最烦的那个日常任务。把你每天做的事列出来,挑最烦的那个,用 computer use 或插件建一个工作流,让 Agent 把它变成自动化。

两小时之内,你就能有一个有用的自动化。这个回报,足以覆盖整个实验的成本。


他的核心原则只有一句:不怕看起来蠢的人,才是赢家。

大多数人对工具的第一期待是 30 分钟内看到生产力。觉得别扭就放弃了。奖励留给那些钻进兔子洞、搞砸了、但保持好奇心直到跨过不适感的人。

你会觉得蠢。

那个感觉就是门票。

付得起门票的人,最后都成了高手。