OpenAI 的 Codex 学会了使用 Adobe 软件AI 智能体:桌面操作新范式
Peter Gostev,一家AI公司的负责人,前两天他在用Adobe Lightroom处理照片。他手头有50张照片,都需要降噪。这个任务有多烦人呢?你得一张一张点进去,每张都做降噪处理。就算你知道怎么批量处理,也得查一下怎么操作。Gostev 想了一下,觉得这活儿太枯燥了。AI 驾驭桌面应用
于是他做了一个决定。他让OpenAI 的Codex去搞定。结果Codex真的搞定了。它自己摸索出了怎么操作Lightroom,然后把50张照片的降噪都处理完了。听起来好像也没什么大不了的?不就是批量处理照片吗?关键在于,Codex是怎么做到的。它不是通过Lightroom的官方API,不是通过某个插件,也不是通过浏览器绕路。它是直接和桌面应用交互,自己摸索出了怎么操作这个软件。而Lightroom根本没有公开支持这种操作方式。AI Agent 的崛起
我把这个故事看了三遍。然后我意识到,这事儿比我一开始想的要重要得多。你想啊,以前我们说AI能帮你写代码、能帮你写文章、能帮你画画。但这些都是AI在自己的世界里完成的。它给你输出结果,你自己去用。现在不一样了。AI可以直接操作你电脑上的软件了。而且它是自己学会的。没人教它怎么用Lightroom,它自己摸索出来的。这不就是传说中的AI agent吗?一个能自己看界面、自己理解操作逻辑、自己完成任务的agent。Gostev 说,"你得一张张点进去降噪50张照片,听起来就很费事,所以我就让Codex去想办法,结果它真的做到了。"记者问他具体怎么做到的,他说技术上有点复杂,他这样的高级用户才能做到。但重点是,这展示了AI agent的未来方向。不是帮你生成内容,而是直接帮你操作软件。像一个真正的助手一样。行业巨头的转向
这一趋势已在行业内引起共鸣,预示着未来工作方式的深刻变革。(1) Cursor 的战略转变
我第一次意识到这件事的重量,是看到Cursor的最新动作。Cursor是现在最火的AI代码编辑器之一,年化收入已经到了20亿美元。但上周他们发布了Cursor 3,做了一个让人意外的决定。他们把传统的代码编辑器降级了。新版本的默认界面是一个agent管理控制台。你可以在里面调度agent、查看输出、决定哪些代码可以发布。传统的IDE变成了一个后备选项,需要的时候才切换过去。用他们的话说,IDE现在是SSH,agent控制台才是真正的控制面板。这说明什么?说明写代码这件事本身,正在变成一个次要活动。更重要的是调度和管理agent。你想想,Cloud面板取代了SSH终端,Kubernetes控制器取代了手动配置服务器。现在,agent管理层正在取代代码编辑器成为主要工作界面。这个趋势已经在基础设施团队发生了。现在轮到开发者了。(2) OpenAI 的宏大目标
然后我又看到OpenAI首席科学家Jakub Pachocki最近的访谈。他说OpenAI的内部目标是在2026年9月之前,让AI达到"研究实习生"的水平。然后在2028年3月之前,实现完全自主的AI研究员。什么叫研究实习生水平?就是可以独立工作一段时间,比如几小时甚至几天,只需要偶尔让你确认一下方向。什么叫完全自主的研究员?就是你告诉它"去改进模型能力"或者"解决对齐问题",它自己就能搞定。Pachocki 说,现在的编码工具已经有了爆发式增长。"对大多数人来说,编程这件事已经发生了很大变化。"他没有夸张。你看看Codex自动操作Lightroom这事儿就知道了。AI已经不止是在帮你写代码了。它开始能直接操作软件、完成任务、解决具体问题。我们与 AI 的关系变革
说实话,我有点感慨。两年前ChatGPT刚出来的时候,大家还在讨论AI能不能写代码。现在AI不光能写代码,还能自己操作软件了。进展速度快得让人有点措手不及。角色与技能的转变
你可能会说,Gostev的例子只是个例,普通人做不到。确实,他自己也说了,这个操作技术上有门槛。但门槛是会被磨平的。以前写代码也有门槛,现在Copilot让普通人也能写。以前操作服务器有门槛,现在云平台让你点点鼠标就行。同样的道理,操作软件这件事,迟早也会变得简单。到时候,你不需要知道Lightroom怎么批量降噪。你只需要说一句"帮我把这50张照片都降噪一下",AI就帮你搞定了。这听起来好像挺方便的。但我想得更多一点。如果AI可以自己操作软件,那它的工作边界在哪里?理论上,任何有图形界面的软件,AI都可以学会操作。Photoshop、Excel、Final Cut、甚至一些专业的工业软件。那我们这些用软件的人,价值在哪里?我其实没有答案。但我觉得有一件事是确定的。我们和AI的关系,正在发生根本性的变化。以前AI是工具,我们是使用者。现在AI开始变成一个能自主行动的agent,我们变成了管理者和监督者。你不需要知道具体怎么做,但你得知道要做什么、怎么判断结果对不对。这个转变,比单纯的"AI取代工作"要复杂得多。它意味着我们的工作方式会彻底改变。不是AI帮你干活,而是你指挥AI干活。区别在于,前者你还是操作者,后者你变成了决策者。决策者需要的能力和操作者完全不同。判断力、审美、对目标的清晰认知,这些东西会变得越来越重要。而具体的操作技能,可能会逐渐贬值。就像现在的司机不需要知道发动机怎么工作一样。未来的创作者可能也不需要知道软件怎么操作。你只需要知道你要什么。远见者的洞察
最后说一个有意思的事。Gostev之前还发明过一个东西,叫BullshitBench,俗称"拉屎测试"。用来测试AI能不能识别胡说八道。他说很多人拿AI生成的内容糊弄人,他觉得需要有一个测试来判断AI是不是在信口开河。一个Agent的未来
我觉得这个人的思路很清晰。他既看到了AI的能力边界,也看到了AI的潜力。所以他能做出让Codex操作Lightroom这种事,不是偶然。他知道AI能做什么,也知道怎么让它去做。未来可能每个人都有一个这样的agent。它会用你电脑上的所有软件,帮你处理各种琐事。到那时候,我们可能会忘了,曾经有一段时间,我们需要自己一张张点开照片去做降噪。就像我们现在已经忘了,曾经有一段时间,打字需要专门的打字员一样。时代在变。以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。