AI Agent 真正的杀手级应用:Codex 七大能力全拆解,ChatGPT 只能聊天,它却能替你干活
大家好,今天我们来聊一聊 AI Agent 的杀手级应用。
最近 AI 圈有个现象很有意思:ChatGPT 月活用户突破 5 亿,但大多数人的用法还停留在”问问题、查资料、写写文案”。明明 AI 已经进化到了 Agent 时代,为什么大家还在用它做最基础的事?
答案很简单——工具和场景之间存在一条鸿沟。ChatGPT 是云端对话工具,文件存在别人服务器上;而真正能替你干活的 Agent,需要拿到你电脑的钥匙。
OpenAI 推出的 Codex,就是来填这条鸿沟的。
不只是”另一个 ChatGPT”
先厘清一个关键区别:ChatGPT 和 Codex 不是同一个物种。
ChatGPT 的文件存在云端,你上传什么、生成什么,都在 OpenAI 的服务器上。Codex 不一样,它的所有文件都存在你的电脑本地。这个差异看似简单,却决定了 Codex 能做到 ChatGPT 做不到的一系列事情:创建动态图形视频、生成落地页、制作游戏和 3D 模拟、开发移动应用和桌面应用、生成带图表的 Excel 和 Word 文档、创建演示文稿并导出到 Canva。
更关键的是,Codex 可以完全控制你的电脑和浏览器。这不是聊天助手,这是一个能替你操作电脑的 Agent。
有博主把 Codex 的核心能力拆成了七项,思路非常清晰。我在这基础上做了整理和延伸,下面逐一看。
能力一:完整的本地文件访问权限
这是 Codex 的地基能力。因为文件在你电脑上,Agent 可以直接读写你本地的任何文件夹。
一个真实场景:你的 Downloads 里存了 60 张收据照片,需要整理分析。对 Codex 说一句”帮我分析这些收据,做个 Excel 仪表板”,7 分钟后它就能完成 OCR 识别、交易分类、图表生成,直接在你的电脑上创建一个完整的 Excel 工作簿——总支出、收据类别汇总、支付方式汇总、月度趋势图,一应俱全。
文件就在你电脑上,打开就能编辑、分享,不需要从云端下载。
组织文件的方式也很直觉:用 Project 功能,每个项目对应电脑上的一个文件夹,Agent 创建的文档自动存入。支持多任务并行,一个项目里可以同时跑多个对话。
能力二:双系统记忆——偏好 + 过程
AI Agent 最被低估的能力是什么?记忆。没有记忆的 Agent 就是个健忘的实习生,每次都要从头教。
Codex 有两套记忆系统。一套是手动记忆,存储在 agents.md 文件里,记录你的偏好和工作风格。比如你对一个落地页的格式很满意,说一句”以后落地页都按这个样式来”,Codex 就会自动把这个偏好写入 agents.md,后续所有对话都会遵守。这个文件你可以手动编辑,也可以让 Agent 更新。
另一套是自动记忆,存在 memories 文件夹里,记录你和 Agent 之间的所有交互过程。这个你不需要碰,Codex 会自动优化。你可以看看它记了什么,理解 Agent 是怎么”理解”你的。
双系统记忆的设计思路很值得借鉴:偏好是显性的、可控的;过程是隐性的、自优化的。这种架构让 Agent 越用越懂你,而不是越用越臃肿。

能力三:插件生态,@ 一下就连接
Codex 现在有超过 100 个插件,可以连接 Gmail、Notion、Slack 等常用工具。调用方式极其简洁——用 @ 符号。
举个实际场景:你说”查看我过去两周的邮件,找出所有品牌合作邀请,做个分析表格”,同时 @Gmail 插件。5 分钟后,Codex 搜完邮件,创建一个 Markdown 文件,列出所有赞助商、合作要求、研究笔记。因为能读邮件,自然也能发邮件——你可以直接让它回复。
更妙的是跨工具联动。让它通过 Notion 插件读取你之前写的所有脚本,然后用”你的风格”写一个新脚本。这种跨数据源的能力,才是 Agent 的真正价值——不是单一工具的增强,而是工作流的编排。

能力四:Skill 系统,把经验变成可复用的 SOP
这是 Codex 最强的能力之一,也是最被低估的。
Skill 本质上是可复用的工作流程指令,存在插件文件夹的 Skill 子目录里。你的 Agent 每次执行这个技能时,都会严格遵循这些指令。
创建 Skill 有两种方式。第一种是直接用提示词:”创建一个叫品牌分析报告的技能”,但这种方式质量往往不够好。更好的方式是先让 Agent 做一遍,来回迭代到满意,然后说”把这个变成技能”。Codex 会把整个工作流程转化为指令文件,以后只需要按斜杠键输入技能名称就能一键调用。
关键在于,Skill 不是一次性的。每次使用都是一个优化的机会。比如你发现某个图表格式特别好,说一句”以后都用这个格式”,Codex 就会更新技能文件。这种持续进化的机制,让 Agent 从”执行命令”升级为”积累经验”。
我认为 Skill 系统揭示了 AI Agent 的一个重要趋势:未来的竞争不是谁的模型更强,而是谁的工作流沉淀更厚。 你和 Agent 之间的协作历史、你积累的 Skill 库,这些才是真正的壁垒。

能力五:内置 GPT Image 2,图片生成零摩擦
Codex 内置了 GPT Image 2,直接在 Agent 环境里生成图片,不需要切换工具。
实际操作很简单:创建一个项目,上传毛衣照片,说”帮我公司生成 5 张产品照,不同国籍模特穿着这件毛衣”。Codex 调用内置图像生成技能,5 张高质量产品照直接存在项目文件夹里。
图片生成是 Codex 的默认内置技能,不需要额外启用。这种”零配置”的设计思路贯穿整个产品——能力就在那里,你只需要说出来。
能力六:浏览器和电脑控制,Agent 替你点鼠标
这是最让人震撼的能力。Codex 可以像人类一样控制你的电脑和浏览器。
两个真实案例。第一个:让它打开 Canva 应用,创建演示文稿,把 5 张图片分别放在 5 张幻灯片上。你完全不用碰鼠标,Codex 自动打开 Canva、创建文件、放入图片,你能看到它的鼠标轮廓在屏幕上移动。
第二个:开发一个网页应用后,让它自动测试界面——点击按钮、滚动页面、测试导航、标记答案、检查侧面板。整个过程完全自动化。
任何你在浏览器里能做的事,@browser use 插件都能帮你做。这已经不是”辅助工具”了,这是一个 24 小时待命的数字员工。

能力七:自动化,把任务变成定时执行
最后一项能力是自动化。你把任何任务设置成定时执行,Codex 就会按时完成。
比如之前创建的品牌合作分析技能,你说”每周五上午 9 点自动运行”,Codex 就会创建一个自动化任务——定时扫描 Gmail、找品牌合作邮件、更新表格。你可以在自动化标签里查看所有任务的状态、运行时间、上次执行结果,随时编辑调整。
这是 Agent 从”被动响应”到”主动执行”的关键一步。不需要你每次去触发,Agent 自己按时干活。
还有一个”黑科技”:Chronicle 屏幕监控
Codex 还有一个新功能叫 Chronicle,目前是研究预览版,需要手动开启。
Chronicle 会持续录制你的屏幕,让 Agent 始终了解你正在做什么。比如你在浏览器里打开了一个演示文稿,问 Codex”我的幻灯片还缺什么”,它会调取你屏幕的最近截图,给出有针对性的建议。
这个功能确实强大,但也有明显的隐私风险——它会一直录屏。要不要开,取决于你对效率和隐私的取舍。

ChatGPT 用来聊,Codex 干活
总结一下:Codex 不是”更好的 ChatGPT”,它们是两种完全不同的工具。
ChatGPT 是云端对话工具,适合偶尔提问、查阅资料。Codex 是本地化的 Agent 超级应用,适合处理本地文件、构建可复用工作流、让 AI 控制你的电脑。
这背后反映的是 AI 工具演进的一个核心逻辑:从”对话式 AI”到”行动式 AI”。ChatGPT 让 AI 能”说话”,Codex 让 AI 能”做事”。而当 AI 能做事的时候,真正改变的不是效率,而是工作方式本身——你从执行者变成监督者,从重复劳动中解放出来,把精力放在真正需要判断力和创造力的地方。
AI Agent 的时代,才刚刚开始。

夜雨聆风