最近 Codex 更新实在太猛了——浏览器操控、Image 2 生图、手机端控制、Hook 机制,隔几天就是一个大版本。身边很多朋友问我"Codex 到底怎么用?跟 Claude Code 有什么区别?"
今天这篇就从头到尾,把 Codex 的核心能力拆一遍。

Codex 和 Claude Code 到底有什么区别?
这两个我都在用,简单说一下我的感受:
本质上是同一类东西——都是从编程 Agent 逐步转向通用 Agent 的产品,分别是 OpenAI 和 Anthropic 两家出的。
区别在几个方面:
• 模型:Claude Code 默认用 Claude 模型,但可以自行替换成其他模型。Codex 桌面端只支持 OpenAI 的 GPT 模型。
• 易用性:Codex 的产品设计更友好,更适合零基础的白领工作者。Claude Code 自由度更高,但更偏向专业开发者。
• 功能更新:Claude Code 原本是最全面的,Skill、MCP、斜杠命令、Hook、远程操控都是它先发明的。但最近 Codex 的更新速度更快,发了浏览器操控、Computer Use、内置 Image 2,昨天还刚发布了手机端和 Hook。
• 价格:Codex 会员 20 刀/月,额度非常大方,而且不封号。Claude Code 大多数人没法用官方账号,基本得自己接 API 按量付费。
我的用法:写作和规划用 Claude Code + Opus 4.6,日常办公和执行用 Codex。编程的时候两个都用。
结论很简单:入门的朋友用 Codex 就足够了,有条件的朋友两个都上。而且两者逻辑相通,学会一个另一个也就会了。
安装:零门槛
你唯一需要准备的,就是一个 ChatGPT 账号,免费的也行(只是额度少一点)。
去 Codex 官网下载,双击安装,登录账号,选个"日常工作"的初始设置——完事。进来之后的界面跟 ChatGPT 很像,左边管理对话和任务,中间聊天,右边看结果。
我的独门秘方:打开任何 AI 工具,先不管别的,找到能对话的框就开始聊,找到看得懂的按钮就开始按。聊着聊着、按着按着,你就会了。
Codex 的 10 大核心能力
1. 本地文件操作
这是桌面端 Agent 跟对话 AI 最本质的区别。过去用 ChatGPT 要看本地内容,要么复制粘贴,要么上传文件。Codex 不一样——它可以直接读取和操作你的本地文件,而且不限数量。
你需要了解的就是"项目"这个概念。选中一个本地文件夹,这个文件夹就成了 Codex 的项目,里面的所有文件它都能自由读取和操作。
权限有三种模式:
• 默认权限:文件夹内自由读写,但不能联网、不能碰文件夹外的文件
• 自动审查(推荐):AI 自动判断操作是否危险,危险的才问你
• 完全访问:什么都能干,新手慎用
举个例子:我本地有 80 多条视频素材,命名全是乱的。让 Codex 按画面内容重新命名——它先看有多少视频,然后用抽帧的方式提取关键画面,拼成缩略图一组一组看,最后按"序号-任务-场景-行动"的格式全部重命名好。整个过程全程自动,一个权限都没提。
更强的是,它还能把关于风景的视频自动剪辑拼接成一条——它自己调用了 FFmpeg,问我要了权限,装好直接干。
2. 命令行使用
在我们授权的情况下,Codex 可以使用电脑的终端来执行命令。
这意味着什么?以前小白要装 Node.js、Git 这些依赖,得去找教程、对着命令一条条敲。现在直接跟 Codex 说"帮我装个 Node.js",它就熟门熟路帮你搞定了。
比这个更实用的——那些爆火但有上手门槛的新 Agent,比如 Hermes、龙虾,甚至 Claude Code 本身,都可以让 Codex 帮你装,装完还教你怎么用。你连官网链接都不用找,说个名字它自己搜。
还有像 Cursor、Antigravity 这类软件应用,平时得手动去网页下载安装的,它也能帮你搞定。
安装过程中遇到任何报错,截图发给 Codex,它直接帮你修。

3. 持久记忆
Codex 有两套记忆系统:
手动记忆(agent.md):
• 全局级:在设置 → 个性化 → 自定义指令里写,所有对话都生效
• 项目级:在项目文件夹里创建 agent.md,只在这个项目里生效
我更推荐直接在对话里说"以后对飞书文档的修改都用紫色字+删除线,帮我记到全局 agent.md 里",它自己就写好了。
自动记忆:在个性化里打开后,Codex 会在对话结束后自动把关键信息总结记录下来,以后遇到相关场景自动召回。
我的建议:明确的规则和要求用 agent.md 手动管理,让它自己帮你写。自动记忆打开就行,不用手动改。
4. Image 2 生图 + 完整项目开发

生图只是小功能,但这部分我带大家做一个完整的个人主页项目。
关键功能点:
• 计划模式:任务比较复杂时打开,Codex 会先出详细计划,你确认后再执行。适合自己也没想清楚的情况,可以跟 AI 讨论出一个方案。
• 引导功能:执行长任务时发现它跑偏了,可以随时补充纠偏指令,不会打断当前任务,在下一次工具调用后发送。
• Fork 分叉:每个 AI 回复下面都有这个按钮,可以从这里开一个新对话。前面聊得好好的、上下文也有价值,但再往下就聊劈了的时候用。
• Pin 批注:内置预览浏览器里可以直接在网页元素上 Pin 标注修改意见,对话框自动生成修改指令。
项目做出雏形后,让 Codex 自己生成项目级 agent.md——它会根据项目内容写好背景、规则、文件路径,以后新开对话也能立刻了解项目全貌。
5. 插件系统
Codex 的插件就是把 Skill、MCP、CLI 这些打包在一起的集合。内置了很多:浏览器操作、GitHub、表格、PPT、Mac 屏幕操作等。
用来部署网站特别方便——装上 Netlify 或 Vercel 插件,告诉它"帮我把这个网站部署上去",它自己搞定授权登录和部署,几分钟你的个人主页链接就能发出去。
6. 浏览器操控
Browser Use:Codex 可以直接操控浏览器,自动点击、翻页、截图、填写表单。比如让它做一个 MBTI 测试——鼠标自己在动,它自己看题目、自己选答案、自己翻页。
Chrome 插件:操控的是你自己的已登录浏览器,而且可以在后台执行多个页面的操作,不耽误你正常用浏览器。
7. Computer Use
不只浏览器,电脑上的 App 也能操作(目前仅 Mac)。比如让它放一首歌、操作剪辑软件给项目加音乐。效率目前还不是特别高,但方向已经很明显了。
8. Skills
Skills 是我每天都会用的功能。本质上就是把经过验证的流程和方法固定下来,下次做同样的事,Codex 就能按这套方式稳定输出。
创建 Skill 有两种方式:
• 直接告诉 Codex 你想要什么样的 Skill,通过讨论打磨出来
• 先跑通流程,再让它形成 Skill(更推荐)
举个例子:我让它帮我做一个"GitHub 热门项目推荐图文"的 Skill。先一步步引导——找热门项目 → 解释每个项目是干嘛的 → 挑星最多的写文章 → 调整风格更口语化 → 加固定开头结尾 → 用 Image 2 生成配图 → 发送到飞书群。整个流程调满意了,直接让它把这套动作固化成 Skill。以后说一句"生成一篇热门项目推荐图文",它就自动按这套流程干完。
9. MCP 连接外部
MCP 可以让 Codex 连接外部知识库和服务。在设置 → MCP 服务器里配置,但小白最好的方式还是直接把想装的 MCP 链接发给 Codex,让它自己搞定安装和授权。
装好之后,Codex 就能直接获取你 Notebook LM 上的外挂知识库了。
10. 自动化定时任务

定时任务本身不稀奇,但结合前面所有能力就厉害了——自动化 + 智能化 + 定制化。
比如把刚才的"热门项目推荐"Skill 设成每周一早上 9 点自动执行,自动产出图文发到群里。再比如连上邮箱、GitHub、飞书之后,让它每天下午 6 点汇总日历上完成的会议、GitHub 提交记录和邮件回复,自动生成工作日报。
创建方式也很简单:直接在对话里说"帮我创建一个自动化任务,每周一早上 9 点执行热门项目推荐 Skill",搞定。
附:手机操控 Codex
手机上的 ChatGPT 和电脑上的 Codex 都更新到最新版后,在手机 ChatGPT 的侧边栏点 Codex,允许这台手机控制电脑就行了。多台电脑也可以分别连上。
这意味着你不管在大街上、地铁上还是朋友聚会,都可以随时用手机下发任务,让家里的电脑帮你干活。目前免费版也能用,但主要支持 Mac。
最重要的不是功能,是思维的转变
全套能力过完,但我想强调的反而不是这些功能本身,而是两件事:
第一,我们真的有很多事情已经可以交给 AI 去做了。 不是"未来可以",是现在就可以。
第二,我们已经从"问 AI"的阶段进入了"管理 AI"的阶段。 过去用 ChatGPT 是有问题问一下、得到答案就走。现在用 Codex 这类 Agent,你得像领导一样——帮它准备上下文和工作环境,给它指明任务目标,检查它的计划,监督它的过程,验收它的结果。同时还要负责把好的方法和流程沉淀成可复用的技能,把反复要做的事设成自动化执行的规矩。

恭喜,今天你也升职了。
觉得有用?点个赞,后面我把如何通过多层 agent.md 打造超级助手的教程也整理出来。
关注我,一起学会驾驭 AI。
夜雨聆风