Codex 奶妈级教程:从安装到手机操控,10个实战场景一次拉通

最近 Codex 更新实在太猛了——浏览器操控、Image 2 生图、手机端控制、Hook 机制，隔几天就是一个大版本。身边很多朋友问我"Codex 到底怎么用？跟 Claude Code 有什么区别？"

今天这篇就从头到尾，把 Codex 的核心能力拆一遍。

Codex 和 Claude Code 到底有什么区别？

这两个我都在用，简单说一下我的感受：

本质上是同一类东西——都是从编程 Agent 逐步转向通用 Agent 的产品，分别是 OpenAI 和 Anthropic 两家出的。

区别在几个方面：

• 模型：Claude Code 默认用 Claude 模型，但可以自行替换成其他模型。Codex 桌面端只支持 OpenAI 的 GPT 模型。

• 易用性：Codex 的产品设计更友好，更适合零基础的白领工作者。Claude Code 自由度更高，但更偏向专业开发者。

• 功能更新：Claude Code 原本是最全面的，Skill、MCP、斜杠命令、Hook、远程操控都是它先发明的。但最近 Codex 的更新速度更快，发了浏览器操控、Computer Use、内置 Image 2，昨天还刚发布了手机端和 Hook。

• 价格：Codex 会员 20 刀/月，额度非常大方，而且不封号。Claude Code 大多数人没法用官方账号，基本得自己接 API 按量付费。

我的用法：写作和规划用 Claude Code + Opus 4.6，日常办公和执行用 Codex。编程的时候两个都用。

结论很简单：入门的朋友用 Codex 就足够了，有条件的朋友两个都上。而且两者逻辑相通，学会一个另一个也就会了。

安装：零门槛

你唯一需要准备的，就是一个 ChatGPT 账号，免费的也行（只是额度少一点）。

去 Codex 官网下载，双击安装，登录账号，选个"日常工作"的初始设置——完事。进来之后的界面跟 ChatGPT 很像，左边管理对话和任务，中间聊天，右边看结果。

我的独门秘方：打开任何 AI 工具，先不管别的，找到能对话的框就开始聊，找到看得懂的按钮就开始按。聊着聊着、按着按着，你就会了。

Codex 的 10 大核心能力

1. 本地文件操作

这是桌面端 Agent 跟对话 AI 最本质的区别。过去用 ChatGPT 要看本地内容，要么复制粘贴，要么上传文件。Codex 不一样——它可以直接读取和操作你的本地文件，而且不限数量。

你需要了解的就是"项目"这个概念。选中一个本地文件夹，这个文件夹就成了 Codex 的项目，里面的所有文件它都能自由读取和操作。

权限有三种模式：

• 默认权限：文件夹内自由读写，但不能联网、不能碰文件夹外的文件

• 自动审查（推荐）：AI 自动判断操作是否危险，危险的才问你

• 完全访问：什么都能干，新手慎用

举个例子：我本地有 80 多条视频素材，命名全是乱的。让 Codex 按画面内容重新命名——它先看有多少视频，然后用抽帧的方式提取关键画面，拼成缩略图一组一组看，最后按"序号-任务-场景-行动"的格式全部重命名好。整个过程全程自动，一个权限都没提。

更强的是，它还能把关于风景的视频自动剪辑拼接成一条——它自己调用了 FFmpeg，问我要了权限，装好直接干。

2. 命令行使用

在我们授权的情况下，Codex 可以使用电脑的终端来执行命令。

这意味着什么？以前小白要装 Node.js、Git 这些依赖，得去找教程、对着命令一条条敲。现在直接跟 Codex 说"帮我装个 Node.js"，它就熟门熟路帮你搞定了。

比这个更实用的——那些爆火但有上手门槛的新 Agent，比如 Hermes、龙虾，甚至 Claude Code 本身，都可以让 Codex 帮你装，装完还教你怎么用。你连官网链接都不用找，说个名字它自己搜。

还有像 Cursor、Antigravity 这类软件应用，平时得手动去网页下载安装的，它也能帮你搞定。

安装过程中遇到任何报错，截图发给 Codex，它直接帮你修。

3. 持久记忆

Codex 有两套记忆系统：

手动记忆（agent.md）：

• 全局级：在设置 → 个性化 → 自定义指令里写，所有对话都生效

• 项目级：在项目文件夹里创建 agent.md，只在这个项目里生效

我更推荐直接在对话里说"以后对飞书文档的修改都用紫色字+删除线，帮我记到全局 agent.md 里"，它自己就写好了。

自动记忆：在个性化里打开后，Codex 会在对话结束后自动把关键信息总结记录下来，以后遇到相关场景自动召回。

我的建议：明确的规则和要求用 agent.md 手动管理，让它自己帮你写。自动记忆打开就行，不用手动改。

4. Image 2 生图 + 完整项目开发

生图只是小功能，但这部分我带大家做一个完整的个人主页项目。

关键功能点：

• 计划模式：任务比较复杂时打开，Codex 会先出详细计划，你确认后再执行。适合自己也没想清楚的情况，可以跟 AI 讨论出一个方案。

• 引导功能：执行长任务时发现它跑偏了，可以随时补充纠偏指令，不会打断当前任务，在下一次工具调用后发送。

• Fork 分叉：每个 AI 回复下面都有这个按钮，可以从这里开一个新对话。前面聊得好好的、上下文也有价值，但再往下就聊劈了的时候用。

• Pin 批注：内置预览浏览器里可以直接在网页元素上 Pin 标注修改意见，对话框自动生成修改指令。

项目做出雏形后，让 Codex 自己生成项目级 agent.md——它会根据项目内容写好背景、规则、文件路径，以后新开对话也能立刻了解项目全貌。

5. 插件系统

Codex 的插件就是把 Skill、MCP、CLI 这些打包在一起的集合。内置了很多：浏览器操作、GitHub、表格、PPT、Mac 屏幕操作等。

用来部署网站特别方便——装上 Netlify 或 Vercel 插件，告诉它"帮我把这个网站部署上去"，它自己搞定授权登录和部署，几分钟你的个人主页链接就能发出去。

6. 浏览器操控

Browser Use：Codex 可以直接操控浏览器，自动点击、翻页、截图、填写表单。比如让它做一个 MBTI 测试——鼠标自己在动，它自己看题目、自己选答案、自己翻页。

Chrome 插件：操控的是你自己的已登录浏览器，而且可以在后台执行多个页面的操作，不耽误你正常用浏览器。

7. Computer Use

不只浏览器，电脑上的 App 也能操作（目前仅 Mac）。比如让它放一首歌、操作剪辑软件给项目加音乐。效率目前还不是特别高，但方向已经很明显了。

8. Skills

Skills 是我每天都会用的功能。本质上就是把经过验证的流程和方法固定下来，下次做同样的事，Codex 就能按这套方式稳定输出。

创建 Skill 有两种方式：

• 直接告诉 Codex 你想要什么样的 Skill，通过讨论打磨出来

• 先跑通流程，再让它形成 Skill（更推荐）

举个例子：我让它帮我做一个"GitHub 热门项目推荐图文"的 Skill。先一步步引导——找热门项目 → 解释每个项目是干嘛的 → 挑星最多的写文章 → 调整风格更口语化 → 加固定开头结尾 → 用 Image 2 生成配图 → 发送到飞书群。整个流程调满意了，直接让它把这套动作固化成 Skill。以后说一句"生成一篇热门项目推荐图文"，它就自动按这套流程干完。

9. MCP 连接外部

MCP 可以让 Codex 连接外部知识库和服务。在设置 → MCP 服务器里配置，但小白最好的方式还是直接把想装的 MCP 链接发给 Codex，让它自己搞定安装和授权。

装好之后，Codex 就能直接获取你 Notebook LM 上的外挂知识库了。

10. 自动化定时任务

定时任务本身不稀奇，但结合前面所有能力就厉害了——自动化 + 智能化 + 定制化。

比如把刚才的"热门项目推荐"Skill 设成每周一早上 9 点自动执行，自动产出图文发到群里。再比如连上邮箱、GitHub、飞书之后，让它每天下午 6 点汇总日历上完成的会议、GitHub 提交记录和邮件回复，自动生成工作日报。

创建方式也很简单：直接在对话里说"帮我创建一个自动化任务，每周一早上 9 点执行热门项目推荐 Skill"，搞定。

附：手机操控 Codex

手机上的 ChatGPT 和电脑上的 Codex 都更新到最新版后，在手机 ChatGPT 的侧边栏点 Codex，允许这台手机控制电脑就行了。多台电脑也可以分别连上。

这意味着你不管在大街上、地铁上还是朋友聚会，都可以随时用手机下发任务，让家里的电脑帮你干活。目前免费版也能用，但主要支持 Mac。

最重要的不是功能，是思维的转变

全套能力过完，但我想强调的反而不是这些功能本身，而是两件事：

第一，我们真的有很多事情已经可以交给 AI 去做了。 不是"未来可以"，是现在就可以。

第二，我们已经从"问 AI"的阶段进入了"管理 AI"的阶段。 过去用 ChatGPT 是有问题问一下、得到答案就走。现在用 Codex 这类 Agent，你得像领导一样——帮它准备上下文和工作环境，给它指明任务目标，检查它的计划，监督它的过程，验收它的结果。同时还要负责把好的方法和流程沉淀成可复用的技能，把反复要做的事设成自动化执行的规矩。

恭喜，今天你也升职了。

觉得有用？点个赞，后面我把如何通过多层 agent.md 打造超级助手的教程也整理出来。

关注我，一起学会驾驭 AI。

#AI工具 #Codex #效率提升 #Agent #AI入门