Codex 完整教程:从安装到高级功能,12个章节带你彻底掌握

一、Codex 与 Claude Code 的对比

Codex 是 OpenAI 推出的桌面端 AI 编程 Agent，与 Anthropic 的 Claude Code 是目前最主流的两个通用型 Agent 产品。两者都起源于编程 Agent，后逐步演化为通用任务助手。以下是核心区别对比：

模型支持：Codex 桌面端仅支持 OpenAI 的 GPT 系列模型（推荐 GPT-5.5）。Claude Code 默认使用 Claude 模型，但支持替换为任意其他模型。

易用性：Codex 的产品设计更友好，界面与 ChatGPT 高度一致，学习成本低，适合零基础用户和白领工作者。Claude Code 的自由度更高但更偏专业开发者。

特色功能：Codex 拥有强大的浏览器操控能力、Computer Use 功能、内置的 Image2 生图模型，以及手机端远程操控（通过 Hooks）。Claude Code 早期率先实现了 Skill、MCP、斜杠命令、Hooks、远程操控等功能，但近期更新节奏相对放缓。

费用与额度：Codex 会员额度大方，20 美元月费即可满足大多数高频使用需求，且无封号风险。Claude Code 官方账号获取门槛较高，多数用户需自行调用 API 按量付费。

使用建议：入门用户优先选择 Codex。日常办公场景推荐 Codex，编程场景可两者配合使用。两者的底层逻辑一致，学会一个即可触类旁通。

二、本地文件操作

本地文件操作是桌面端 Agent 与纯对话式 AI 最显著的区别。传统 ChatGPT 只能通过复制粘贴或上传文件的方式读取本地内容，而 Codex 可以直接读取和操作本地文件，数量不受限制。

2.1 项目机制

Codex 以「项目」为单位管理文件。选择一个本地文件夹作为项目后，该文件夹内的所有文件都成为 Codex 的上下文，Codex 可自由读取、写入、修改和删除这些文件。同一项目下可开启多个对话，各对话上下文独立但共享文件访问权限。

2.2 权限模式

Codex 提供三种权限模式：默认模式下，Codex 仅可在当前项目文件夹内自由读写文件，如需联网、下载或操作文件夹外的文件，必须向用户申请提权。自动审查模式由 AI 自动判断操作风险等级，低风险操作（如下载知名软件）直接执行，高风险操作向用户确认，是推荐的默认选项。完全访问模式下，Codex 可修改和删除任何文件、在任何位置执行命令，适合有经验的用户。

2.3 实战案例

以视频素材重命名为例：将包含大量视频素材的文件夹设为项目后，Codex 会自动分析视频数量，通过抽帧方式提取关键画面，识别内容后按照「序号+场景+行动」的格式批量重命名文件，且全程无需提权。此外，Codex 还能在同一项目中执行更复杂的操作，如将同类型视频片段拼接成完整作品（使用 FFmpeg 命令行工具）。

三、上下文管理与模型设置

Codex 在界面右上角以环形图标实时显示当前对话使用的上下文窗口比例。悬停可查看详情。当上下文接近上限时，Codex 会自动压缩，用户也可手动输入斜杠命令 /compress 主动压缩上下文，使模型更聚焦于当前任务并节省额度。

额度查询有两种方式：通过左侧设置面板的「剩余额度」查看 5 小时内和本周内的用量及刷新时间；或在对话框输入斜杠命令 /status 查看实时额度。

模型选择支持多种 GPT 模型，推荐选择 GPT-5.5。智能程度建议选择「高」。语音输入功能可用，但转录速度不如专用语音输入法。

四、命令行工具使用

Codex 可以在获得授权后使用本地终端执行命令。这是它的第二大核心能力，也是从纯对话 AI 迈向 Agent 的关键一跃。命令行使用涵盖以下几类场景：

4.1 安装开发依赖

Codex 可自动安装 Node.js、Git 等常用开发工具，无需用户手动查阅教程和逐条执行命令。在自动审查权限下，这类常见操作通常无需额外确认。

4.2 安装 Agent 工具

Codex 能自行搜索并安装各类 Agent 工具（如 Cline、Hermes，甚至竞品 Claude Code），安装后还能指导用户如何使用。用户只需提供名称或仓库链接。

4.3 安装 Skills 和 CLI 工具

对于 Skills 和 CLI 工具，推荐直接提供明确的 GitHub 仓库链接或官网地址。Codex 安装飞书 CLI 后，即可操作飞书文档编写、消息发送、日历创建、表格制作等操作。

4.4 安装软件应用

Codex 还可以帮助下载和卸载 Cursor、Anaconda 等桌面软件。建议同时安装一个 Agent IDE，弥补 Codex 无法直接编辑文件的不足。

4.5 并行任务处理

Codex 支持开启多个对话并行处理不同任务。每个对话在侧边栏以独立状态显示（进行中/已完成/待授权），用户可在等待一个任务时同时发出另一个指令。

五、持久记忆系统

Codex 提供两套持久记忆机制：手动记忆和自动记忆，用于让 Agent 长期记住用户的规则、偏好和信息。

5.1 全局 Agent.md（手动记忆）

在「设置 → 个性化」中的自定义指令，相当于一个全局生效的 Agent.md 文件。该文件在所有项目的对话中都会作为上下文注入给模型。用户可以手动编写，也可以直接在对话中告知 Codex 规则并让它写入。例如：要求对飞书文档的修改使用特定颜色+删除线方式，Codex 会将其写入全局 Agent.md 并在后续操作中遵循。

5.2 项目级 Agent.md

在项目对话中可手动创建 Agent.md 文件，编写针对该项目的特定规则。也可以在项目有一定积累后，让 Codex 根据其对项目的了解自动生成。

5.3 自动记忆机制

在设置中开启自动记忆功能后，Codex 会在对话结束或闲置一段时间后将对话内容总结为记忆条目并存储。基本原则：过短的对话不记录；总结记忆会消耗额度，额度过低时停止记录；不建议手动修改自动记忆文件。记忆文件包含：记忆来源（对话标识）、工作目录、触发关键词、用户偏好、可复用知识和踩坑记录。

六、Image2 生图与项目开发

Codex 内置了 OpenAI 的 Image2 生图模型，可用于项目中的图片生成。但本章以完整的个人主页开发项目为例，展示更多开发相关功能。

6.1 计划模式

当任务复杂度较高时，建议开启计划模式。Codex 会先通过多轮选择框询问项目细节（风格、受众、语言等），生成详细计划后由用户确认，再开始执行。计划过程中可随时修改和补充要求。

6.2 对话引导

在 Codex 执行长任务期间，如果发现方向偏离，可使用「引导」功能。输入修正指令后，指令不会立即打断当前执行，而是排队等待下一次工具调用时发送，避免任务回退和额度浪费。

6.3 对话分叉（Fork）

每个 AI 回复下方有 Fork 按钮，可从该节点开启新对话分支。适合上下文仍有价值但继续延伸会偏离主题的场景。

6.4 预览与批注

Codex 内置预览浏览器，可在右侧边栏查看网页效果。通过批注按钮，用户可直接在页面上选中元素并书写修改意见（如「logo 放大」「此图加入人物」），修改意见自动进入对话并执行。

6.5 项目级 Agent.md 自动生成

项目积累一定内容后，可让 Codex 自动生成项目级 Agent.md，包含项目背景、规则、文件路径等。后续新开对话或清除聊天记录后，Codex 仍能通过该文件快速了解项目全貌。

6.6 一键部署

通过插件体系可一键部署网站至 Vercel（适合有域名的用户）或 Netlify（国内访问更优）。部署过程自动完成，用户仅需授权 GitHub 登录。

七、插件系统

Codex 的插件是连接 Agent 与外部平台、工具和服务的桥梁，本质上集成了 Skill、MCP、CLI 三类能力。

7.1 内置插件

Codex 默认内置了多个常用插件：浏览器操作、Mac 屏幕操作、GitHub、表格处理、PPT 制作等。用户可通过插件面板按需启用。

7.2 Browser Use（浏览器操控）

Codex 可直接控制浏览器完成点击、翻页、截图、表单填写等操作，适用于自动化测试和前端操作。示例：自动完成 MBTI 人格测试，全程自主导航和填写。

7.3 Chrome 插件（用户已登录的浏览器）

安装 Chrome 扩展后，Codex 可操作用户已登录的浏览器。优势在于可在后台执行多页面操作，不占用用户的前台浏览器。

7.4 Computer Use（电脑操控，Mac 专属）

Codex 可操作电脑上任意应用。示例：自动打开音乐软件播放特定歌曲。目前操作效率尚可但不算流畅，且部分应用（如微信）可能对自动化操作有防御机制。

八、Skill 技能沉淀

Skill 是将经过验证的方法、流程和工具组合沉淀为可复用的行动指南。Codex 支持两种创建方式：

8.1 对话式创建

直接告诉 Codex 需要创建什么样的 Skill，通过多轮对话讨论打磨出最终版本。

8.2 流程式创建（推荐）

先引导 Codex 完整执行一次任务，确认输出满意后，让 Codex 将整个执行流程和标准封装为 Skill。以「GitHub 热门项目推荐图文」为例：引导 Codex 依次完成搜索热门项目→筛选→撰写文章→去 AI 味→添加固定开头结尾→Image2 配图→格式化为飞书文档→发送到群聊，满意后即可固化。

8.3 调用方式

创建后的 Skill 可在对话框中通过斜杠命令手动调用，或通过触发词让 Codex 自动匹配。

九、MCP 外部知识库连接

Codex 支持通过 MCP 协议连接外部知识库。配置入口在「设置 → MCP 服务器」。推荐操作方式是将 MCP 的仓库链接直接发给 Codex，让它引导完成授权和配置。示例：接入 NotebookLM 后，Codex 可直接查询用户笔记本中的访谈视频等内容。

十、自动化定时任务

Codex 的自动化功能可结合已掌握的技能，将组合任务设为定时执行。创建方式有两种：

10.1 面板创建

在自动化面板中新建任务，填写提示词描述任务内容，设置触发时间、执行模型和思考强度。

10.2 对话创建（推荐）

直接在对话中描述需求，如「每周一早上 9 点，执行热门项目推荐的 Skill，产出图文并发送到飞书群」。Codex 会自动配置。同样方式可创建日报任务：每天下午 6 点汇总日历会议、GitHub 提交记录和邮件回复，生成工作日报。

十一、手机远程操控

将手机上的 ChatGPT 和电脑上的 Codex 均更新至最新版后，在手机 ChatGPT 侧边栏点击 Codex 入口，授权后即可通过手机远程控制电脑上的 Codex。支持多台电脑分别连接。该功能免费版可用，目前主要支持 Mac 系统。

十二、结语

Codex 的核心能力可归纳为：本地文件操作、终端命令行使用、持久记忆、图片生成、项目开发、插件扩展、Skill 技能沉淀、MCP 外部连接、自动化定时任务和手机远程操控。

更重要的是，使用 Codex 这样的 Agent 产品，意味着用户角色正在从「提问者」转变为「管理者」——需要为目标准备上下文和工作环境、明确任务目标、审核计划、监督执行过程并验收结果，同时将已验证的方法和流程沉淀为可复用的技能，将重复性工作设为自动化任务。

由于公众号内容排版格式限制，学习起来可能不太友好，需要完整版的后台回复：Codex