OpenAI Codex 完全指南:30分钟掌握Agent 超级应用

从对话工具到控制工具：AI 的范式转变

如果我问你怎么使用 ChatGPT 或 Claude，你大概率会说“打开对话窗口，发送消息，获得回复”。这个模式你已经非常熟悉了——输入、输出、结束。

但 OpenAI Codex 可能正在重新定义你与 AI 的交互方式。它不是又一个聊天机器人，而是一个能够完全接管你的电脑来完成复杂任务的 AI Agent。想象一下，你只需要用自然语言描述需求，它就能帮你：

自动处理 53 张收据的 OCR 识别并生成 Excel 仪表盘（耗时 7 分钟）
定时在每周五上午 9 点自动抓取竞品数据并生成分析报告
帮你操作设计软件生成营销素材，甚至直接操控浏览器测试网页功能

这不是科幻，而是 Codex 已经实现的能力。这篇文章将用 30 分钟的阅读时间，帮你构建对 Codex 的完整认知框架。

一、Codex 到底是什么：重新理解 AI Agent

1.1 定位差异：从“对话”到“控制”

在正式展开技术细节之前，我们需要理解一个根本性的差异：Codex 与传统对话式 AI 究竟有什么不同？

维度	ChatGPT / Claude	Codex
核心能力	文本生成与对话	电脑控制与任务执行
交互边界	对话窗口内的信息交换	操作系统级别的文件与应用控制
工作模式	请求-响应-结束	持续执行、状态保持、多步骤协同
典型场景	问答、写作、分析	自动化办公、批量处理、系统操作

Codex 的设计理念可以概括为三个字：全控制。它不是回答你的问题，而是帮你把事情做完。

1.2 能力架构全景

为了便于理解，我先把 Codex 的核心能力按照层级组织起来：

Code

Codex 能力体系│├── 文件控制层（基础设施）│   ├── 全文件访问（Full File Access）│   ├── Project 系统（项目文件夹管理）│   └── 多聊天并行（Multi-chat Multitasking）│├── 认知记忆层（上下文理解）│   ├── 手动记忆（agents.md）│   ├── 自动记忆（memories/）│   └── 项目感知（Project Awareness）│├── 扩展能力层（生态连接）│   ├── Plugins（插件，通过 @ 调用）│   ├── Skills（技能，通过 / 调用）│   └── 预置技能库│├── 执行能力层（任务完成）│   ├── 图像生成（GIT-image-2）│   ├── 电脑控制（Computer Use）│   ├── 浏览器控制（Browser Use）│   └── 自动化调度（Automation）│└── 上下文追踪层（实时感知）    └── Chronicle（屏幕录制 + 定时截图）

接下来，让我们逐层深入，了解每个模块的具体能力与应用场景。

二、文件控制层：让 AI 成为你的数字助理

2.1 全文件访问：打破边界

传统的 AI 对话工具只能处理对话窗口内的文字，当你需要它分析一个本地文件时，你必须手动上传、复制粘贴。但 Codex 具备全文件访问能力——它可以直接读取、编辑、操作你电脑上的任意文件。

这意味着什么？你的工作流程可以完全改变：

传统模式：

在 Codex 中打开文件
上传文件
等待分析
手动将结果复制到本地

Codex 模式：

直接告诉 Codex 要处理哪个文件或文件夹
AI 自动读取、处理、生成结果
结果直接保存到你的项目目录

这个能力在实际应用中有巨大的效率差异。视频中演示了一个票据处理的案例：53 张收据图片，7 分钟内完成 OCR 识别、数据提取，并生成一份完整的 Excel 仪表盘。如果用传统方法，光是手动上传和处理这些文件，可能需要几小时。

2.2 Project 系统：项目化的任务管理

Codex 引入了 Project 的概念来组织工作。每个 Project 实际上对应一个本地文件夹，包含该项目的所有文件、对话历史和上下文记忆。

这样做有几个显著优势：

对话隔离
：不同项目的讨论不会互相干扰，保持专注
上下文延续
：项目文件夹内的文档和配置会被自动关联
本地同步
：Project 创建的文档会自动同步到你的电脑文件夹

建议的使用方式是：每个独立的工作场景创建一个 Project，比如“客户 A 的方案”“季度报告”“代码项目 X”。这样 Codex 能始终理解你当前的工作背景，避免上下文混乱。

2.3 便捷操作：新建对话与文件引用

有两个实用的快捷操作值得掌握：

命令 N
：在当前对话中新建一个聊天线程，同时保持项目上下文的连续性。这对于切换任务但不想丢失进度时非常有用。
@提及语法
：在对话中输入 @ 符号，可以直接引用项目文件夹内的任何文档。这比手动上传文件要自然得多，也更符合人类的工作习惯。

三、认知记忆层：让 AI “记住”你的工作

3.1 记忆双层设计

Codex 的记忆系统是一个精心设计的多层结构，分为手动记忆和自动记忆两个层次。

手动记忆通过项目根目录下的 agents.md 文件实现。这个文件完全由你控制，你可以写入任何希望 Codex “记住”的内容：

项目背景与目标
你的工作习惯和偏好
特定的处理规则或格式要求
团队协作的注意事项

当你切换到不同的 Project 时，Codex 会自动加载对应的 agents.md，确保每次对话都从正确的上下文开始。

自动记忆则存放在 memories/ 文件夹中，由 Codex 根据对话内容自动维护。它会记录：

你在对话中做出的关键决定
AI 对工作方式的调整
项目的演进轨迹

打个比方，agents.md 像是一份由你亲手撰写的项目手册，而 memories/ 像是 Codex 自己写的日志。这两者的结合，使得 Codex 具备了真正的“项目感知”能力——它不只是在回答当前问题，而是理解整个项目的来龙去脉。

3.2 从“活文档”到持续进化

这种记忆系统的价值在于它形成了一个活文档。随着项目推进，agents.md 可以不断更新，反映最新的工作方式和约定。同时 memories/ 会记录 Codex 的“观察”，让你也能看到 AI 视角下的项目状态。

举个例子，你在处理一个多月的营销活动项目时，Codex 会记得你之前偏好用表格呈现数据、会记得你不希望出现某些关键词、会记得你通常在周三提交报告草稿。这些细节的累积，使得每次与 Codex 的交互都比上一次更精准。

四、扩展能力层：连接你的整个工具生态

4.1 Plugins 插件系统

Codex 的插件生态是其扩展能力的重要支柱。通过 @提及语法，你可以调用各种插件来连接外部服务和工具。

视频中提到的插件场景包括：

Gmail 插件
：搜索、读取、整理邮件，生成分析表格，甚至按优先级排序
Slack 插件
：发送消息、管理频道、自动化团队通知
Notion 插件
：读取笔记、调用数据库、同步内容素材

插件的定位是工具连接器。它们负责处理与特定服务的认证、API 调用、数据格式转换等技术细节，让你可以用自然语言操作任何已连接的外部工具。

Codex 目前支持超过 100 种插件，覆盖了从企业协作工具到开发平台的广泛范围。

4.2 Skills 技能系统：可复用的工作流

如果说 Plugins 是“工具”，那么 Skills 就是“工作流配方”或“SOP”。

Skills 通过 / 斜杠命令调用，比如输入 /brand-analysis 就会启动一个品牌分析的工作流。

你可以在 Skills 中定义：

完整的任务分解步骤
所需调用的插件和工具
输出的格式和结构
质量检查的要点

一个重要的细节是：Skills 可以调用 Plugins。这意味着你可以在一个 Skills 中组合多个插件的能力，比如“品牌分析”技能可能同时需要调用 Gmail 读取邮件、Notion 读取背景资料、最后生成一份表格。

Skills 的文件存储在 plugins/skills/ 子目录下，格式为 Markdown（.md 文件）。这种设计让技能定义变得透明且易于编辑。

4.3 创建 Skills 的两种方法

视频中详细介绍了创建 Skills 的两种路径，各有优劣：

方法一：Prompt-to-Skill（快速但质量有限）

直接让 Codex 根据你的描述生成技能文件。速度快，适合简单场景，但生成结果可能不够精准，需要后续手动调整。

方法二：Manual Workflow Method（迭代优化 → 反向工程）

这是视频推荐的“最佳实践”：

先用自然方式完成任务，记录每一步操作
迭代优化直到得到满意的结果
让 Codex 将这个工作流“反向工程”为 Skills 文件

第二种方法的好处是，生成的技能文件必然经过验证，质量更有保障。虽然前期投入更多时间，但当你需要重复执行类似任务时，这个投资会得到回报。

4.4 Skills 的动态优化

Codex 还支持技能的动态优化。在使用某个技能的过程中，如果你发现一个更好的处理方式，可以直接告诉 Codex：“以后遇到类似情况都用这个格式处理。”

系统会记住这个偏好，并在后续调用时自动应用。这种机制让 Skills 成为一个不断进化的工具，而不是一成不变的模板。

五、执行能力层：多模态的任务完成

5.1 图像生成：内置的视觉创作能力

Codex 集成了 GPT-image-2 图像生成模型，官方称其为“业内最强”的图像生成能力。你不需要切换到其他工具或服务，在 Codex 中就能完成完整的图像创作。

实际演示中，用这个模型生成了多组营销素材图片：不同人数的模特组合（单人、三人、五人）、不同肤色和国籍的出镜形象。这对于需要大量营销内容的品牌来说，可以显著提升内容生产效率。

调用图像生成的方式是：进入 Codex 技能库 → Skills → image gen，然后描述你需要的图像内容。

5.2 Computer Use：操控你的电脑桌面

Computer Use 是 Codex 最具突破性的能力之一：它可以控制你的本地应用程序和桌面界面。

想象一下这样的场景：

你对着 Codex 说“帮我把这份报告发邮件给张总”
Codex 自动打开邮件客户端，填写收件人，附加文件，发送
整个过程不需要你触碰键盘或鼠标

这不是“AI 帮你写邮件内容”，而是“AI 操作你的电脑执行邮件发送”。在演示中，Codex 展示了通过语音指令在 Canva 中创建演示文稿——5 页的 PPT，用自然语言描述需求，AI 代替你完成所有操作。

5.3 Browser Use：浏览器内的自动化

与 Computer Use 相近但不同的是 Browser Use——它专注于控制浏览器内的网页应用。

这个能力对于 Web 应用的测试和自动化特别有价值。比如你可以让 Codex：

测试一个网页的所有按钮功能是否正常
自动填写表单并提交
抓取网页数据并整理
验证页面导航是否按预期工作

在演示中，Codex 对一个 HTML 应用进行了完整的 QA 测试，逐一检查按钮功能、导航跳转是否正常工作。

5.4 对比：Computer Use vs Browser Use

维度	Computer Use	Browser Use
控制范围	本地桌面应用	浏览器内网页
典型场景	文件操作、桌面软件控制	Web 应用测试、数据抓取
权限要求	需要桌面环境访问权限	仅需浏览器操作权限
适用对象	本地文件和软件	在线服务和网页工具

两者并不互斥，而是互补的能力。根据任务场景选择合适的工具。

六、自动化调度：让 AI 按计划工作

6.1 定时任务的配置

Codex 内置 Automation 功能，允许你设置定时执行的任务。这解决了 AI 对话工具的一个核心局限：传统 AI 只能“被动响应”，而自动化调度让 AI 能够“主动执行”。

配置定时任务时，Codex 会提供一个内置的 UI 界面，显示：

任务的当前状态（等待中/运行中/已完成）
上次运行时间和结果
下次执行时间
执行日志和错误信息

这个界面让你对自动化任务有完整的透明度和控制力。

6.2 定时品牌分析实例

视频演示了一个“每周品牌分析”的自动化场景：

触发条件
：每周五上午 9:00
执行内容
：调用品牌分析 Skills，自动抓取数据、生成报告
输出
：一份完整的竞品分析报告，发送到指定位置

类似的自动化场景还包括：

每天定时整理邮件，按优先级生成待办清单
每周自动汇总多个数据源生成运营报告
每日自动备份项目文件到云端

关键在于，你只需要设置一次，后续 Codex 会在指定时间自动执行，无需任何人工干预。

七、上下文追踪：重新定义 AI 的“视野”

7.1 Chronicle 机制

Chronicle 是 Codex 在上下文理解方面的一个创新设计。它的核心机制是：

持续录制屏幕
：记录你的屏幕活动
定时截图
：按照设定的时间间隔保存屏幕截图
语音激活
：说出“使用 Chronicle”即可启动

这套机制解决了一个常见问题：当你想让 AI 理解“当前工作状态”时，传统方式需要你手动上传截图或描述上下文。Chronicle 让这个过程变得透明和自然——AI 可以直接“看到”你在做什么。

7.2 应用场景

Chronicle 的实际价值体现在：

复杂问题的即时求助
：当你在某个应用中遇到问题时，AI 能看到你当前的界面上下文，理解你的具体困境
工作状态的延续
：切换对话后，新对话能通过 Chronicle 了解你之前的工作进展
减少描述成本
：你不需要反复解释“我现在在做什么”，AI 直接从屏幕获取信息

这代表着一种新的交互理念：让 AI 适应人类的工作方式，而不是让人类适应 AI 的限制。

八、完整能力矩阵与应用场景对照

8.1 能力矩阵汇总

能力模块	核心功能	调用方式	典型场景
文件控制	本地文件读写	直接操作	批量文档处理、项目文件管理
Project 系统	项目隔离与同步	界面操作	多项目并行管理
手动记忆	agents.md 持久化	用户编辑	记录工作规范、项目背景
自动记忆	memories/ 自动累积	AI 维护	追踪对话决策、项目演进
Plugins	外部工具连接	@plugin-name	Gmail、Slack、Notion 集成
Skills	工作流复用	/skill-name	品牌分析、报告生成、审批流程
图像生成	GIT-image-2	技能库调用	营销素材、产品图片
Computer Use	桌面应用控制	自然语言	软件操作、文件管理
Browser Use	浏览器自动化	自然语言	Web 测试、数据抓取
Automation	定时任务	内置 UI	周期性报告、数据同步
Chronicle	屏幕上下文追踪	语音激活	即时问题求助、工作状态延续

8.2 场景化案例库

场景一：财务/行政自动化

处理 53 张收据 → OCR 识别 → 数据提取 → Excel 仪表盘

耗时：7 分钟

场景二：内容创作与发布

落地页文案生成 → 自动适配品牌风格 → 发布到 CMS

关键技术：记忆系统、@文件引用

场景三：邮件处理与分析

Gmail 搜索 → 品牌合作邮件提取 → 优先级排序 → 表格输出

关键技术：Gmail 插件、多格式输出

场景四：可视化图表生成

自然语言描述需求 → Excalidraw 生成 7 张图示

耗时：4 分 23 秒

关键技术：Skill + 插件协同

场景五：营销素材批量生产

产品描述 → GPT-image-2 生成多组图片（不同模特组合）

关键技术：内置图像模型、多参数控制

场景六：设计自动化

语音指令 → Canva 创建 5 页 PPT → 自动排版

关键技术：Computer Use、语音交互

场景七：Web 应用 QA 测试

HTML 应用测试 → 按钮功能验证 → 导航测试 → 报告输出

关键技术：Browser Use

场景八：周期性商业分析

每周五 9:00 自动执行 → 数据采集 → 分析报告 → 存档

关键技术：Skill + Automation

九、Codex 的演进逻辑：从能力集合到能力进化

回顾整个 Codex 的设计，有一条清晰的演进逻辑：

Code

单一对话能力 → 任务执行能力 → 工作流复用能力 → 自主进化能力

早期 AI 的核心是“回答问题”，这限制了它在复杂场景中的应用。Codex 通过文件控制和多模态执行，让 AI 能够真正完成任务。通过 Skills 机制，让工作流得以复用，避免重复劳动。最关键的是，通过记忆系统和动态优化机制，Codex 不是一套静态的能力集合，而是一个能够根据使用情况持续进化的系统。

视频中有一句话精准地总结了这个特点：

说明

“Codex 提供的不仅是能力集合，更是能力的进化机制。”

每一次你使用 Skills，每一次你给出反馈，都是在为 Codex 添加新的能力。这种“用即训练”的模式，让 AI 工具不再是冰冷的软件，而是一个与你共同成长的数字伙伴。

十、快速上手路径建议

如果你刚接触 Codex，建议按照以下路径逐步深入：

第一阶段：基础能力探索（1-2 天）

创建一个 Project，熟悉文件控制操作
体验全文件访问能力，处理一个实际任务
尝试 @ 提及文件引用

第二阶段：记忆与上下文（3-5 天）

编辑 agents.md，记录你的工作习惯
观察 memories/ 的内容，理解自动记忆机制
使用命令 N 切换任务但保持项目上下文

第三阶段：插件与工具连接（1 周）