从对话工具到控制工具:AI 的范式转变
如果我问你怎么使用 ChatGPT 或 Claude,你大概率会说“打开对话窗口,发送消息,获得回复”。这个模式你已经非常熟悉了——输入、输出、结束。
但 OpenAI Codex 可能正在重新定义你与 AI 的交互方式。它不是又一个聊天机器人,而是一个能够完全接管你的电脑来完成复杂任务的 AI Agent。想象一下,你只需要用自然语言描述需求,它就能帮你:
自动处理 53 张收据的 OCR 识别并生成 Excel 仪表盘(耗时 7 分钟) 定时在每周五上午 9 点自动抓取竞品数据并生成分析报告 帮你操作设计软件生成营销素材,甚至直接操控浏览器测试网页功能
这不是科幻,而是 Codex 已经实现的能力。这篇文章将用 30 分钟的阅读时间,帮你构建对 Codex 的完整认知框架。
一、Codex 到底是什么:重新理解 AI Agent
1.1 定位差异:从“对话”到“控制”
在正式展开技术细节之前,我们需要理解一个根本性的差异:Codex 与传统对话式 AI 究竟有什么不同?
| 核心能力 | ||
| 交互边界 | ||
| 工作模式 | ||
| 典型场景 |
Codex 的设计理念可以概括为三个字:全控制。它不是回答你的问题,而是帮你把事情做完。
1.2 能力架构全景
为了便于理解,我先把 Codex 的核心能力按照层级组织起来:
Code
Codex 能力体系│├── 文件控制层(基础设施)│ ├── 全文件访问(Full File Access)│ ├── Project 系统(项目文件夹管理)│ └── 多聊天并行(Multi-chat Multitasking)│├── 认知记忆层(上下文理解)│ ├── 手动记忆(agents.md)│ ├── 自动记忆(memories/)│ └── 项目感知(Project Awareness)│├── 扩展能力层(生态连接)│ ├── Plugins(插件,通过 @ 调用)│ ├── Skills(技能,通过 / 调用)│ └── 预置技能库│├── 执行能力层(任务完成)│ ├── 图像生成(GIT-image-2)│ ├── 电脑控制(Computer Use)│ ├── 浏览器控制(Browser Use)│ └── 自动化调度(Automation)│└── 上下文追踪层(实时感知) └── Chronicle(屏幕录制 + 定时截图)接下来,让我们逐层深入,了解每个模块的具体能力与应用场景。
二、文件控制层:让 AI 成为你的数字助理
2.1 全文件访问:打破边界
传统的 AI 对话工具只能处理对话窗口内的文字,当你需要它分析一个本地文件时,你必须手动上传、复制粘贴。但 Codex 具备全文件访问能力——它可以直接读取、编辑、操作你电脑上的任意文件。
这意味着什么?你的工作流程可以完全改变:
传统模式:
在 Codex 中打开文件 上传文件 等待分析 手动将结果复制到本地
Codex 模式:
直接告诉 Codex 要处理哪个文件或文件夹 AI 自动读取、处理、生成结果 结果直接保存到你的项目目录
这个能力在实际应用中有巨大的效率差异。视频中演示了一个票据处理的案例:53 张收据图片,7 分钟内完成 OCR 识别、数据提取,并生成一份完整的 Excel 仪表盘。如果用传统方法,光是手动上传和处理这些文件,可能需要几小时。
2.2 Project 系统:项目化的任务管理
Codex 引入了 Project 的概念来组织工作。每个 Project 实际上对应一个本地文件夹,包含该项目的所有文件、对话历史和上下文记忆。
这样做有几个显著优势:
- 对话隔离
:不同项目的讨论不会互相干扰,保持专注 - 上下文延续
:项目文件夹内的文档和配置会被自动关联 - 本地同步
:Project 创建的文档会自动同步到你的电脑文件夹
建议的使用方式是:每个独立的工作场景创建一个 Project,比如“客户 A 的方案”“季度报告”“代码项目 X”。这样 Codex 能始终理解你当前的工作背景,避免上下文混乱。
2.3 便捷操作:新建对话与文件引用
有两个实用的快捷操作值得掌握:
- 命令
N:在当前对话中新建一个聊天线程,同时保持项目上下文的连续性。这对于切换任务但不想丢失进度时非常有用。 - @提及语法
:在对话中输入 @符号,可以直接引用项目文件夹内的任何文档。这比手动上传文件要自然得多,也更符合人类的工作习惯。
三、认知记忆层:让 AI “记住”你的工作
3.1 记忆双层设计
Codex 的记忆系统是一个精心设计的多层结构,分为手动记忆和自动记忆两个层次。
手动记忆通过项目根目录下的 agents.md 文件实现。这个文件完全由你控制,你可以写入任何希望 Codex “记住”的内容:
项目背景与目标 你的工作习惯和偏好 特定的处理规则或格式要求 团队协作的注意事项
当你切换到不同的 Project 时,Codex 会自动加载对应的 agents.md,确保每次对话都从正确的上下文开始。
自动记忆则存放在 memories/ 文件夹中,由 Codex 根据对话内容自动维护。它会记录:
你在对话中做出的关键决定 AI 对工作方式的调整 项目的演进轨迹
打个比方,agents.md 像是一份由你亲手撰写的项目手册,而 memories/ 像是 Codex 自己写的日志。这两者的结合,使得 Codex 具备了真正的“项目感知”能力——它不只是在回答当前问题,而是理解整个项目的来龙去脉。
3.2 从“活文档”到持续进化
这种记忆系统的价值在于它形成了一个活文档。随着项目推进,agents.md 可以不断更新,反映最新的工作方式和约定。同时 memories/ 会记录 Codex 的“观察”,让你也能看到 AI 视角下的项目状态。
举个例子,你在处理一个多月的营销活动项目时,Codex 会记得你之前偏好用表格呈现数据、会记得你不希望出现某些关键词、会记得你通常在周三提交报告草稿。这些细节的累积,使得每次与 Codex 的交互都比上一次更精准。
四、扩展能力层:连接你的整个工具生态
4.1 Plugins 插件系统
Codex 的插件生态是其扩展能力的重要支柱。通过 @提及语法,你可以调用各种插件来连接外部服务和工具。
视频中提到的插件场景包括:
- Gmail 插件
:搜索、读取、整理邮件,生成分析表格,甚至按优先级排序 - Slack 插件
:发送消息、管理频道、自动化团队通知 - Notion 插件
:读取笔记、调用数据库、同步内容素材
插件的定位是工具连接器。它们负责处理与特定服务的认证、API 调用、数据格式转换等技术细节,让你可以用自然语言操作任何已连接的外部工具。
Codex 目前支持超过 100 种插件,覆盖了从企业协作工具到开发平台的广泛范围。
4.2 Skills 技能系统:可复用的工作流
如果说 Plugins 是“工具”,那么 Skills 就是“工作流配方”或“SOP”。
Skills 通过 / 斜杠命令调用,比如输入 /brand-analysis 就会启动一个品牌分析的工作流。
你可以在 Skills 中定义:
完整的任务分解步骤 所需调用的插件和工具 输出的格式和结构 质量检查的要点
一个重要的细节是:Skills 可以调用 Plugins。这意味着你可以在一个 Skills 中组合多个插件的能力,比如“品牌分析”技能可能同时需要调用 Gmail 读取邮件、Notion 读取背景资料、最后生成一份表格。
Skills 的文件存储在 plugins/skills/ 子目录下,格式为 Markdown(.md 文件)。这种设计让技能定义变得透明且易于编辑。
4.3 创建 Skills 的两种方法
视频中详细介绍了创建 Skills 的两种路径,各有优劣:
方法一:Prompt-to-Skill(快速但质量有限)
直接让 Codex 根据你的描述生成技能文件。速度快,适合简单场景,但生成结果可能不够精准,需要后续手动调整。
方法二:Manual Workflow Method(迭代优化 → 反向工程)
这是视频推荐的“最佳实践”:
先用自然方式完成任务,记录每一步操作 迭代优化直到得到满意的结果 让 Codex 将这个工作流“反向工程”为 Skills 文件
第二种方法的好处是,生成的技能文件必然经过验证,质量更有保障。虽然前期投入更多时间,但当你需要重复执行类似任务时,这个投资会得到回报。
4.4 Skills 的动态优化
Codex 还支持技能的动态优化。在使用某个技能的过程中,如果你发现一个更好的处理方式,可以直接告诉 Codex:“以后遇到类似情况都用这个格式处理。”
系统会记住这个偏好,并在后续调用时自动应用。这种机制让 Skills 成为一个不断进化的工具,而不是一成不变的模板。
五、执行能力层:多模态的任务完成
5.1 图像生成:内置的视觉创作能力
Codex 集成了 GPT-image-2 图像生成模型,官方称其为“业内最强”的图像生成能力。你不需要切换到其他工具或服务,在 Codex 中就能完成完整的图像创作。
实际演示中,用这个模型生成了多组营销素材图片:不同人数的模特组合(单人、三人、五人)、不同肤色和国籍的出镜形象。这对于需要大量营销内容的品牌来说,可以显著提升内容生产效率。
调用图像生成的方式是:进入 Codex 技能库 → Skills → image gen,然后描述你需要的图像内容。
5.2 Computer Use:操控你的电脑桌面
Computer Use 是 Codex 最具突破性的能力之一:它可以控制你的本地应用程序和桌面界面。
想象一下这样的场景:
你对着 Codex 说“帮我把这份报告发邮件给张总” Codex 自动打开邮件客户端,填写收件人,附加文件,发送 整个过程不需要你触碰键盘或鼠标
这不是“AI 帮你写邮件内容”,而是“AI 操作你的电脑执行邮件发送”。在演示中,Codex 展示了通过语音指令在 Canva 中创建演示文稿——5 页的 PPT,用自然语言描述需求,AI 代替你完成所有操作。
5.3 Browser Use:浏览器内的自动化
与 Computer Use 相近但不同的是 Browser Use——它专注于控制浏览器内的网页应用。
这个能力对于 Web 应用的测试和自动化特别有价值。比如你可以让 Codex:
测试一个网页的所有按钮功能是否正常 自动填写表单并提交 抓取网页数据并整理 验证页面导航是否按预期工作
在演示中,Codex 对一个 HTML 应用进行了完整的 QA 测试,逐一检查按钮功能、导航跳转是否正常工作。
5.4 对比:Computer Use vs Browser Use
| 控制范围 | ||
| 典型场景 | ||
| 权限要求 | ||
| 适用对象 |
两者并不互斥,而是互补的能力。根据任务场景选择合适的工具。
六、自动化调度:让 AI 按计划工作
6.1 定时任务的配置
Codex 内置 Automation 功能,允许你设置定时执行的任务。这解决了 AI 对话工具的一个核心局限:传统 AI 只能“被动响应”,而自动化调度让 AI 能够“主动执行”。
配置定时任务时,Codex 会提供一个内置的 UI 界面,显示:
任务的当前状态(等待中/运行中/已完成) 上次运行时间和结果 下次执行时间 执行日志和错误信息
这个界面让你对自动化任务有完整的透明度和控制力。
6.2 定时品牌分析实例
视频演示了一个“每周品牌分析”的自动化场景:
- 触发条件
:每周五上午 9:00 - 执行内容
:调用品牌分析 Skills,自动抓取数据、生成报告 - 输出
:一份完整的竞品分析报告,发送到指定位置
类似的自动化场景还包括:
每天定时整理邮件,按优先级生成待办清单 每周自动汇总多个数据源生成运营报告 每日自动备份项目文件到云端
关键在于,你只需要设置一次,后续 Codex 会在指定时间自动执行,无需任何人工干预。
七、上下文追踪:重新定义 AI 的“视野”
7.1 Chronicle 机制
Chronicle 是 Codex 在上下文理解方面的一个创新设计。它的核心机制是:
- 持续录制屏幕
:记录你的屏幕活动 - 定时截图
:按照设定的时间间隔保存屏幕截图 - 语音激活
:说出“使用 Chronicle”即可启动
这套机制解决了一个常见问题:当你想让 AI 理解“当前工作状态”时,传统方式需要你手动上传截图或描述上下文。Chronicle 让这个过程变得透明和自然——AI 可以直接“看到”你在做什么。
7.2 应用场景
Chronicle 的实际价值体现在:
- 复杂问题的即时求助
:当你在某个应用中遇到问题时,AI 能看到你当前的界面上下文,理解你的具体困境 - 工作状态的延续
:切换对话后,新对话能通过 Chronicle 了解你之前的工作进展 - 减少描述成本
:你不需要反复解释“我现在在做什么”,AI 直接从屏幕获取信息
这代表着一种新的交互理念:让 AI 适应人类的工作方式,而不是让人类适应 AI 的限制。
八、完整能力矩阵与应用场景对照
8.1 能力矩阵汇总
| 文件控制 | |||
| Project 系统 | |||
| 手动记忆 | |||
| 自动记忆 | |||
| Plugins | |||
| Skills | |||
| 图像生成 | |||
| Computer Use | |||
| Browser Use | |||
| Automation | |||
| Chronicle |
8.2 场景化案例库
场景一:财务/行政自动化
处理 53 张收据 → OCR 识别 → 数据提取 → Excel 仪表盘
耗时:7 分钟
场景二:内容创作与发布
落地页文案生成 → 自动适配品牌风格 → 发布到 CMS
关键技术:记忆系统、@文件引用
场景三:邮件处理与分析
Gmail 搜索 → 品牌合作邮件提取 → 优先级排序 → 表格输出
关键技术:Gmail 插件、多格式输出
场景四:可视化图表生成
自然语言描述需求 → Excalidraw 生成 7 张图示
耗时:4 分 23 秒
关键技术:Skill + 插件协同
场景五:营销素材批量生产
产品描述 → GPT-image-2 生成多组图片(不同模特组合)
关键技术:内置图像模型、多参数控制
场景六:设计自动化
语音指令 → Canva 创建 5 页 PPT → 自动排版
关键技术:Computer Use、语音交互
场景七:Web 应用 QA 测试
HTML 应用测试 → 按钮功能验证 → 导航测试 → 报告输出
关键技术:Browser Use
场景八:周期性商业分析
每周五 9:00 自动执行 → 数据采集 → 分析报告 → 存档
关键技术:Skill + Automation
九、Codex 的演进逻辑:从能力集合到能力进化
回顾整个 Codex 的设计,有一条清晰的演进逻辑:
Code
单一对话能力 → 任务执行能力 → 工作流复用能力 → 自主进化能力早期 AI 的核心是“回答问题”,这限制了它在复杂场景中的应用。Codex 通过文件控制和多模态执行,让 AI 能够真正完成任务。通过 Skills 机制,让工作流得以复用,避免重复劳动。最关键的是,通过记忆系统和动态优化机制,Codex 不是一套静态的能力集合,而是一个能够根据使用情况持续进化的系统。
视频中有一句话精准地总结了这个特点:
说明
“Codex 提供的不仅是能力集合,更是能力的进化机制。”
每一次你使用 Skills,每一次你给出反馈,都是在为 Codex 添加新的能力。这种“用即训练”的模式,让 AI 工具不再是冰冷的软件,而是一个与你共同成长的数字伙伴。
十、快速上手路径建议
如果你刚接触 Codex,建议按照以下路径逐步深入:
第一阶段:基础能力探索(1-2 天)
创建一个 Project,熟悉文件控制操作 体验全文件访问能力,处理一个实际任务 尝试 @ 提及文件引用
第二阶段:记忆与上下文(3-5 天)
编辑 agents.md,记录你的工作习惯 观察 memories/ 的内容,理解自动记忆机制 使用命令 N切换任务但保持项目上下文
第三阶段:插件与工具连接(1 周)
夜雨聆风