Codex 和 Claude Code 是目前最强的一批 Agent 产品,但它俩都被名字耽误了——大家以为只是写代码的工具,其实它们是真正的智能体,能帮你干的事远不止编程。
今年 Codex 热度很高,周活已经 500 多万,其中 20% 以上是非程序员,增速甚至是程序员的 3 倍。但网上一直缺一篇给小白看的、足够详细的上手教程,所以我把从安装到玩熟的整条路,一次写清楚。
它到底是什么:嘴替 vs 手替
如果说 ChatGPT 是你的「嘴替」——你问它,它回你一段话,然后还是你自己干;那 Codex 就是你的「手替」——你派个活,它自己动手做完,再告诉你「搞定了,你看看」。

它能替你写游戏、写 APP、做海报 PPT、整理文件和数据,甚至完整操控你的电脑。
顺便澄清个误会:很多人以为 Codex 是 Claude Code 火了之后 OpenAI 临时搞的。其实它 2021 年就存在,当时只是个写代码的工具;GPT-4 出来后因为模型本身写码就强,项目一度被停掉。
这两年 Claude Code 一骑绝尘,OpenAI 又把它重新捡起来、全面补齐。追赶速度很快、口碑也好,不少 Claude Code 老用户短时间就转了过来。两强各有所长,会用哪个看习惯和场景。
怎么装,以及先认清界面三块区域
用 Codex 有四种方式:App、IDE 插件、命令行、浏览器。我最推荐 App。前提是你得有「魔法」和一个 ChatGPT 账号。
到官网 openai.com/codex/get-started 下载对应版本,Windows / macOS、Intel / Apple 芯片都有。装好用 ChatGPT 账号直接登录即可(也能用 API Key,但部分功能会受限)。所有 ChatGPT 套餐都含 Codex,额度就在你的 ChatGPT 账号里。

第一次打开会有点懵,因为它不像 ChatGPT 只有一个输入框。记住三块就行:左上是功能区(新对话、搜索、插件、自动化、移动版),左下是对话历史区,右边是对话区。
左下还分「项目」和「对话」:项目其实就是一个文件夹,你在里面发起的所有对话、生成的文件都归到这个文件夹;不属于任何项目的,就是单独的「对话」。
三个关键选项:推理、速度、权限
右边对话框下面比 ChatGPT 多了几个选项,这几个是重点。

推理档位决定它思考多少,分低、中、高、超高四档。越高越慢、越费 token,但难题更靠谱。默认选「中」最均衡,大多数活够用。
速度模式能在不降智的前提下提速约 1.5 倍,代价是更费 token。权限模式是因为它能操作你的文件,建议选「替我审批」,安全和效率兼顾。
还有个习惯一定要养成:先开「计划模式」。别上来就让它干,先让它把计划列出来、你确认没问题再执行——我们人类做事也是这么干的。
小试牛刀:做个网站,还能「指哪改哪」
拿一个咖啡馆网站练手:先建项目,再开计划模式,把提示词丢给它。它会不断弹窗跟你确认细节,最后把理解的需求整理成一份文档让你拍板,确认后就吭哧吭哧把网站做出来。
Codex 内置了浏览器,做完直接在右边预览。想改怎么办?右上角有个加号,点开进入评论模式:鼠标移到页面上,元素会一个个拆开,点哪个就能在弹框里写「这里要怎么改」;只是改字体颜色,还能直接在菜单里调,改完即时看到效果。改完别忘了右上角发送、必要时点刷新清缓存。这种「指哪改哪」,比打一大段文字描述舒服太多。
技能与插件:让它从聊天机器人变成干活的
只做个网页没什么稀奇。Codex 真正变强,靠的是技能(Skills)和插件(Plugins)。

技能就是把重复要做的事写成一个可复用的能力,下次在聊天框输入 / 就能调;你直接说「帮我创建一个生成封面图的 skill」,它会自动调 Skill Creator 帮你建。而且 Skills 是通用标准,你在 Claude Code 里写的技能,这里也能直接装来用。
插件比技能更强,它把技能、MCP 服务、应用程序全打包到一起。比如数据分析插件,一个就含 17 个应用 + 15 个技能,能从 Gmail、Google Drive 读数,处理后再写进 Notion。Codex 一口气发了 6 个这样的插件包:数据分析、产品设计、创意制作、销售、财务分析、投资。其中最值得装的是 Computer Use(操控电脑)、Chrome(操控浏览器)和办公处理(表格 / PPT,还能把 Word 转成 PPT)。
三个让它「长出手脚」的功能
前面都还是它在屏幕里捣鼓。真正让我觉得不一样的,是它能伸手到屏幕外面。

Computer Use 最科幻:它能看见你 Mac 的画面,像真人一样点鼠标、敲键盘、操作软件——适合测 App、改设置、复现那种只在界面上出现的 bug。
它做得很克制,每次动软件前先问你「我能用吗」,随时能喊停。更让人放心的是几条红线:不能输系统密码、不能批安全隐私弹窗、不能自动化终端。提醒一句,这功能目前只在 macOS 上,欧洲、英国、瑞士暂时用不了。
Appshots 特别顺手:按左右两个 ⌘ 键,就把你最前面那个窗口连同里面的文字「咔」地截给 Codex,不用打字解释上下文。看到报错、看到不懂的图,直接甩给它就行。
Chrome 插件让它替你逛网页、点按钮、填表单。但要叮嘱一句:它操作的是你已登录的浏览器,点的每一下网站都当成你本人。让它干活时最好盯着点,或者让它另开一个浏览器,两边不打架。
人在外面,也能遥控它干活
出门在外突然想让它开干、或想瞄一眼半天的任务跑到哪了?手机就派上用场。

关键要搞清楚:手机只是遥控器,真正干活的还是你家那台电脑。你的文件、插件、项目都在电脑上,手机只是隔空下指令、审批、看结果。配对要从电脑端的 Codex App 发起(CLI 和 IDE 插件里弄不了),手机端用最新版 ChatGPT App。注意,主机得一直开机、联网、登录着——想认真玩,可以放台 Mac mini 在家 24 小时待命。
最后几个设置建议调一下:跟进行为选「引导」(开发中能随时发消息调整,不必等上一个任务跑完);自定义指令可以直接抄 Karpathy 那份指南,它是 GitHub 上 16.7 万星的一个 CLAUDE.md,告诉模型该怎么跟你协作;再把记忆功能打开,它会从聊天里攒记忆带进下一个对话。
写在最后
作为普通用户,到这儿你已经能很好地把 Codex 用起来了:装好、选个模型、把活儿派给它,剩下的就是动动嘴皮子。
当然它的功能远不止这些,尤其涉及开发还有一堆高级玩法,这篇是给普通人看的就没往深挖。等你上手熟了想再钻,可以去翻官方文档 developers.openai.com/codex。希望你看完不只是「懂了 Codex 是什么」,更能真的把它用起来。
夜雨聆风