AI 终于离开聊天框了

Codex 进 Chrome 不是又多了一个插件。它更像一个信号，Agent 开始离开聊天窗口，进入真实工作的现场。

2026 年 5 月 7 日，OpenAI 发了一条很短的消息，说 Codex 现在可以直接在 macOS 和 Windows 的 Chrome 里工作。

如果只把它理解成一个 Chrome 插件，那就太小看这件事了。

我第一反应不是「又多了一个入口」，而是，Agent 终于开始摸到真实工作的现场了。

以前我们用 AI，多数时候是在聊天框里问它问题。网页里有什么，我们复制出来；表格里有什么，我们导出来；后台系统里有什么，我们截个图或者描述一下；然后让 AI 站在门外帮我们分析。这个流程当然也能用，但它有一个非常别扭的地方，AI 像一个脑子很好的人，却一直被关在会议室里，只能听我们转述外面的情况。

而大多数真实工作，偏偏不发生在聊天框里。

它发生在浏览器里。

聊天框只是入口，浏览器才是任务发生的地方。

你看 AI 日报，要打开网页。你找公众号爆文，要打开网页。你看 X 上的大佬推文，要打开网页。你查产品文档、点后台、整理飞书 Base、看 Google Sheet、翻 Notion、进 Gmail、进各种内部系统，最后又把这些东西搬回到自己的文章工作流里。

真正消耗人的，不是让 AI 帮你写一段文字，而是在这些页面之间来回切，复制、粘贴、判断、整理、再确认。

所以 Codex 进 Chrome 这件事，在我看来，不是一个产品小更新。

它是在告诉我们，Agent 的下一站不是更漂亮的聊天窗口，而是浏览器这个工作现场。

SECTION 01

为什么是浏览器

我之前搭写作流的时候，这种感觉特别明显。

正文配图：浏览器才是工作现场

比如今天我要写一篇文章，素材可能来自 AI HOT 的日报、公众号爆文、X 推文、OpenAI 文档、飞书多维表格。单看每一个来源，都不复杂。难的是把这些东西串起来，判断哪个能成选题，哪个只是素材，哪个值得沉淀成知识卡，哪个应该暂时跳过。

这个过程很琐碎，也很累。

以前的 AI 帮忙方式，通常是我把链接、截图、文字丢给它，让它帮我分析。现在如果 Agent 能直接进浏览器，它就可以在我授权的范围内自己打开页面，读取页面内容，跨标签页对比，最后把结果填回我指定的表格或文档里。

这个变化听起来没有「模型智商暴涨」那么刺激，但它可能更接近日常生产力真正发生变化的地方。

说得更直白一点，模型再聪明，如果永远只能等你投喂，它还是助手；它能进入工作现场，才开始像 Agent。

这篇文章的核心判断

Agent 不是要变成一个更会聊天的人。它要变成一个能干活的人。而干活的人，迟早要离开聊天框。

SECTION 02

Codex 怎么接进 Chrome

OpenAI 官方文档里对 CodexChrome extension 的描述很具体，它适合用在需要登录态的浏览器任务里，比如 LinkedIn、Salesforce、Gmail 或内部工具。

公开页面、本地开发预览、file-backed preview，官方更建议先用 Codex 内置浏览器；但只要任务需要你的 Chrome 登录状态，就可以考虑用 Chrome 插件。

这个区分很重要。

因为 Agent 进浏览器不是让它随便乱逛，而是让它在一个明确的工作边界内，替你完成那些必须在浏览器里发生的事。

具体步骤很简单。

正文配图：Codex 接入 Chrome 的 6 步流程

1.打开 Codex App，找到 Plugins。

2.在 Plugins 里添加 Chrome plugin。

3.按引导安装或连接 Chrome 扩展。

4.接受 Chrome 弹出的权限请求。

5.打开 Chrome，在工具栏扩展图标里点开 Codex。

6.如果看到 Connected，就说明连接成功。

图 1：CodexChrome 扩展显示 Connected，图片来自 OpenAI 官方文档

权限这里要稍微认真一点。Chrome 会提示比较大的权限范围，比如读取和更改网站数据、读取浏览历史、管理下载、与本机应用通信、管理标签页分组等。听起来吓人，但原因也很简单，它要真的操作浏览器，就必须拿到足够的浏览器能力。

权限不是让你闭眼全给。

我的建议是，把它当成一个可以进入工作现场的实习生。你会让实习生进办公室，但不会把财务密码写在白板上；你会让它整理资料，但不会让它无确认地提交付款。Codex 进 Chrome 也是一样，先给明确任务，再看它要访问哪个网站，再决定是否允许。

连接成功后，回到 Codex，新开一个线程。官方文档建议安装完成后新开线程，因为有些连接状态需要在新线程里重新建立。你可以在 prompt 里直接 @Chrome。

比如：

PROMPT

@Chrome 打开我今天的 AI 素材网页，把页面里的 10 条更新按「事件、为什么重要、适合写什么」整理成表格。

或者更贴近我的写作流：

PROMPT

@Chrome 打开 AI HOT 今日 AI 日报和我的飞书选题池，把今天适合写公众号的 3 个选题整理出来。每个选题要包含核心问题、读者收益、参考链接和事实核查风险。

再比如，如果我要把 X 推文情报接进选题池，我会这么下任务：

PROMPT

@Chrome 打开这几条 X 推文链接，分别判断它们属于反直觉观点、工具体验、行业判断还是技术辩论。只保留能写成公众号长文的内容，把理由写清楚，并给我 3 个不撞标题的中文选题。

这里的重点不是 prompt 写得多漂亮，而是任务要窄。

不要一上来就让它「帮我运营整个账号」。这种任务太大，也不利于你审查。更好的方式是让它完成一个浏览器里的具体动作，比如读一个页面、对比两个页面、提取表格、填写一条记录、检查一个后台配置。

SECTION 03

关键不是点按钮

官方文档还提到，Codex 在 Chrome 里工作时，会把一个线程的浏览器任务放在 Chrome tab group 里。

这个设计我觉得很有意思。

因为浏览器任务最烦的就是标签页混乱。你让 Agent 开了十几个页面，最后不知道哪个是它开的，哪个是你自己的。放进 tab group，至少说明这件事不是把浏览器当一次性窗口，而是在把「一个任务的网页现场」组织起来。

接下来是网站权限。

正文配图：浏览器权限边界与操作分级

默认情况下，Codex 在接触一个新网站前会问你。你可以只允许当前对话使用这个网站，也可以把这个 host 加到 always allow，或者直接拒绝。这个地方不要图省事一律 always allow。

我的做法会比较保守，常用的公共资料站、官方文档站，可以考虑长期允许；带登录态的工作后台、邮箱、飞书、支付、客户资料，尽量按任务临时允许。

这不是胆小。

这是 Agent 时代的基本卫生习惯。

浏览器里有太多东西是你平时感觉不到敏感的。历史记录、搜索词、内部 URL、已登录页面、页面里的提示词注入，都可能被带进上下文里。OpenAI 文档里也专门提醒，浏览器历史可能包含敏感遥测、内部 URL、搜索词和跨设备活动；如果允许 Codex 读取历史，相关历史条目可能成为它使用的上下文。

我的理解很简单，能不用历史就不用历史，能只读当前页面就只读当前页面。

还有一个很实用的小设置，文件上传。

如果你的 Chrome 任务需要把本机文件上传到网页，比如上传一张图、一个 CSV、一个 Markdown，官方文档建议在 Chrome 扩展详情里打开 Allow access to file URLs。路径是 Chrome 工具栏扩展图标，Manage Extensions，找到 Codex，点 Details，然后打开这个开关。

图 2：在 Chrome 扩展详情里允许 Codex 访问 file URLs，图片来自 OpenAI 官方文档

这个设置我建议平时不用就关着，需要上传本地文件时再开。不是因为它一定危险，而是没有必要长期打开所有门。

SECTION 04

怎么放进写作流

我拿自己的日常写作举例。

正文配图：AI HOT、公众号爆文和 X 推文进入选题池

以前我选题，大概是这样：先刷 AI HOT，看今天有没有大事件；再看公众号爆文，看大家都在用什么角度；再看 X，看海外一线作者和产品团队在讨论什么；然后开飞书，把素材归档，打标签，写判断，生成选题。

这套流程听起来很理性，实际执行起来很容易散。因为你在每一个页面里看到的东西都不一样，AI HOT 是事件，公众号是叙事，X 是信号，飞书是结构。人脑要在这些格式之间来回切换，最容易疲劳，也最容易偷懒。

Agent 进 Chrome 后，可以把它变成一个更自然的流程。

第一步，让它只读今天 AI HOT。

PROMPT

@Chrome 打开今天的 AI HOT 日报，只看 Agent、Codex、浏览器自动化、AI 写作流相关内容。每条只提取四个字段：事件是什么，为什么值得注意，能不能写公众号，事实核查风险是什么。

第二步，让它对齐 X 推文情报。

PROMPT

@Chrome 再打开我今天保存的 X 推文情报，把和上面主题重合的推文找出来。不要复述推文，帮我判断哪些推文能变成文章里的观点或案例。

第三步，再让它进飞书。

PROMPT

@Chrome 打开我的飞书 Base，把最值得写的两个选题填进选题池。字段按现有表结构来，不确定的地方留空，不要乱填。

这个流程的重点，是让 Agent 做「跨页面搬运与初筛」，而不是让它替你决定最后写什么。最后的判断还得人来。

比如它可以告诉我，Codex 进 Chrome、Sam Altman 说 AI 应该帮助开发者进化、OpenAI 文档强调 Chrome 适合登录态任务，这三件事可以合成一个选题。但文章真正的主线，仍然应该是我自己的判断：浏览器是工作现场。

这就避免了一个常见问题，AI 文章很容易写成产品发布复述。

什么「OpenAI 推出了 CodexChrome 插件，该插件能够提升用户效率」。这种句子看起来没错，但它没有灵魂，也没有人的判断。读者看完只会觉得，哦，又一个工具。

我真正想写的是另外一件事：为什么 Agent 会先接管网页任务。

因为网页是现代工作的公共地面。

不管你做内容、做销售、做运营、做产品，还是做程序员，最后都有大量工作落在浏览器里。聊天框只是一个入口，浏览器才是任务发生的地方。谁能进入浏览器，谁就能接触到真实流程；谁只能等人类复制粘贴，谁就永远慢半拍。

SECTION 05

我的使用边界

这不代表你应该把一切都交给它。

我现在比较推荐的使用边界是三条。

第一，让它读公开网页、官方文档、素材页，风险较低，价值很高。比如产品更新、帮助文档、榜单、日报、文章列表。

第二，让它操作登录态但低风险的页面，比如整理飞书表格、查 Gmail 里的公开通知、读取某个内部 dashboard。这里要有授权确认，也要检查它写入的内容。

第三，涉及金钱、客户隐私、账号权限、删除数据、批量提交的页面，先别让它直接动手。可以让它看，让它给步骤建议，但最后点击提交的人最好还是你。

Agent 进入浏览器之后，最重要的能力不是「它可以替我点按钮」。

按钮谁都会点。

真正重要的是，它开始理解页面和页面之间的关系。它知道这个网页是素材源，那个网页是表格，另一个网页是官方证据，再一个网页是发布后台。它可以把这些东西串成一个任务，而不是一个个孤立的对话。

这才是我觉得 Codex 进 Chrome 有意思的地方。

它不只是一个插件，它是 Agent 从聊天框走向真实工作流的一小步。这个小步不炫酷，不像发布一个新模型那样让人刷屏，但对真正每天干活的人来说，可能更重要。

以后我们衡量一个 Agent 好不好，可能不只是看它会不会写代码、会不会总结、会不会生成标题，而是看它能不能进入你的真实工作现场，能不能理解你的工作流，能不能在你授权的范围内，把那些琐碎但必要的步骤接过去。

我现在越来越觉得，AI 不是要变成一个更会聊天的人。

它要变成一个能干活的人。

而干活的人，迟早要离开聊天框。