AI开始直接操作你的浏览器了:OpenAI和Perplexity同日放出大招

发生了什么？

2026年5月7日，同一天之内，两家AI公司几乎同时放出了同一方向的重磅更新：

OpenAI发布了Codex Chrome扩展，让Codex可以直接在Chrome浏览器里工作，跨标签页后台运行，测试Web应用、使用DevTools，而且不会接管你的浏览器。

Perplexity发布了全新Mac原生应用，将其Personal Computer（个人电脑）功能开放给Pro和Enterprise用户，同时推出了Comet AI浏览器，可以自主执行多步骤任务，比如订机票、管理邮件、填写表单。

再加上Anthropic的Claude Computer Use（3月上线，4月扩展到Claude Code），以及Google官方推出的Chrome DevTools MCP（让任何AI编程工具都能控制Chrome），AI直接操作浏览器这件事，在2026年5月彻底爆发了。

各家都在做什么？

OpenAI：Codex走进Chrome

OpenAI的Codex Chrome扩展是目前最直接的做法。

安装后，Codex可以在Chrome中跨标签页后台运行。你可以让它在后台标签里测试你写的Web应用，同时自己在另一个标签里正常浏览网页，互不干扰。

具体能力包括：

• 测试Web应用并反馈结果
• 获取多个标签页的上下文信息
• 使用Chrome DevTools进行调试
• 在后台并行处理多个任务

OpenAI表示，自从4月份在桌面端Codex中加入Computer Use功能后，他们发现用户最常用的操作场景其实都在浏览器里。所以直接把Codex塞进Chrome，顺理成章。

数据方面，Codex目前周活跃用户超过400万，相比年初增长了8倍。这个增长速度说明，AI编程工具已经从尝鲜阶段进入了日常使用阶段。

Anthropic：Claude直接控制你的电脑

Anthropic走的是更激进的路线。

Claude Computer Use从2024年10月开始实验，2026年3月正式开放，4月扩展到Claude Code和Claude Cowork。它的能力不只是操作浏览器，而是直接控制你的整个电脑桌面——点击、打字、打开应用、导航浏览器、完成完整的工作流。

也就是说，Claude不是通过Chrome扩展API来操作浏览器，而是像人一样"看着"屏幕，模拟键盘和鼠标操作。好处是什么网页都能操作，坏处是速度慢、成本高，而且有时候会点错地方。

Claude Code则是面向开发者的场景：在编程过程中需要打开浏览器测试、调试、查看文档，Claude Code可以自己去做这些事，不需要你手动切换窗口。

Perplexity：AI浏览器Comet

Perplexity的思路不太一样——它直接做了一个AI原生浏览器叫Comet。

Comet内置了Perplexity的AI助手，可以进行页面内的研究、摘要、自主多步骤任务。配合Personal Computer功能，它能自主完成订机票、管理邮件、填表单等操作。

更关键的是，Perplexity同时开放了Personal Computer给Pro用户（之前只有Max订阅才能用），这意味着更多普通用户可以体验AI代理操作电脑的能力。

Google：Chrome DevTools MCP

Google的做法是最"开放"的。

Chrome DevTools MCP是一个MCP（Model Context Protocol）服务器，让任何支持MCP的AI工具——包括Claude、Gemini、Cursor、Copilot——都能直接控制Chrome浏览器的DevTools功能。

这意味着开发者不需要专门装某个AI公司的扩展，只要你的AI编程工具支持MCP协议，就能控制Chrome。这是一个基础设施级别的动作。

为什么都在抢浏览器？

表面上看，这些公司在做不同的事情——扩展、桌面控制、AI浏览器、开放协议。但本质上，它们都在争夺同一个东西：AI Agent的操作入口。

想想看，现代人每天花最多时间的地方是哪里？浏览器。

工作用的办公软件、项目管理工具、代码仓库、文档编辑器、即时通讯——越来越多的东西都跑在浏览器里。如果AI能够直接操作浏览器，就等于获得了操作几乎所有数字工具的能力。

这比API对接高效得多。每个网站都要单独开发API对接方案，但浏览器是统一的入口。AI只要能"看"到网页、"点"到按钮、"填"进表单，就能操作一切。

所以，浏览器是AI Agent从"聊天助手"进化到"行动代理"的关键一步。

目前的实际体验怎么样？

坦率说，还不够好。

OpenAI Codex Chrome扩展刚刚发布，实际用户反馈还不多。但从设计理念来看，它是最务实的一个——专注于Web开发场景，不试图做所有事，后台运行不干扰用户，这是正确的方向。

Claude Computer Use的能力最强但也最贵。每次操作都要截图、分析、决策、执行，token消耗巨大。简单的填表单任务可能就要花好几美元。而且模拟鼠标点击的方式，面对复杂的动态网页（比如SPA单页应用），可靠性并不高。

Perplexity Comet浏览器目前只在macOS上可用，功能还在快速迭代中。自动订机票、管理邮件这些场景听起来很美好，但实际成功率还有待验证。

Chrome DevTools MCP是最有长期价值的，因为它不绑定任何AI厂商。但目前的适用场景主要集中在Web开发和调试，普通用户不会直接用到DevTools。

更深层的思考

这些产品同时爆发，释放了一个明确的信号：AI正在从"回答问题"走向"执行任务"。

ChatGPT刚出来的时候，大家觉得"AI能聊天"就很厉害了。后来AI能写代码，大家觉得"AI能创作"了。现在，AI能直接操作你的电脑和浏览器，帮你完成一整套工作流。

这是一个质变。

但同时也带来了新的问题：

安全。 当AI可以操作你的浏览器，它能看到你登录的所有网站、所有Cookie、所有会话。你确定你信任它吗？MacRumors评论区有人直接说："新的恶意软件刚刚发布。"虽然夸张，但担忧是真实的。

隐私。 AI操作浏览器时产生的所有数据——你访问了什么网站、填了什么表单、买了什么东西——这些信息会流向哪里？Cloud端的AI代理意味着你的浏览器操作数据会被上传处理。

权限边界。 AI应该被允许做到什么程度？自动提交表单？自动付款？自动发送邮件？这些操作一旦出错，后果可能很严重。

目前各家都采取了不同程度的权限控制——Codex不会接管浏览器，Claude Computer Use需要用户批准敏感操作，Comet有企业管理功能。但这个行业还太新，标准和规范远未成熟。

总结

2026年5月7日可能会被标记为AI Agent操作浏览器的一个里程碑。OpenAI、Perplexity同日发布，Anthropic和Google此前已经布局，四大玩家同时在这个赛道上发力。

短期内，这些功能对Web开发者来说已经很有用了——让AI帮你测试网页、调试代码、检查跨浏览器兼容性，这些场景是实实在在的痛点。

中长期来看，当AI能够可靠地操作浏览器，很多现在需要人工完成的重复性工作——数据采集、表单填写、流程审批、信息整理——都有可能被自动化。

浏览器，正在从"人机交互的窗口"变成"AI Agent操作世界的入口"。

数据来源：养虾基地