发生了什么?
2026年5月7日,同一天之内,两家AI公司几乎同时放出了同一方向的重磅更新:
OpenAI发布了Codex Chrome扩展,让Codex可以直接在Chrome浏览器里工作,跨标签页后台运行,测试Web应用、使用DevTools,而且不会接管你的浏览器。
Perplexity发布了全新Mac原生应用,将其Personal Computer(个人电脑)功能开放给Pro和Enterprise用户,同时推出了Comet AI浏览器,可以自主执行多步骤任务,比如订机票、管理邮件、填写表单。
再加上Anthropic的Claude Computer Use(3月上线,4月扩展到Claude Code),以及Google官方推出的Chrome DevTools MCP(让任何AI编程工具都能控制Chrome),AI直接操作浏览器这件事,在2026年5月彻底爆发了。
各家都在做什么?
OpenAI:Codex走进Chrome
OpenAI的Codex Chrome扩展是目前最直接的做法。
安装后,Codex可以在Chrome中跨标签页后台运行。你可以让它在后台标签里测试你写的Web应用,同时自己在另一个标签里正常浏览网页,互不干扰。
具体能力包括:
- • 测试Web应用并反馈结果
- • 获取多个标签页的上下文信息
- • 使用Chrome DevTools进行调试
- • 在后台并行处理多个任务
OpenAI表示,自从4月份在桌面端Codex中加入Computer Use功能后,他们发现用户最常用的操作场景其实都在浏览器里。所以直接把Codex塞进Chrome,顺理成章。
数据方面,Codex目前周活跃用户超过400万,相比年初增长了8倍。这个增长速度说明,AI编程工具已经从尝鲜阶段进入了日常使用阶段。
Anthropic:Claude直接控制你的电脑
Anthropic走的是更激进的路线。
Claude Computer Use从2024年10月开始实验,2026年3月正式开放,4月扩展到Claude Code和Claude Cowork。它的能力不只是操作浏览器,而是直接控制你的整个电脑桌面——点击、打字、打开应用、导航浏览器、完成完整的工作流。
也就是说,Claude不是通过Chrome扩展API来操作浏览器,而是像人一样"看着"屏幕,模拟键盘和鼠标操作。好处是什么网页都能操作,坏处是速度慢、成本高,而且有时候会点错地方。
Claude Code则是面向开发者的场景:在编程过程中需要打开浏览器测试、调试、查看文档,Claude Code可以自己去做这些事,不需要你手动切换窗口。
Perplexity:AI浏览器Comet
Perplexity的思路不太一样——它直接做了一个AI原生浏览器叫Comet。
Comet内置了Perplexity的AI助手,可以进行页面内的研究、摘要、自主多步骤任务。配合Personal Computer功能,它能自主完成订机票、管理邮件、填表单等操作。
更关键的是,Perplexity同时开放了Personal Computer给Pro用户(之前只有Max订阅才能用),这意味着更多普通用户可以体验AI代理操作电脑的能力。
Google:Chrome DevTools MCP
Google的做法是最"开放"的。
Chrome DevTools MCP是一个MCP(Model Context Protocol)服务器,让任何支持MCP的AI工具——包括Claude、Gemini、Cursor、Copilot——都能直接控制Chrome浏览器的DevTools功能。
这意味着开发者不需要专门装某个AI公司的扩展,只要你的AI编程工具支持MCP协议,就能控制Chrome。这是一个基础设施级别的动作。
为什么都在抢浏览器?
表面上看,这些公司在做不同的事情——扩展、桌面控制、AI浏览器、开放协议。但本质上,它们都在争夺同一个东西:AI Agent的操作入口。
想想看,现代人每天花最多时间的地方是哪里?浏览器。
工作用的办公软件、项目管理工具、代码仓库、文档编辑器、即时通讯——越来越多的东西都跑在浏览器里。如果AI能够直接操作浏览器,就等于获得了操作几乎所有数字工具的能力。
这比API对接高效得多。每个网站都要单独开发API对接方案,但浏览器是统一的入口。AI只要能"看"到网页、"点"到按钮、"填"进表单,就能操作一切。
所以,浏览器是AI Agent从"聊天助手"进化到"行动代理"的关键一步。
目前的实际体验怎么样?
坦率说,还不够好。
OpenAI Codex Chrome扩展刚刚发布,实际用户反馈还不多。但从设计理念来看,它是最务实的一个——专注于Web开发场景,不试图做所有事,后台运行不干扰用户,这是正确的方向。
Claude Computer Use的能力最强但也最贵。每次操作都要截图、分析、决策、执行,token消耗巨大。简单的填表单任务可能就要花好几美元。而且模拟鼠标点击的方式,面对复杂的动态网页(比如SPA单页应用),可靠性并不高。
Perplexity Comet浏览器目前只在macOS上可用,功能还在快速迭代中。自动订机票、管理邮件这些场景听起来很美好,但实际成功率还有待验证。
Chrome DevTools MCP是最有长期价值的,因为它不绑定任何AI厂商。但目前的适用场景主要集中在Web开发和调试,普通用户不会直接用到DevTools。
更深层的思考
这些产品同时爆发,释放了一个明确的信号:AI正在从"回答问题"走向"执行任务"。
ChatGPT刚出来的时候,大家觉得"AI能聊天"就很厉害了。后来AI能写代码,大家觉得"AI能创作"了。现在,AI能直接操作你的电脑和浏览器,帮你完成一整套工作流。
这是一个质变。
但同时也带来了新的问题:
安全。 当AI可以操作你的浏览器,它能看到你登录的所有网站、所有Cookie、所有会话。你确定你信任它吗?MacRumors评论区有人直接说:"新的恶意软件刚刚发布。"虽然夸张,但担忧是真实的。
隐私。 AI操作浏览器时产生的所有数据——你访问了什么网站、填了什么表单、买了什么东西——这些信息会流向哪里?Cloud端的AI代理意味着你的浏览器操作数据会被上传处理。
权限边界。 AI应该被允许做到什么程度?自动提交表单?自动付款?自动发送邮件?这些操作一旦出错,后果可能很严重。
目前各家都采取了不同程度的权限控制——Codex不会接管浏览器,Claude Computer Use需要用户批准敏感操作,Comet有企业管理功能。但这个行业还太新,标准和规范远未成熟。
总结
2026年5月7日可能会被标记为AI Agent操作浏览器的一个里程碑。OpenAI、Perplexity同日发布,Anthropic和Google此前已经布局,四大玩家同时在这个赛道上发力。
短期内,这些功能对Web开发者来说已经很有用了——让AI帮你测试网页、调试代码、检查跨浏览器兼容性,这些场景是实实在在的痛点。
中长期来看,当AI能够可靠地操作浏览器,很多现在需要人工完成的重复性工作——数据采集、表单填写、流程审批、信息整理——都有可能被自动化。
浏览器,正在从"人机交互的窗口"变成"AI Agent操作世界的入口"。
数据来源:养虾基地
夜雨聆风