当 ChatGPT 开始操作你的电脑:Agent 时代的隐私困境

想象这样一个场景：你正在网银页面核对一笔转账，突然鼠标开始自己移动，光标滑向「确认付款」按钮——不是黑客，是你刚才让 ChatGPT 帮你「处理一下这笔账单」。

这不是科幻。这是正在发生的现实。

OpenAI 最近给 ChatGPT 桌面版加了一项新能力：它能看见你的屏幕，移动你的鼠标，点击按钮，输入文字。

当 AI 从「回答问题」进化到「替你操作」，我们不得不面对一个根本性的问题：你愿意把电脑的控制权交给一个 AI 吗？

从对话到执行：Agent 的质变

过去两年，我们习惯了和 ChatGPT 对话。问它问题，它给答案。这种交互是安全的——AI 被关在浏览器的标签页里，影响范围仅限于文字输出。

但「计算机使用」能力改变了游戏规则。

现在的 ChatGPT 可以：

• 读取你的屏幕内容
• 识别界面元素的位置
• 模拟鼠标移动和点击
• 在输入框中打字

这意味着它能帮你填表、订机票、整理文件夹，甚至——理论上——做任何你在电脑上能做的事。

OpenAI 不是唯一一家押注这个方向的。谷歌的「个人智能」正在整合你的邮件、日历、搜索历史；微软的 Copilot 已经能操作 Office 套件；Anthropic 的 Claude 也在测试类似的计算机控制能力。

Agent 竞赛已经进入白热化阶段。

便利与风险：一枚硬币的两面

让我们诚实一点：这种能力确实很诱人。

想象一下，你对 AI 说：「帮我把这 50 份简历整理成表格，提取关键信息」，然后看着它打开文件夹、读取 PDF、填写 Excel——全程无需你动手。或者：「帮我订一张下周去东京的机票，要早上出发、直飞、商务舱」，AI 就能打开浏览器、访问航司网站、完成预订。

这种「数字管家」的体验，正是科技巨头们描绘的 Agent 未来。

但硬币的另一面是什么？

第一，屏幕就是隐私。 你的屏幕上有什么？未发送的邮件草稿、银行对账单、私人聊天记录、工作机密文档。当 AI 能「看见」你的屏幕，所有这些信息都进入了它的「视野」。

第二，操作就是权力。 点击「确认」按钮、输入支付密码、发送敏感邮件——这些操作的后果由谁承担？如果 AI 误解了你的指令，或者出现了「幻觉」，造成的损失算谁的？

第三，习惯就是数据。 AI 观察你操作电脑的过程，就是在学习你的工作习惯、思维方式、甚至个人隐私偏好。这些数据会被存储吗？会被用于模型训练吗？会被分享给第三方吗？

技术背后的架构选择

OpenAI 的「计算机使用」功能，本质上是通过操作系统级的权限实现的。它需要安装桌面应用，获取屏幕录制和输入控制的权限。

这是一个关键的设计选择。

谷歌选择了另一条路：它的「个人智能」功能主要基于云端数据整合——你的 Gmail、Calendar、Search 历史都在谷歌的服务器上，AI 通过 API 访问这些信息，而不是直接控制你的设备。

两种架构，两种隐私模型。

OpenAI 的方式更强大，也更危险。它能让 AI 操作任何软件，不受限于 API 开放程度。但它要求用户授予更深层的系统权限，也意味着更大的攻击面。

谷歌的方式更安全，但也更受限。它只能操作谷歌生态内的服务，对于本地文件、第三方软件无能为力。

你会选哪一种？

监管正在追赶，但已经落后

当技术跑在监管前面，用户就成了试验品。

目前，针对 AI Agent 的专门监管几乎空白。欧盟的 AI 法案主要关注高风险应用场景（如生物特征识别、关键基础设施），对「计算机使用」这类通用操作能力尚无明确规定。现有监管框架尚未覆盖 AI Agent 的操作权限问题，各国立法机构仍在观望。

OpenAI 自己设置了一些限制：比如 AI 不能输入密码、不能访问某些敏感系统设置。但这些是技术层面的护栏，不是法律层面的约束。

更深层的问题是：当 AI 以你的名义执行操作，法律责任如何界定？

如果 AI 帮你发送了一封诽谤邮件，被告的是你，还是 OpenAI？如果 AI 误操作导致资金损失，保险公司会赔付吗？如果 AI 被黑客劫持，成为攻击你系统的工具，责任在谁？

这些问题没有现成答案。

用户能做什么？

在监管完善之前，保护自己的责任落在每个用户身上。

第一，理解权限。 当你安装 ChatGPT 桌面应用时，仔细阅读它要求的权限。屏幕录制、辅助功能、输入监控——每一项都意味着潜在的隐私风险。

第二，隔离使用。 考虑在专用设备或虚拟机上使用 AI Agent 功能，而不是你的主力工作电脑。至少，避免在 AI 能「看见」的屏幕上处理敏感信息。

第三，保持警惕。 AI 的「幻觉」问题没有彻底解决。当它执行操作时，保持监督，准备随时中断。不要完全放手。

第四，追问数据。 了解你的操作数据会被如何存储和使用。OpenAI 的隐私政策会更新吗？你的屏幕截图会被保留多久？会被用于训练吗？

这不是终点，而是起点

ChatGPT 能操作电脑，只是 Agent 能力进化的一个里程碑。

下一步是什么？也许是 AI 能同时操作多台设备，协调手机和电脑的工作流。也许是 AI 能代表你与其他 AI 谈判、交易、协作。也许是 AI 能预测你的需求，在你开口之前就完成操作。

这个未来既令人兴奋，也令人不安。

技术本身是中立的。关键在于我们如何设计它、监管它、使用它。

Agent 时代的核心问题不是「AI 能做什么」，而是「我们愿意让 AI 做什么」。

这个问题的答案，将定义下一个十年的人机关系。

本文仅代表作者观点，不构成技术或法律建议。