源码级拆解:AI是如何像真人一样操控网页的?聊聊“一人公司”的终极自动化真相

最近在圈子里，很多做“一人公司”和超级个体的朋友都在疯狂钻研自动化效率工具。大家都有一个痛点：每天做内容、搞交付已经耗尽心血，如果能把多平台分发、数据抓取这些繁琐的运营动作全交给AI，那商业杠杆就能瞬间放大十倍。

为了摸透这里面的底层逻辑，我这几天花时间硬核拆解了一款极具代表性的AI浏览器扩展——Codex 的源码。拆完之后豁然开朗：它不是在简单地写代码模拟点击，它是在你的电脑里硬生生重构了一套极其精密的“人机协同作业系统”。

今天，咱们就结合IP运营的视角，看看AI到底是怎么像一个真实的助理一样，替你接管网页的。

一、看懂底盘：分工明确的“三人创业团队”

这个能自动操作网页的系统，本质上是由三个角色组成的，分工极其明确，就像一个运转高效的微型公司：

1. 幕后大脑（Codex 本地程序）：这是住在你电脑本地的一个程序，里面装着AI大模型。它就是这个团队的“操盘手”，只负责核心的思考与决策：判断你要干什么（比如“去X平台发个推文”）、观察屏幕当前的状态（看截图、分析页面结构），然后下达具体的指令（点哪个坐标、输入什么文案）。它极其克制，绝不亲手去碰浏览器。
2. 忠实传令兵（Chrome 扩展插件）：这就是你装在浏览器里的那个小插件。很多人以为插件是核心，其实不是。它自己不带任何思考和决策逻辑，只做两件事“跑腿”：一是把“大脑”发来的高级指令，翻译成浏览器能听懂的底层代码；二是把浏览器里的最新动态（页面加载完了、数据请求成功了）实时汇报给“大脑”。
3. 终极执行者（Chrome 浏览器）：它是被遥控的底盘。这里藏着一个很多人不知道的开发者核武器——Chrome DevTools Protocol (CDP)。这本来是给程序员调试网页用的“上帝模式”接口，权限极大，能干几乎所有事：无视前端防护进行点击、输入键盘指令、后台静默截图、抓取DOM树、监听所有网络请求。传令兵（扩展）就是靠着拿到了 CDP 的调试权限，获得了这把万能钥匙。

二、打通任督二脉：指令是如何流转的？

这三个角色是怎么丝滑配合的？靠的是两条极其稳固的通讯通道：

大脑与传令兵之间： 靠 Chrome 自带的 Native Messaging 功能。简单来说，就是建立了一根本地的数据管道，两者像拿对讲机一样，通过轻量级的 JSON 格式互发消息。
传令兵与浏览器之间： 靠 chrome.debugger.attach() 这个极高权限的动作，把扩展像狗皮膏药一样“死死贴在”你要操作的网页标签上。一旦贴上，浏览器顶部就会出现一行显眼的提示：「正在被调试」。这是系统级别的安全隔离，提醒你这个页面现在是被“上帝模式”接管的。

在这个闭环里，信息流向永远是大脑（Codex）主动发起请求，传令兵转发，浏览器执行；而浏览器产生了任何变化，传令兵也会立刻像装了监控一样，主动把情报推送给大脑。

三、实战拆解：让AI发一条帖子的11步SOP

光说概念太虚，咱们直接跑个实战SOP。假设你已经登录了账号，现在对AI下令：“打开网页，帮我发一条推文：Hello from Codex”。

后台这11步神仙操作，堪称自动化运营的教科书：

开辟独立工作区： 大脑下令开新网页，扩展立刻 chrome.tabs.create() 创建空白页，并把它塞进一个彩色的“会话标签组”里，方便多任务并行时不出乱子。
接管控制权： 扩展把 CDP 调试器“贴”到这个新标签页上，顶部出现「正在被调试」警告，获取最高控制权。
精准空降： 发送底层命令 Page.navigate 跳转目标网址。等网页彻底加载完毕，扩展立刻向大脑汇报：“老板，进场了”。
AI的“双重视觉”定位： 现在的平台都是动态页面，输入框可能要卡顿几秒才出来。大脑怎么找？它用两招交叉验证：一是“看图识字”，直接让浏览器后台截张图传回来；二是“盲人摸象”，读取网页的 Accessibility Tree（无障碍结构树），从底层代码里精准揪出“输入框”角色的元素。找到后，瞬间锁定屏幕绝对坐标（比如中心点 x:400, y:330）。
安抚用户的视觉戏法： 你在屏幕上会看到一个橙色小光标飞过去。注意，这不是真鼠标！ 这是一个用 Shadow DOM 隔离画出来的动画图层，纯粹是为了让你看清AI在干嘛，降低你的掌控焦虑，它完全不影响真实的网页交互。
突破风控的“真点击”： 重点来了！大脑算出坐标后，通过 CDP 派发一个真实的鼠标底层事件（Input.dispatchMouseEvent：按下、抬起）。这种通过内核派发的 click 事件，平台完全分辨不出它和真人点击有什么区别，直接绕过大部分前端防护。
母语级文字输入： 大脑调用 Input.insertText 写入文案。这是极其高维的浏览器输入法层级的模拟，跟你平时敲键盘的底层逻辑一模一样，所以那些用 React 或 Vue 写的复杂输入框，全都能完美响应。
安全阀门（最后确认）： 做个人IP，发出去的内容就是泼出去的水，代表着人设。所以这里有个极佳的风控设计：发帖前，大脑会截个图发给你确认（“草稿已就绪，要发吗？y/N”）。你点头，它才敢点发送。
扣动扳机： 重复第6步的真点击动作，精准按下“发布”按钮。平台前端立刻发起一个 GraphQL 请求，把你的推文传到服务器。
多维核实交付结果： 现在很多网页是SPA（单页应用），发完帖子网址都不变的。怎么确认没卡bug？大脑会用三招：一是看图（有没有弹出“发送成功”气泡）；二是查DOM树（输入框是不是清空了）；三是最硬核的“听网络”——扩展一直在后台监听，只要看到发帖的API接口返回了状态码 200，立马确认大功告成。
打扫战场： 大脑宣布任务结束，扩展麻溜地把调试器从标签页上摘下来，「正在被调试」消失，把干净的网页交还给你。

四、几个颠覆认知的商业技术细节

为什么一定要绕远路用 CDP，不用普通脚本？懂点技术的人会问，扩展自己写两句 JS 也能模拟点击啊。因为普通的 JS 脚本点出来的事件，底层标记 isTrusted=false，现在稍微有点规模的平台，对这种“假点击”一律拦截（尤其是登录、支付场景）。而 CDP 派发的指令 isTrusted=true，这是降维打击。
大脑为什么非得放在本地，不塞进浏览器里？因为AI大模型太吃资源了。浏览器插件跑在 service worker 里，资源极其受限，随时会被 Chrome 强杀。把沉重的大脑剥离出来放在本地独立运行，插件只做轻量级的数据中转，这个架构设计极大地保证了超级个体多线并行时的稳定性。
AI 能偷看我的隐私吗？不能。它的视野是被严格框定的。它只能看到它主动要求截的图、主动读的页面结构。比如你自己用实体键盘敲密码，走的是操作系统的硬件路径，根本不经过 CDP，插件完全是个瞎子。所以在关键环节让你“自己输密码”，才是真正懂商业安全的设计。

五、终极思考：自动化运营能逃过平台的“去AI味”风控吗？

文章最后，咱们聊个最现实的问题：如果我把这套极度成熟的系统，直接拿去全自动发小红书、发公众号矩阵，平台能查得出来吗？

答案是：大概率还是会被风控识别。

为什么？这又回到了咱们平时做内容时常说的那个词——「去AI味」。

内容需要去AI味，运营动作同样需要去AI味。 目前这套系统虽然在底层接口上模拟了真人，但它的“行为特征”太像机器了：

鼠标轨迹过于笔直和瞬移： 真人滑鼠标是带有弧度的，有加速度和减速度。
点击坐标准得吓人： 真人点按钮，每次落点都在按钮的不同偏僻角落，甚至会点歪，但AI每次都直奔绝对中心点。
时间节拍器： 每一步操作的间隔时间如果都是毫秒级的一致，在风控后台看就像是心电图拉成了一条直线。
太过于“目的明确”： 真实用户在页面上会有大量的“废动作”：无意识地上下滚轮、鼠标乱晃、看两秒停顿一下、打错字按退格键。而AI目前的行为，干净利落得让人害怕。

所以，真正的商业级自动化，不仅要在技术上能跑通SOP，更要在行为学上“伪装成一个有瑕疵的真人”。对于咱们这些想要拥抱AI、解放生产力的一人公司来说，看懂这套底层逻辑，是在红利期建立起自己运营护城河的第一步。