最近在圈子里,很多做“一人公司”和超级个体的朋友都在疯狂钻研自动化效率工具。大家都有一个痛点:每天做内容、搞交付已经耗尽心血,如果能把多平台分发、数据抓取这些繁琐的运营动作全交给AI,那商业杠杆就能瞬间放大十倍。

为了摸透这里面的底层逻辑,我这几天花时间硬核拆解了一款极具代表性的AI浏览器扩展——Codex 的源码。拆完之后豁然开朗:它不是在简单地写代码模拟点击,它是在你的电脑里硬生生重构了一套极其精密的“人机协同作业系统”。
今天,咱们就结合IP运营的视角,看看AI到底是怎么像一个真实的助理一样,替你接管网页的。
一、看懂底盘:分工明确的“三人创业团队”
这个能自动操作网页的系统,本质上是由三个角色组成的,分工极其明确,就像一个运转高效的微型公司:
1. 幕后大脑(Codex 本地程序):这是住在你电脑本地的一个程序,里面装着AI大模型。它就是这个团队的“操盘手”,只负责核心的思考与决策:判断你要干什么(比如“去X平台发个推文”)、观察屏幕当前的状态(看截图、分析页面结构),然后下达具体的指令(点哪个坐标、输入什么文案)。它极其克制,绝不亲手去碰浏览器。
2. 忠实传令兵(Chrome 扩展插件):这就是你装在浏览器里的那个小插件。很多人以为插件是核心,其实不是。它自己不带任何思考和决策逻辑,只做两件事“跑腿”:一是把“大脑”发来的高级指令,翻译成浏览器能听懂的底层代码;二是把浏览器里的最新动态(页面加载完了、数据请求成功了)实时汇报给“大脑”。
3. 终极执行者(Chrome 浏览器):它是被遥控的底盘。这里藏着一个很多人不知道的开发者核武器——Chrome DevTools Protocol (CDP)。这本来是给程序员调试网页用的“上帝模式”接口,权限极大,能干几乎所有事:无视前端防护进行点击、输入键盘指令、后台静默截图、抓取DOM树、监听所有网络请求。传令兵(扩展)就是靠着拿到了 CDP 的调试权限,获得了这把万能钥匙。

二、打通任督二脉:指令是如何流转的?
这三个角色是怎么丝滑配合的?靠的是两条极其稳固的通讯通道:
大脑与传令兵之间: 靠 Chrome 自带的
Native Messaging功能。简单来说,就是建立了一根本地的数据管道,两者像拿对讲机一样,通过轻量级的 JSON 格式互发消息。传令兵与浏览器之间: 靠
chrome.debugger.attach()这个极高权限的动作,把扩展像狗皮膏药一样“死死贴在”你要操作的网页标签上。一旦贴上,浏览器顶部就会出现一行显眼的提示:「正在被调试」。这是系统级别的安全隔离,提醒你这个页面现在是被“上帝模式”接管的。
在这个闭环里,信息流向永远是大脑(Codex)主动发起请求,传令兵转发,浏览器执行;而浏览器产生了任何变化,传令兵也会立刻像装了监控一样,主动把情报推送给大脑。

三、实战拆解:让AI发一条帖子的11步SOP
光说概念太虚,咱们直接跑个实战SOP。假设你已经登录了账号,现在对AI下令:“打开网页,帮我发一条推文:Hello from Codex”。
后台这11步神仙操作,堪称自动化运营的教科书:
开辟独立工作区: 大脑下令开新网页,扩展立刻
chrome.tabs.create()创建空白页,并把它塞进一个彩色的“会话标签组”里,方便多任务并行时不出乱子。接管控制权: 扩展把 CDP 调试器“贴”到这个新标签页上,顶部出现「正在被调试」警告,获取最高控制权。
精准空降: 发送底层命令
Page.navigate跳转目标网址。等网页彻底加载完毕,扩展立刻向大脑汇报:“老板,进场了”。AI的“双重视觉”定位: 现在的平台都是动态页面,输入框可能要卡顿几秒才出来。大脑怎么找?它用两招交叉验证:一是“看图识字”,直接让浏览器后台截张图传回来;二是“盲人摸象”,读取网页的 Accessibility Tree(无障碍结构树),从底层代码里精准揪出“输入框”角色的元素。找到后,瞬间锁定屏幕绝对坐标(比如中心点 x:400, y:330)。
安抚用户的视觉戏法: 你在屏幕上会看到一个橙色小光标飞过去。注意,这不是真鼠标! 这是一个用 Shadow DOM 隔离画出来的动画图层,纯粹是为了让你看清AI在干嘛,降低你的掌控焦虑,它完全不影响真实的网页交互。
突破风控的“真点击”: 重点来了!大脑算出坐标后,通过 CDP 派发一个真实的鼠标底层事件(
Input.dispatchMouseEvent:按下、抬起)。这种通过内核派发的 click 事件,平台完全分辨不出它和真人点击有什么区别,直接绕过大部分前端防护。母语级文字输入: 大脑调用
Input.insertText写入文案。这是极其高维的浏览器输入法层级的模拟,跟你平时敲键盘的底层逻辑一模一样,所以那些用 React 或 Vue 写的复杂输入框,全都能完美响应。安全阀门(最后确认): 做个人IP,发出去的内容就是泼出去的水,代表着人设。所以这里有个极佳的风控设计:发帖前,大脑会截个图发给你确认(“草稿已就绪,要发吗?y/N”)。你点头,它才敢点发送。
扣动扳机: 重复第6步的真点击动作,精准按下“发布”按钮。平台前端立刻发起一个 GraphQL 请求,把你的推文传到服务器。
多维核实交付结果: 现在很多网页是SPA(单页应用),发完帖子网址都不变的。怎么确认没卡bug?大脑会用三招:一是看图(有没有弹出“发送成功”气泡);二是查DOM树(输入框是不是清空了);三是最硬核的“听网络”——扩展一直在后台监听,只要看到发帖的API接口返回了状态码 200,立马确认大功告成。
打扫战场: 大脑宣布任务结束,扩展麻溜地把调试器从标签页上摘下来,「正在被调试」消失,把干净的网页交还给你。
四、几个颠覆认知的商业技术细节
为什么一定要绕远路用 CDP,不用普通脚本?懂点技术的人会问,扩展自己写两句 JS 也能模拟点击啊。因为普通的 JS 脚本点出来的事件,底层标记
isTrusted=false,现在稍微有点规模的平台,对这种“假点击”一律拦截(尤其是登录、支付场景)。而 CDP 派发的指令isTrusted=true,这是降维打击。大脑为什么非得放在本地,不塞进浏览器里?因为AI大模型太吃资源了。浏览器插件跑在 service worker 里,资源极其受限,随时会被 Chrome 强杀。把沉重的大脑剥离出来放在本地独立运行,插件只做轻量级的数据中转,这个架构设计极大地保证了超级个体多线并行时的稳定性。
AI 能偷看我的隐私吗?不能。它的视野是被严格框定的。它只能看到它主动要求截的图、主动读的页面结构。比如你自己用实体键盘敲密码,走的是操作系统的硬件路径,根本不经过 CDP,插件完全是个瞎子。所以在关键环节让你“自己输密码”,才是真正懂商业安全的设计。
五、终极思考:自动化运营能逃过平台的“去AI味”风控吗?
文章最后,咱们聊个最现实的问题:如果我把这套极度成熟的系统,直接拿去全自动发小红书、发公众号矩阵,平台能查得出来吗?

答案是:大概率还是会被风控识别。
为什么?这又回到了咱们平时做内容时常说的那个词——「去AI味」。
内容需要去AI味,运营动作同样需要去AI味。 目前这套系统虽然在底层接口上模拟了真人,但它的“行为特征”太像机器了:
鼠标轨迹过于笔直和瞬移: 真人滑鼠标是带有弧度的,有加速度和减速度。
点击坐标准得吓人: 真人点按钮,每次落点都在按钮的不同偏僻角落,甚至会点歪,但AI每次都直奔绝对中心点。
时间节拍器: 每一步操作的间隔时间如果都是毫秒级的一致,在风控后台看就像是心电图拉成了一条直线。
太过于“目的明确”: 真实用户在页面上会有大量的“废动作”:无意识地上下滚轮、鼠标乱晃、看两秒停顿一下、打错字按退格键。而AI目前的行为,干净利落得让人害怕。
所以,真正的商业级自动化,不仅要在技术上能跑通SOP,更要在行为学上“伪装成一个有瑕疵的真人”。对于咱们这些想要拥抱AI、解放生产力的一人公司来说,看懂这套底层逻辑,是在红利期建立起自己运营护城河的第一步。
夜雨聆风