在此之前一直有一个很懊恼的问题困扰着我:我天天说自己在用 Agent,但很多时候,它其实根本看不到我每天真正看的东西。
不是它完全不能联网。现在很多 Agent 都能搜索公开网页,也能读一些结构清楚的链接。但一到真实使用场景,问题就来了:需要登录的页面读不了,JS 动态渲染的页面读不全,滚动加载的信息流抓不住,小红书、X、公众号、后台页面这种我自己明明能在浏览器里看到的内容,它经常就是看不到。
这种体验就很割裂。
因为我每天真正觉得有价值的信息,很多根本不在“公开搜索结果”里。它在我的社交媒体关注页里,在公众号文章里,在小红书搜索结果里,在 GitHub 项目的 README 和 Issue 里,在各种产品官网、技术文档、更新日志、后台页面里。
这些东西,我自己在浏览器里明明能看到,但 Agent 看不到。
于是就出现一个特别傻的工作流:我刷社媒,看到一个有意思的 AI 工具,复制链接给它;我看公众号,发现一段值得参考的观点,复制正文给它;我打开Dify技术文档(这个就是动态加载的页面),看见API接口调试说明,再一段一段粘给它。最后它开始总结、分析、归纳,输出一份看起来还不错的东西。
但越用越觉得不对劲。
这到底是 Agent 在帮我干活,还是我在给 Agent 喂饭?
我以前没太认真想过这件事,直到这次跑了一遍 Dokobot 的完整安装和使用流程,顺手让 WorkBuddy 通过它去读了一下我的社媒订阅推送页。我当时的需求很简单:帮我看看今天Following的信息流里,有没有关于 AI 的有用信息。
结果它真的通过我的本地浏览器扫了一遍页面,然后整理出了一张表:主题、作者、一句话价值(文章尾部有效果展示)。
那一刻我突然反应过来:Dokobot 最有意思的地方,可能不是“让 Agent 会读网页”,而是让 Agent 第一次接触到了我真实的信息流。
Agent 真正缺的不是搜索框,而是一个进入真实浏览器现场的入口。
一、Dokobot 不是又一个网页抓取工具
Dokobot 官方有句Slogan:给你的 AI Agent 一双真正的眼睛。

这句话刚看到的时候,我是有点免疫的。毕竟现在 AI 工具动不动就“真正的眼睛”“真正的大脑”“真正的员工”,看多了之后,我的第一反应都是:差不多得了。
但跑完之后我发现,它这个说法还真不是完全瞎吹。
Dokobot 和普通网页读取工具最大的区别,不是它也能打开网页,而是它通过你的真实 Chrome 浏览器去看页面。也就是说,它不是让 Agent 站在网页外面猜,而是尽量复用你本机浏览器里的状态。
你已经登录了,它就可以在这个浏览器环境里读;你已经打开了某个页面,它就可以围绕这个页面提取内容;你自己能看到的东西,它才有机会帮你整理。
这点对 Agent 来说很关键。过去很多 Agent 像一个站在门外的助理,你让它查资料,它只能去公开大厅里找;而 Dokobot 更像是让这个助理坐到了你的电脑旁边,能看你正在看的那块屏幕。
当然,这不是让它乱读,也不是绕过什么权限。它的前提依然是:你本来就能在浏览器里看到的私人内容。只不过以前这些内容需要你复制粘贴给 AI,现在可以让 Agent 自己通过浏览器读取。
这就是我觉得它有意思的地方。
它不是替代浏览器,而是把浏览器变成 Agent 接入你私人信息流的关键入口。
二、为什么它能读那些“很麻烦”的网页?
Dokobot 还有一个技术点,挺值得说一下:它强调自己是基于像素的视觉提取。
这句话有点技术味,翻译成人话就是:很多工具读网页,是去读网页背后的代码和 DOM 结构;Dokobot 更关注页面渲染出来之后,用户真正看到的内容。

这件事为什么重要?
因为现在很多网页早就不是简单 HTML 了。前端框架、懒加载、动态卡片、无限滚动、弹窗、侧边栏,乱得很。你直接拿源码给模型看,模型就像被塞了一嘴钢丝球:正文没多少,脚本、样式、导航、按钮、页脚一大堆。
Token 烧了,重点还不一定抓得住。
Dokobot 更像是先帮 Agent 把页面“看明白”:标题在哪,正文在哪,列表在哪,表格在哪,链接在哪。然后再把这些东西整理成更适合大模型处理的结构化文本。
这一步看起来云里雾里的,但很重要。因为后面不管是总结、翻译、调研,还是提取关键信息,第一步都不是让模型自由发挥,而是先给它一份干净的页面内容。
你不能指望 Agent 在一堆网页垃圾里稳定捞金子。你得先让它看到像样的内容。
三、真正香的,是让 Agent 先替我刷一遍
官网上有一张对比图,基本把 Dokobot 的优势讲明白了:登录页面、JS 渲染、反爬检测、内网站点,这些普通网页工具容易翻车的地方,Dokobot 都围绕“真实浏览器”来解决。

但我自己用下来,最有感觉的不是这些技术名词,而是一个很朴素的变化:它让 Agent 开始碰到我的真实信息流。
以前我说“让 AI 帮我调研一个工具”,其实流程大概是这样的:我先自己刷到这个工具,点开官网,看一眼介绍页,再把链接复制给 AI。AI 帮我总结完,我还得自己判断它有没有漏掉价格页、文档页、更新日志、示例项目。
现在我会想,能不能反过来:让 Agent 先帮我看一遍。
比如:
这件事不是“网页抓取”这么简单。它更像是让 Agent 先替我从信息流里做一次粗筛。
我现在每天要看的东西太多了。X 要刷,公众号要看,小红书要翻,GitHub Trending 要扫,Hacker News 也想瞄两眼。你不看,怕错过;你真看,一天就没了。
所以 Dokobot 对我来说最有价值的地方,不是它让我少复制一个链接,而是它让我开始想象一种新的工作流:
我不再从信息流里一点点捞东西喂给 Agent。而是让 Agent 先下去捞一遍,把可能有用的东西递给我。
这才像个助手。
四、安装没有想象中麻烦:插件 + CLI
我之前对这种工具最怕的一点,就是安装教程写得像考研数学。什么端口、密钥、环境变量、配置文件、权限、代理,刚打开文档就想关电脑。
但这次我实际跑了一遍,Dokobot 本地模式还挺顺。它主要由两部分组成:

你可以简单理解成:插件负责“看”,CLI 负责“把看到的东西交给 Agent”。
前提是你本机已经装好了 Node.js,并且浏览器插件也装好。之后核心就是三条命令。
第 1 条:安装 Dokobot CLI
npm i -g @dokobot/cli@latest

第 2 条:安装本地 Bridge
dokobot install-bridge
这个 Bridge 可以理解成浏览器和命令行之间的桥。装好之后,Dokobot 才能通过本地环境连接你的 Chrome。

跑完后,如果看到 Bridge connected,基本就说明本地连接已经成功了。

第 3 条:安装 Dokobot 核心 Skill
dokobot install-skill --id 173023672318164992
这里要说清楚一点:这条命令安装的不是整个技能广场,而是技能广场里的第一个技能——“Dokobot 核心技能”。
也就是下面这张图里左上角那个卡片:
Dokobot 核心技能:使用真实 Chrome 浏览器读取和提取任何网页内容。

这个 Skill 的作用,就是让你的 Agent 知道应该怎么调用 Dokobot 的核心能力:通过真实 Chrome 浏览器读取和提取网页内容。
到这里,标题里的“三条命令”就齐了:
npm i -g @dokobot/cli@latest
dokobot install-bridge
dokobot install-skill --id 173023672318164992
这个过程中,你至少要会打开终端,会复制命令,电脑里要有 Node.js。但对一个 Agent 工具来说,这个安装成本已经算很低了,至少没有那种“第一步先劝退普通人”的感觉(过程中遇到问题直接问网页版的Deepseek就行)。
五、装进了 WorkBuddy,干活!
我这次是把 Dokobot 装到了 WorkBuddy 里。安装 Skill 的时候,它会让你选择要安装到哪个 Agent,我这里直接选择了 WorkBuddy。

装完之后,回到 WorkBuddy 的技能列表里,就能看到 Dokobot 了(可能需要重启一下WorkBuddy,Agent都这样,一般都不会实时加载Skills的)。

这一步完成之后,WorkBuddy 就不只是一个会聊天、会写文件、会跑任务的 Agent 了。它开始能通过我的本地浏览器读网页。
以前我请了一个助理,但这个助理只能听我复述信息。我每天还得把网页内容复制给它,把截图发给它,把链接粘给它,然后它再帮我加工。
现在终于给它配了一副眼睛,还让它坐到了我的电脑前。
它现在可以自己看我已经打开的页面。
这才像个能干活的 Agent。
六、真正让我有感觉的是:它开始读我的关注页
配置完成之后,我直接试了一个很适合我的场景。
我让 WorkBuddy 调用 Dokobot,去看我的关注页里,今天有没有关于 AI 的有用信息。
注意,这个需求不是“帮我搜索 AI 新闻”,而是“帮我看我的关注页”。这两个差别很大。
前者像查资料,后者像帮我筛选每天本来就要刷的内容。
结果它真的帮我扫了一遍,然后整理成了一张表。里面有主题、作者、一句话价值。

七、我负责判断,它负责先看
最近Gpt5.6延期,Claude Fable归隐,Gemini3.5Pro无人在意,但是互联网对此的讨论声却小了许多,这反映了大家的关注点在默默转移:Agent 真正有价值的地方,不是它到底有多聪明,而是它能不能接入你的真实工作现场。
对我这种每天上班摸鱼看 AI 动态、下班还要写公众号的人来说,浏览器就是我的信息现场。
Dokobot 的思路不一样,它让 Agent 直接从你的浏览器里读。
这就意味着,你可以设计出很多很接地气的工作流:
以后我可能真的会让它每天先替我扫一轮:有价值的留下,没价值的跳过。我负责判断,它负责先看。这才有点 Agent 搭子的味道。
夜雨聆风