乐于分享
好东西不私藏

重磅GenericAgent浏览器插件被我提取出来了给Hermes用,AI浏览器控制神器TMWebDriver

重磅GenericAgent浏览器插件被我提取出来了给Hermes用,AI浏览器控制神器TMWebDriver

👆 「关注」加「星标」,每天收到技术干货


昨天在研究 AI Agent 和浏览器自动化的过程中,踩了不少坑,也发现了一些宝藏项目。今天把最有价值的3个发现分享给大家。


🔧 一个被低估的神器:TMWebDriver

问题从哪来的?

做 AI 自动化的同学肯定遇到过这个痛点:让 AI 操作浏览器,要么用 Playwright 开无头模式,要么用 Selenium 启动新实例。但无论哪种方式,你都得重新登录一遍所有账号。

更头疼的是,有些网站(比如 ChatGPT 的网页版)有严格的 CSP 策略,Playwright 的注入脚本经常被拦。

昨天我在研究 GenericAgent 这个开源 AI Agent 框架(GitHub: lsdefine/GenericAgent[1],6.9k ⭐)的时候,发现它的作者用了一种非常巧妙的方案来解决这个问题。

TMWebDriver 是什么?

TMWebDriver 是 GenericAgent 内置的浏览器控制模块,核心思路是:不启动新浏览器,直接控制你正在用的 Chrome。

架构只有三层:

① Chrome 扩展层(tmwd_cdp_bridge)

写了一个 Chrome MV3 扩展,注入到已打开的浏览器中。这里有个技术细节值得说——MV3 的 Service Worker 会在空闲 30 秒后自动休眠,这是个老大难问题。TMWebDriver 的解决方案是用 chrome.alarms API 注册一个 5 秒探针 + 24 秒心跳,持续保持 Service Worker 存活。简单粗暴但有效。

② Python 服务层

本地起一个 Python 服务器,依赖很轻量,只需要 simple-websocket-serverPyPI[2])和 bottlebottlepy.org[3])两个包。WebSocket 端口 18765,HTTP 端口 18766,本地通信零延迟。

③ JS 执行双通道

这是最精妙的设计。主通道用 chrome.scripting.executeScript 在 MAIN world 执行 JS,速度快、权限大。但遇到 CSP 严格的网站(比如 ChatGPT),这个通道会被拦。这时自动回退到备用通道:通过 chrome.debugger 协议 + CDP 的 Runtime.evaluate 来执行。相当于浏览器开发者工具的 Console 在远程执行代码,CSP 管不着。

和 Playwright 正面比一下

对比项 TMWebDriver Playwright
浏览器实例 复用你已打开的 Chrome 启动独立实例
登录状态 自动继承,无需重复登录 需要重新登录
CSP 绕过 双通道自动回退 有限支持
Token 消耗 低(约 1/4) 较高
安装成本 Chrome 扩展 + pip 两个包 npm install + 浏览器下载
最适合 日常自动化、Web 操作 自动化测试、爬虫

一句话总结:如果你需要 AI 帮你操作网页(填表单、发消息、下载数据),TMWebDriver 比 Playwright 省心得多。如果你是做测试或者批量爬取,Playwright 依然是首选。

安装只需要 3 步

# 1. 安装 Python 依赖pip3 install simple-websocket-server bottle# 2. Chrome 加载扩展# 打开 chrome://extensions/ → 开发者模式 → 加载已解压的扩展# 3. 启动服务python3 TMWebDriver.py

🤖 GenericAgent:3000 行代码实现自主进化 AI Agent

为什么值得关注?

GenericAgent(GitHub: lsdefine/GenericAgent[1])是我最近见到的最”克制”的 AI Agent 框架。整个核心代码只有约 3000 行 Python,但实现了一个完整的自主进化系统。

什么叫”自主进化”?就是 Agent 在执行任务的过程中,会自动把学到的东西存成”技能”,下次遇到类似任务直接复用,越用越强。

核心设计

9 个原子工具code_run(代码执行)、file_read/write/patch最硬核的一点

整个仓库从 git init 到所有 commit,全部是由 Agent 自己完成的。也就是说,这个 Agent 不仅在使用中自我进化,它自己本身就是”自举”的产物。

⚠️ 必须注意的坑

  • 数据安全:Issue #28 报告了一个严重问题——Agent 的删除操作穿透了 Windows 的 junction 链接,导致 D 盘 230+GB 数据被误删。务必在 Docker 或虚拟机中使用!
  • Python 版本:3.14 以上不兼容,必须用 3.13 或更低
  • TMWebDriver 有安全漏洞:未授权 API 访问问题,生产环境需要加鉴权

支持的 LLM 端点

端点 URL 说明
智谱 GLM(推荐) open.bigmodel.cn/api/anthropic 原生工具调用,稳定
DeepSeek V4 api.deepseek.com/anthropic 1M 上下文,384K 输出
OpenAI 兼容 任意 OpenAI 兼容端点 灵活但需注意协议匹配

论文:arXiv:2604.17091 协议:MIT


💰 新加坡 VPS 横评:3 美元就能用上好线路

背景

因为需要稳定访问 AI 服务(ChatGPT、Claude 等),需要一个靠谱的代理 VPS。香港节点虽然延迟低,但很多 AI 服务在香港不可用,所以目标锁定新加坡节点

花了一整天调研,对比了十几家供应商,以下是性价比最高的三家的实测数据:

横评结果

🥇 LightNode — $3.7/月

这是综合性价比最高的选择。1 核 1G 内存、25G SSD、1TB 流量,按小时计费(用多少付多少)。支持支付宝,对国内用户友好。线路质量稳定,新加坡节点延迟在 80-120ms 左右。

官网:lightnode.com[4]

🥈 ExtraVM — $3/月

价格最低的选择。配置和 LightNode 差不多,但带宽高达 750Mbps,流量 5TB,还自带 DDoS 防护。缺点是只支持 PayPal 付款,没有支付宝。

官网:extravm.com[5]

🥉 Vultr — $5/月

大厂出品,稳定性最好。1 核 1G、25G SSD、1TB 流量。按小时计费,随时销毁实例不扣钱。支持信用卡和 PayPal。如果预算不是特别紧,推荐选 Vultr,省心。

官网:vultr.com[6]

关于 VMISS

VMISS 是一个加拿大商家,CN2 GIA 线路质量确实不错(电信/联通/移动三网优化),9 折优惠码 10%off,支持支付宝。但它没有新加坡节点! 只有香港、日本(东京/大阪)、韩国、美国、英国。如果你不需要新加坡,VMISS 的香港 BGP 到山东延迟只有 30-50ms,也很香。

省钱小技巧

如果你现在已经有 VPS(不管多慢),可以先做两个免费优化:

  1. 换 Hysteria2 协议:基于 QUIC,弱网环境表现比传统协议好很多
  2. 开启 BBR 拥塞控制:Linux 内核自带,一行命令开启

这两个优化在现有 VPS 上就能做,不一定非得花钱换新的。


📦 今日工具箱

工具 用途 链接
GenericAgent 自主进化 AI Agent 框架 GitHub[1]
TMWebDriver 零侵入浏览器控制 包含在 GenericAgent 中
simple-websocket-server 轻量 WebSocket 库 PyPI[2]
bottle 轻量 Python Web 框架 bottlepy.org[3]
LightNode 新加坡 VPS lightnode.com[4]
Vultr 大厂 VPS vultr.com[6]
Hysteria2 高性能代理协议 GitHub[7]

💡 每日技术干货,开源分享

我们的知识库已开源到 GitHub,欢迎 Star ⭐

👇 获取开源知识库 👇

关注公众号「AI智管局」

回复关键词 仓库

即可获取 GitHub 开源知识库地址


END

AI智管局 · 每日技术知识分享

References

  1. GitHub: lsdefine/GenericAgent: https://github.com/lsdefine/GenericAgent
  2. PyPI: https://pypi.org/project/simple-websocket-server/
  3. bottlepy.org: https://bottlepy.org/
  4. lightnode.com: https://www.lightnode.com
  5. extravm.com: https://extravm.com
  6. vultr.com: https://www.vultr.com
  7. GitHub: https://github.com/apernet/hysteria