乐于分享
好东西不私藏

网页自动操作 + 离线大模型,这个开源插件杀疯了

网页自动操作 + 离线大模型,这个开源插件杀疯了

浏览器里藏了个 Gemma 4!本地跑 Agent,不连云端、不留痕迹,老程序员狂喜。

别再给 API 交月租了。现在有个 Chrome 插件,直接把 Gemma 4 塞进浏览器,全程 WebGPU 本地跑,数据不离开你的电脑,不用密钥,不用上传,不用等云端响应。我翻完源码,这才是真正属于开发者的隐私 AI 助手。

一、核心狠活:本地跑大模型,还能当 Agent 用

这个项目叫「Gemma Gem」,本质是浏览器扩展。它把 Google 最新的 Gemma 4 E2B/E4B,通过 WebGPU 在浏览器里跑起来,完全离线

  • E2B 版本占约 500MB 空间
  • E4B 版本占约 1.5GB 空间
  • 首次加载缓存,后续秒开

最狠的不是聊天。是它能直接操作你的网页。读页面、点按钮、填表单、执行 JS、截图,一套流程自己走完。你只需要说一句话,它帮你把页面里的事全干了。

二、架构拆解:3 层设计,干净到离谱

我扒了目录结构,代码组织非常清爽,没有历史沉积,没有上帝组件。

  1. Offscreen Document
    跑模型本体,用 @huggingface/transformers+WebGPU 做推理,负责 Agent 循环。
  2. Service Worker
    做消息路由,处理截图、JS 执行,隔离权限,不污染页面。
  3. Content Script
    插图标、渲染 UI,操作 DOM,读内容、点击、输入、滚动。

三层完全解耦,通信靠消息 passing。没有黑盒,没有后门,所有逻辑可追溯。对注重隐私的人来说,这比任何云端 AI 都安心。

三、6 个实用工具,直接解放双手

它不是玩具,是真能干活的工具集。

  • read_page_content:读全文或按 CSS 选择器提取
  • take_screenshot:截当前可视区
  • click_element:按选择器点按钮
  • type_text:自动填输入框
  • scroll_page:自动滚动
  • run_javascript:在页面上下文跑 JS

等于你多了一个全自动网页操作手。查资料、填表、刷页面、批量操作,全都能交给它。

四、为什么这东西能戳中老程序员?

  • 隐私拉满所有推理在本地,没有日志,没有上报,没有第三方。敏感页面、内网系统、保密文档,随便用。

  • 速度极快不用跨网请求,模型加载完,响应几乎是瞬时的。写代码、查文档、读页面,丝滑不卡顿。

  • 无成本不用 API 密钥,不用订阅,不用充值,一次安装永久用。对个人开发者、小团队极度友好。

  • 干净可控源码全开放,依赖清晰,构建简单。你知道它在干什么,没有暗箱操作

坦白说,现在大部分 AI 插件都是云端傀儡。你的每一句话都要经过别人服务器。这个不一样,它把模型权交回给你。

五、小缺点,我也直说

  • 必须 Chrome,且要支持 WebGPU
  • 首次加载模型要等一会儿
  • 复杂多步 Agent 偶尔会卡住

但这些都不是硬伤。团队一直在修停止生成、修复按键泄漏、优化 UI,更新很勤快。

六、写给真正懂行的人

业务狂奔时,架构总要妥协。但这个项目,在隐私、性能、工程干净之间,做了一次很漂亮的权衡。它不搞花里胡哨的宣传,只做一件事。把顶级开源大模型,以最干净的方式,塞进你每天用的浏览器。

对老程序员来说,这才是 AI 该有的样子。本地、可控、开源、无依赖、不留痕。

你平时最烦 AI 插件哪一点?是 API 要钱,还是隐私不安,还是响应太慢?留言告诉我,我下期继续拆这类硬核开源项目。

喜欢可以跑跑:https://github.com/kessler/gemma-gem