网页自动操作 + 离线大模型,这个开源插件杀疯了
浏览器里藏了个 Gemma 4!本地跑 Agent,不连云端、不留痕迹,老程序员狂喜。
别再给 API 交月租了。现在有个 Chrome 插件,直接把 Gemma 4 塞进浏览器,全程 WebGPU 本地跑,数据不离开你的电脑,不用密钥,不用上传,不用等云端响应。我翻完源码,这才是真正属于开发者的隐私 AI 助手。

一、核心狠活:本地跑大模型,还能当 Agent 用
这个项目叫「Gemma Gem」,本质是浏览器扩展。它把 Google 最新的 Gemma 4 E2B/E4B,通过 WebGPU 在浏览器里跑起来,完全离线。
-
E2B 版本占约 500MB 空间 -
E4B 版本占约 1.5GB 空间 -
首次加载缓存,后续秒开
最狠的不是聊天。是它能直接操作你的网页。读页面、点按钮、填表单、执行 JS、截图,一套流程自己走完。你只需要说一句话,它帮你把页面里的事全干了。
二、架构拆解:3 层设计,干净到离谱
我扒了目录结构,代码组织非常清爽,没有历史沉积,没有上帝组件。
-
Offscreen Document 跑模型本体,用 @huggingface/transformers+WebGPU 做推理,负责 Agent 循环。 -
Service Worker 做消息路由,处理截图、JS 执行,隔离权限,不污染页面。 -
Content Script 插图标、渲染 UI,操作 DOM,读内容、点击、输入、滚动。
三层完全解耦,通信靠消息 passing。没有黑盒,没有后门,所有逻辑可追溯。对注重隐私的人来说,这比任何云端 AI 都安心。

三、6 个实用工具,直接解放双手
它不是玩具,是真能干活的工具集。
-
read_page_content:读全文或按 CSS 选择器提取 -
take_screenshot:截当前可视区 -
click_element:按选择器点按钮 -
type_text:自动填输入框 -
scroll_page:自动滚动 -
run_javascript:在页面上下文跑 JS
等于你多了一个全自动网页操作手。查资料、填表、刷页面、批量操作,全都能交给它。
四、为什么这东西能戳中老程序员?
-
隐私拉满所有推理在本地,没有日志,没有上报,没有第三方。敏感页面、内网系统、保密文档,随便用。
-
速度极快不用跨网请求,模型加载完,响应几乎是瞬时的。写代码、查文档、读页面,丝滑不卡顿。
-
无成本不用 API 密钥,不用订阅,不用充值,一次安装永久用。对个人开发者、小团队极度友好。
-
干净可控源码全开放,依赖清晰,构建简单。你知道它在干什么,没有暗箱操作。
坦白说,现在大部分 AI 插件都是云端傀儡。你的每一句话都要经过别人服务器。这个不一样,它把模型权交回给你。
五、小缺点,我也直说
-
必须 Chrome,且要支持 WebGPU -
首次加载模型要等一会儿 -
复杂多步 Agent 偶尔会卡住
但这些都不是硬伤。团队一直在修停止生成、修复按键泄漏、优化 UI,更新很勤快。
六、写给真正懂行的人
业务狂奔时,架构总要妥协。但这个项目,在隐私、性能、工程干净之间,做了一次很漂亮的权衡。它不搞花里胡哨的宣传,只做一件事。把顶级开源大模型,以最干净的方式,塞进你每天用的浏览器。
对老程序员来说,这才是 AI 该有的样子。本地、可控、开源、无依赖、不留痕。
你平时最烦 AI 插件哪一点?是 API 要钱,还是隐私不安,还是响应太慢?留言告诉我,我下期继续拆这类硬核开源项目。
喜欢可以跑跑:https://github.com/kessler/gemma-gem
夜雨聆风