告别无脑点鼠标!阿里开源隐形AI助手,直接住进浏览器网页里不知道你有没有这种时刻:对着后台页面,机械重复一模一样的点击。填报销表单、勾选订单标签、挨个关闭弹窗、导出周报数据……明明是毫无技术含量的动作,每天要耗掉半小时,纯纯消耗心力。想偷懒用自动化工具,门槛又高到劝退:要装Python、要搭浏览器环境、要写几十行代码,好不容易弄好,网站改个按钮位置直接报废。直到挖到阿里这款低调开源神器 page-agent.js。看完直接颠覆认知:原来操控网页,根本不需要外部工具。它不是插件、不是独立软件、不用翻墙、不用复杂配置。只是一段轻量JS代码,注入网页后,AI直接和网页融为一体。你打字下达指令,网页自己就会动。市面上所有网页AI,都走了弯路目前主流的网页自动化AI,分两类,全是硬伤:第一种:外挂式自动化(Playwright/各类浏览器插件)相当于你站在车窗外面,伸手掰方向盘开车。需要额外调用浏览器内核,占用大量内存,页面稍微卡顿就操作失败,普通人完全不会部署,只适合专业程序员。第二种:识图AI Agent(现在很火的网页智能体)相当于对着车窗拍照,看着照片指挥开车。全靠截图、OCR识别按钮,深色模式、透明图标、按钮挪动几像素,立马识别错误。而且频繁截图极其耗流量、耗大模型token,长期用成本很高。而 Page Agent 是第三种思路:坐在车里面开车它读取网页原生底层DOM结构,不看图片、不拍截图,直接读懂网页每一个输入框、按钮、下拉菜单。网页样式改了、颜色换了、位置微调,它完全不受影响,准确率吊打识图类工具。通俗总结:别的AI是隔着玻璃指挥网页,它直接住进网页内部。真正让人上瘾的,是它极致的低门槛我接触过无数前端自动化工具,Page Agent是唯一做到「全员可用」的。不懂代码的打工人:书签一键即用不需要写一行代码。进入官方页面,拖拽一个书签到浏览器收藏栏。后续打开任意内网OA、商家后台、业务系统,点一下书签,页面右下角弹出对话窗口。直接大白话下达指令就行:把本月所有退款订单筛选出来,导出表格填写差旅费报销单,补齐所有必填项清除页面所有红点通知,已读全部消息全程零学习成本,五分钟上手。前端/B端开发者:一行代码接入业务很多企业后台、SaaS系统都缺智能引导能力。以往自研网页AI助手,要投入几周开发。现在引入一行CDN链接,一分钟完成接入。不用改动原有业务逻辑、不用重构代码、不用搭建后端服务。落地场景非常实用:新人入职不用看万字操作手册,AI直接演示操作步骤给用户提供自助答疑,一问就自动演示退款、改地址流程满足无障碍合规,帮助视障用户语音操控网页大家最关心:安全、合规、隐私问题开源工具最怕踩坑泄密,结合官方说明+实测,把普通人能看懂的红线全部说清楚,通俗易懂不绕弯:1、数据会不会泄露?分两种用法:连接公网大模型(GPT、通义千问),网页文字、表单数据会上传模型接口;处理薪资、身份证、合同等敏感数据,直接搭配本地Ollama模型,数据全程不出内网,零外泄风险。2、会不会误删数据、乱操作?原生自带安全锁:删除、提交、支付类高危动作,必须人工点击确认才能执行,不会全自动乱操作。还能划定操作范围,禁止AI改动页面核心数据。3、能不能商用?有没有版权风险?标准MIT开源协议,免费商用、允许二次修改、无需署名、无后续收费,阿里官方长期维护,star已经1.8w+,社区稳定。4、绝对不能碰的红线禁止用来违规爬取网站隐私数据、绕过登录风控、批量薅平台资源。仅限个人办公、企业内部自用自动化,合规使用无任何法律问题。写在最后这两年AI工具百花齐放,但绝大多数都是伪需求。要么过度复杂,普通人用不起;要么体验拉胯,识别频频出错。Page Agent最打动人的,是回归本质:用最简单的技术,解决最琐碎的人力内耗。不用折腾环境、不用学习代码、不用忍受识图bug。让网页听懂人话,自动做完重复琐事,把时间留给真正有价值的事。❤️ 欢迎点赞、在看,分享给天天重复点鼠标的同事好文推荐Windows 用户必装神器!一键拥有 Mac 同款空格预览,效率直接翻倍Windows 关机还要点来点去?教你 2 个 1 秒关机技巧,朋友看了都要学!90% 的人都搞错了!固态硬盘千万别开这个设置,否则越用越卡还减寿命