让AI帮你上网冲浪?这个工具火爆GitHub
你有没有想过,如果AI能帮你自动填表单、自动下单、自动搜索信息,该有多爽?
说实话,我第一次看到 Browser-Use 这个项目的时候,心里是有点不信的。毕竟市面上那些”自动化工具”,要么配置复杂得要命,要么就是只能做些简单重复的事儿。但这玩意儿不一样——它让AI直接控制浏览器,你只需要用自然语言告诉它”帮我填这个求职申请表”,它就真的能做到。
这到底是个啥?
Browser-Use 是一个开源的 Python 库,简单来说就是让大语言模型(LLM)能够像人一样操作浏览器。
它的核心思路很直接:
-
你用自然语言描述任务(比如”帮我在亚马逊上找最便宜的机械键盘”) -
AI 理解你的意图,然后自动打开浏览器、搜索、点击、填表、截图 -
整个过程你只需要等结果
听起来是不是有点像科幻片里的场景?但它确实已经实现了,而且代码量少得惊人。
为什么它这么火?
截至 2026 年 4 月,Browser-Use 在 GitHub 上已经拿到了 89,227 颗星,这个增长速度在开源项目里算是相当夸张的。
它火的原因很简单:
-
真的好用 – 不需要写复杂的选择器、不需要处理各种异常,AI 自己会判断 -
上手简单 – 几行代码就能跑起来,新手友好 -
实用场景多 – 从自动填表到网购助手,从数据抓取到测试自动化,能干的事儿太多了
而且它支持主流的 AI 模型:Claude、GPT、Gemini 都能用,甚至还有自己的云服务版本。
快速上手:5分钟跑起来
好了,废话不多说,咱们直接动手。
第一步:安装环境
Browser-Use 需要 Python 3.11 或更高版本。如果你还没装 Python,建议直接用 uv[1] 这个工具,它比传统的 pip 快很多。
# 安装 uv(如果还没装的话)
curl -LsSf https://astral.sh/uv/install.sh | sh
# 创建项目并安装 Browser-Use
uv init my-browser-agent
cd my-browser-agent
uv add browser-use
uv sync
如果你的电脑上没有 Chromium 浏览器,还需要运行:
uvx browser-use install
第二步:获取 API Key(可选)
Browser-Use 支持多种 AI 模型,你可以选择:
-
Browser Use Cloud(推荐新手):去 cloud.browser-use.com[2] 注册,免费额度够你玩一阵子 -
Google Gemini:去 ai.google.dev[3] 申请,有免费额度 -
Anthropic Claude:去 console.anthropic.com[4] 申请 -
OpenAI GPT:去 platform.openai.com[5] 申请
拿到 Key 之后,创建一个 .env 文件:
BROWSER_USE_API_KEY=your-key-here
# 或者用其他模型
# GOOGLE_API_KEY=your-key
# ANTHROPIC_API_KEY=your-key
第三步:写第一个自动化脚本
创建一个 agent.py 文件,复制下面的代码:
from browser_use import Agent, Browser, ChatBrowserUse
import asyncio
async def main():
# 初始化浏览器
browser = Browser()
# 创建 AI 代理
agent = Agent(
task="帮我查一下 browser-use 这个 GitHub 项目有多少星星",
llm=ChatBrowserUse(),
browser=browser,
)
# 运行任务
await agent.run()
if __name__ == "__main__":
asyncio.run(main())
然后运行:
uv run agent.py
你会看到浏览器自动打开,AI 开始搜索、点击、读取信息,最后告诉你结果。整个过程就像有个看不见的助手在帮你操作电脑。
进阶玩法:让它帮你干活
场景1:自动填写求职申请
假设你要投简历,但每个网站的表单都不一样,手动填写太烦了。试试这个:
agent = Agent(
task="用我的简历信息填写这个求职申请表:https://example.com/apply",
llm=ChatBrowserUse(),
browser=browser,
)
AI 会自动识别表单字段,从你的简历里提取信息,然后填写。你只需要最后检查一遍,点击提交。
场景2:网购助手
想买东西但懒得比价?让 AI 帮你:
agent = Agent(
task="在京东和淘宝上搜索'机械键盘',找出价格最低的前三款,并截图对比",
llm=ChatBrowserUse(),
browser=browser,
)
它会自动打开多个网站、搜索、筛选、截图,最后给你一个清晰的对比结果。
场景3:数据收集
需要从多个网站收集信息?比如竞品分析、市场调研:
agent = Agent(
task="访问这5个网站,收集他们的产品价格和用户评分,整理成表格",
llm=ChatBrowserUse(),
browser=browser,
)
以前可能需要写几百行爬虫代码,现在一句话搞定。
开源 vs 云服务:该选哪个?
Browser-Use 提供两种使用方式:
开源版本(免费)
-
完全本地运行,数据不出你的电脑 -
可以自定义工具和集成 -
适合开发者和有隐私需求的场景
云服务版本(付费,但有免费额度)
-
更强大的 AI 能力,复杂任务成功率更高 -
自带代理和反爬虫绕过功能 -
支持 1000+ 集成(Gmail、Slack、Notion 等) -
适合商业场景和追求稳定性的用户
我的建议是:先用开源版本玩玩,如果觉得好用再考虑云服务。毕竟开源版本已经足够强大了,大部分场景都能搞定。
一些坑和注意事项
用了一段时间后,我发现几个需要注意的地方:
-
API 费用:虽然工具本身免费,但调用 AI 模型是要花钱的。建议先用免费额度测试,熟悉之后再大规模使用。
-
网站反爬虫:有些网站会检测自动化行为。云服务版本自带反检测功能,开源版本可能需要你自己配置代理。
-
任务描述要清晰:AI 虽然聪明,但你的指令越具体,它的表现越好。比如”帮我买东西”不如”在淘宝上搜索’无线鼠标’,筛选价格50-100元的,按销量排序”。
-
隐私问题:如果你要处理敏感信息(比如登录账号、支付信息),建议用开源版本本地运行,不要用云服务。
它会取代程序员吗?
每次有这种工具出来,总有人问这个问题。
我的答案是:不会,但会改变工作方式。
Browser-Use 确实能自动化很多重复性工作,但它不是万能的。复杂的业务逻辑、需要深度定制的场景,还是需要程序员来写代码。但对于那些”能用自然语言描述清楚”的任务,它确实能节省大量时间。
就像当年 Excel 出现的时候,会计并没有失业,而是把时间从手工计算转移到了更有价值的分析工作上。AI 工具也是一样,它是来帮你的,不是来抢饭碗的。
下载和资源
-
GitHub 仓库:https://github.com/browser-use/browser-use[6] -
官方文档:https://docs.browser-use.com[7] -
云服务:https://cloud.browser-use.com[8] -
Discord 社区:https://link.browser-use.com/discord[9]
如果你想深入学习,建议先看官方文档的 Examples 部分,里面有很多实用案例。社区也很活跃,遇到问题可以去 Discord 提问。
我的看法
说实话,Browser-Use 让我看到了 AI 工具的另一种可能性。
以前我们总觉得 AI 只能聊天、写文章、生成图片,但 Browser-Use 证明了 AI 可以直接和现实世界的应用交互。这意味着什么?意味着未来你可能不需要为每个网站学习不同的操作流程,只需要告诉 AI”我要干什么”,它就能帮你搞定。
这不是科幻,这是正在发生的现实。
而且它是开源的,这意味着任何人都可以基于它做二次开发。我已经看到有人用它做自动化测试、有人做数据分析、有人做电商运营工具。可能性是无限的。
当然,它也不是完美的。AI 有时候会犯傻,任务描述不清楚的时候会跑偏,遇到复杂页面可能会卡住。但这些问题都在快速改进,而且社区的反馈速度很快。
最后一句话:如果你经常需要在浏览器上做重复性工作,或者对 AI 自动化感兴趣,强烈建议你花半小时试试 Browser-Use。它可能会改变你对”自动化”的认知。
本文所有信息基于 2026 年 4 月的数据,工具和 API 可能会有更新,请以官方文档为准。
引用链接
[1]uv: https://docs.astral.sh/uv/
[2]cloud.browser-use.com: https://cloud.browser-use.com
[3]ai.google.dev: https://ai.google.dev
[4]console.anthropic.com: https://console.anthropic.com
[5]platform.openai.com: https://platform.openai.com
[6]https://github.com/browser-use/browser-use
[7]https://docs.browser-use.com
[8]https://cloud.browser-use.com
[9]https://link.browser-use.com/discord
夜雨聆风