乐于分享
好东西不私藏

让AI帮你上网冲浪?这个工具火爆GitHub

让AI帮你上网冲浪?这个工具火爆GitHub

你有没有想过,如果AI能帮你自动填表单、自动下单、自动搜索信息,该有多爽?

说实话,我第一次看到 Browser-Use 这个项目的时候,心里是有点不信的。毕竟市面上那些”自动化工具”,要么配置复杂得要命,要么就是只能做些简单重复的事儿。但这玩意儿不一样——它让AI直接控制浏览器,你只需要用自然语言告诉它”帮我填这个求职申请表”,它就真的能做到。

这到底是个啥?

Browser-Use 是一个开源的 Python 库,简单来说就是让大语言模型(LLM)能够像人一样操作浏览器

它的核心思路很直接:

  • 你用自然语言描述任务(比如”帮我在亚马逊上找最便宜的机械键盘”)
  • AI 理解你的意图,然后自动打开浏览器、搜索、点击、填表、截图
  • 整个过程你只需要等结果

听起来是不是有点像科幻片里的场景?但它确实已经实现了,而且代码量少得惊人。

为什么它这么火?

截至 2026 年 4 月,Browser-Use 在 GitHub 上已经拿到了 89,227 颗星,这个增长速度在开源项目里算是相当夸张的。

它火的原因很简单:

  1. 真的好用 – 不需要写复杂的选择器、不需要处理各种异常,AI 自己会判断
  2. 上手简单 – 几行代码就能跑起来,新手友好
  3. 实用场景多 – 从自动填表到网购助手,从数据抓取到测试自动化,能干的事儿太多了

而且它支持主流的 AI 模型:Claude、GPT、Gemini 都能用,甚至还有自己的云服务版本。

快速上手:5分钟跑起来

好了,废话不多说,咱们直接动手。

第一步:安装环境

Browser-Use 需要 Python 3.11 或更高版本。如果你还没装 Python,建议直接用 uv[1] 这个工具,它比传统的 pip 快很多。

# 安装 uv(如果还没装的话)
curl -LsSf https://astral.sh/uv/install.sh | sh

# 创建项目并安装 Browser-Use
uv init my-browser-agent
cd my-browser-agent
uv add browser-use
uv sync

如果你的电脑上没有 Chromium 浏览器,还需要运行:

uvx browser-use install

第二步:获取 API Key(可选)

Browser-Use 支持多种 AI 模型,你可以选择:

  • Browser Use Cloud(推荐新手):去 cloud.browser-use.com[2] 注册,免费额度够你玩一阵子
  • Google Gemini:去 ai.google.dev[3] 申请,有免费额度
  • Anthropic Claude:去 console.anthropic.com[4] 申请
  • OpenAI GPT:去 platform.openai.com[5] 申请

拿到 Key 之后,创建一个 .env 文件:

BROWSER_USE_API_KEY=your-key-here
# 或者用其他模型
# GOOGLE_API_KEY=your-key
# ANTHROPIC_API_KEY=your-key

第三步:写第一个自动化脚本

创建一个 agent.py 文件,复制下面的代码:

from browser_use import Agent, Browser, ChatBrowserUse
import asyncio

async def main():
    # 初始化浏览器
    browser = Browser()
    
    # 创建 AI 代理
    agent = Agent(
        task="帮我查一下 browser-use 这个 GitHub 项目有多少星星",
        llm=ChatBrowserUse(),
        browser=browser,
    )
    
    # 运行任务
    await agent.run()

if __name__ == "__main__":
    asyncio.run(main())

然后运行:

uv run agent.py

你会看到浏览器自动打开,AI 开始搜索、点击、读取信息,最后告诉你结果。整个过程就像有个看不见的助手在帮你操作电脑。

进阶玩法:让它帮你干活

场景1:自动填写求职申请

假设你要投简历,但每个网站的表单都不一样,手动填写太烦了。试试这个:

agent = Agent(
    task="用我的简历信息填写这个求职申请表:https://example.com/apply",
    llm=ChatBrowserUse(),
    browser=browser,
)

AI 会自动识别表单字段,从你的简历里提取信息,然后填写。你只需要最后检查一遍,点击提交。

场景2:网购助手

想买东西但懒得比价?让 AI 帮你:

agent = Agent(
    task="在京东和淘宝上搜索'机械键盘',找出价格最低的前三款,并截图对比",
    llm=ChatBrowserUse(),
    browser=browser,
)

它会自动打开多个网站、搜索、筛选、截图,最后给你一个清晰的对比结果。

场景3:数据收集

需要从多个网站收集信息?比如竞品分析、市场调研:

agent = Agent(
    task="访问这5个网站,收集他们的产品价格和用户评分,整理成表格",
    llm=ChatBrowserUse(),
    browser=browser,
)

以前可能需要写几百行爬虫代码,现在一句话搞定。

开源 vs 云服务:该选哪个?

Browser-Use 提供两种使用方式:

开源版本(免费)

  • 完全本地运行,数据不出你的电脑
  • 可以自定义工具和集成
  • 适合开发者和有隐私需求的场景

云服务版本(付费,但有免费额度)

  • 更强大的 AI 能力,复杂任务成功率更高
  • 自带代理和反爬虫绕过功能
  • 支持 1000+ 集成(Gmail、Slack、Notion 等)
  • 适合商业场景和追求稳定性的用户

我的建议是:先用开源版本玩玩,如果觉得好用再考虑云服务。毕竟开源版本已经足够强大了,大部分场景都能搞定。

一些坑和注意事项

用了一段时间后,我发现几个需要注意的地方:

  1. API 费用:虽然工具本身免费,但调用 AI 模型是要花钱的。建议先用免费额度测试,熟悉之后再大规模使用。

  2. 网站反爬虫:有些网站会检测自动化行为。云服务版本自带反检测功能,开源版本可能需要你自己配置代理。

  3. 任务描述要清晰:AI 虽然聪明,但你的指令越具体,它的表现越好。比如”帮我买东西”不如”在淘宝上搜索’无线鼠标’,筛选价格50-100元的,按销量排序”。

  4. 隐私问题:如果你要处理敏感信息(比如登录账号、支付信息),建议用开源版本本地运行,不要用云服务。

它会取代程序员吗?

每次有这种工具出来,总有人问这个问题。

我的答案是:不会,但会改变工作方式

Browser-Use 确实能自动化很多重复性工作,但它不是万能的。复杂的业务逻辑、需要深度定制的场景,还是需要程序员来写代码。但对于那些”能用自然语言描述清楚”的任务,它确实能节省大量时间。

就像当年 Excel 出现的时候,会计并没有失业,而是把时间从手工计算转移到了更有价值的分析工作上。AI 工具也是一样,它是来帮你的,不是来抢饭碗的。

下载和资源

  • GitHub 仓库:https://github.com/browser-use/browser-use[6]
  • 官方文档:https://docs.browser-use.com[7]
  • 云服务:https://cloud.browser-use.com[8]
  • Discord 社区:https://link.browser-use.com/discord[9]

如果你想深入学习,建议先看官方文档的 Examples 部分,里面有很多实用案例。社区也很活跃,遇到问题可以去 Discord 提问。

我的看法

说实话,Browser-Use 让我看到了 AI 工具的另一种可能性。

以前我们总觉得 AI 只能聊天、写文章、生成图片,但 Browser-Use 证明了 AI 可以直接和现实世界的应用交互。这意味着什么?意味着未来你可能不需要为每个网站学习不同的操作流程,只需要告诉 AI”我要干什么”,它就能帮你搞定。

这不是科幻,这是正在发生的现实。

而且它是开源的,这意味着任何人都可以基于它做二次开发。我已经看到有人用它做自动化测试、有人做数据分析、有人做电商运营工具。可能性是无限的。

当然,它也不是完美的。AI 有时候会犯傻,任务描述不清楚的时候会跑偏,遇到复杂页面可能会卡住。但这些问题都在快速改进,而且社区的反馈速度很快。

最后一句话:如果你经常需要在浏览器上做重复性工作,或者对 AI 自动化感兴趣,强烈建议你花半小时试试 Browser-Use。它可能会改变你对”自动化”的认知。


本文所有信息基于 2026 年 4 月的数据,工具和 API 可能会有更新,请以官方文档为准。

引用链接

[1]uv: https://docs.astral.sh/uv/

[2]cloud.browser-use.com: https://cloud.browser-use.com

[3]ai.google.dev: https://ai.google.dev

[4]console.anthropic.com: https://console.anthropic.com

[5]platform.openai.com: https://platform.openai.com

[6]https://github.com/browser-use/browser-use

[7]https://docs.browser-use.com

[8]https://cloud.browser-use.com

[9]https://link.browser-use.com/discord