如果我告诉你,你的电脑就能跑一个免费的 AI 助手,不花一分钱、不限 Token、数据不出门,还能对接微信随时聊——你会不会想试试?
说几个扎心的数字:
• ChatGPT Plus 每月 $20(约 ¥145) • Claude Pro 每月 $20 • 加上 API 调用费、企业版订阅,一年下来 几千块 不止
更要命的是隐私问题。用 ChatGPT 写公司内部报告、分析客户数据、处理合同文件——每一次对话都在上传到云端。对律师、医生、金融从业者来说,这不是"介不介意",是合规红线。
2025 年底以来,"本地部署 AI"的搜索量暴涨了 300%。
今天这篇文章,教你用开源工具在本地搭一个完整的 AI Agent——不只是聊天,它能写代码、分析文档、执行自动化任务,还能对接微信、飞书等平台,24 小时待命,完全免费。
二、Agent ≠ 聊天机器人,区别大了
很多人混淆了两个概念:聊天机器人和 Agent。
聊天机器人只能一问一答,像查字典。
Agent 可以:
• 自主拆解复杂任务,规划执行步骤 • 调用工具——搜索、写代码、操作文件 • 拥有持久记忆,越用越懂你 • 对接聊天平台,微信、Telegram、飞书随时响应
跑 Agent 需要两样东西:Agent 框架 + 大语言模型。
今天推荐的组合是:
| Hermes Agent | ||
| Qwen3.6 | ||
| llama.cpp |
Hermes Agent——2026 年 GitHub 增速最快的开源 Agent 框架,74K+ Stars,最新版 v0.8.0,MIT 协议完全免费。核心亮点是自进化能力:使用过程中自动积累技能库,越来越聪明。
Qwen3.6——阿里通义千问最新开源模型,27B 参数版本多项基准测试接近 GPT-4o 水平,中文能力尤为突出。
一句话总结:免费、无限 Token、数据完全自己掌控。
三、你的电脑能跑吗?先看这张表
门槛没你想的那么高:
| 8GB | |||
| 12GB | |||
| 16GB | |||
| 24GB |
Mac 用户(M1/M2/M3/M4 芯片,统一内存 16GB+)也能跑,llama.cpp 原生支持 Apple Silicon Metal 加速。
其他硬件要求:内存 16GB+,硬盘留 20-50GB,系统 Windows 10/11 或 macOS 或 Linux。
四、9 步部署,手把手教你搞定
第 1 步:安装 WSL2(Windows 用户必做)
Windows 需要先装 WSL2,这是微软官方的 Linux 环境。
管理员身份打开 PowerShell:
wsl --install -d Ubuntu-24.04装完自动重启,重启后设置 Ubuntu 用户名密码。
避坑提醒:安装时会弹出 WSL 设置窗口,千万别选 NAT 模式,选 Mirrored 模式,这样 WSL2 才能用你 Windows 的网络。改完重启。
进入 Ubuntu 后验证 GPU:
nvidia-smi看到显卡信息就说明 GPU 直通正常。报错就去 Windows 端升级 NVIDIA 驱动。
第 2 步:安装基础工具
sudo apt update && sudo apt install -y python3-pip python3-venv cmake build-essential git第 3 步:装 CUDA Toolkit
WSL2 里需要单独装 CUDA(约 2GB):
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.debsudo dpkg -i cuda-keyring_1.1-1_all.debsudo apt update && sudo apt install -y cuda-toolkit-12-8设置环境变量并永久生效:
export PATH=/usr/local/cuda-12.8/bin:$PATHexport LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATHecho 'export PATH=/usr/local/cuda-12.8/bin:$PATH' >> ~/.bashrcecho 'export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc第 4 步:编译 llama.cpp
cd ~ && git clone https://github.com/ggerganov/llama.cppcd llama.cppcmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=89cmake --build build -j$(nproc)编译约 5-10 分钟。CUDA_ARCHITECTURES=89 适用于 RTX 40 系列,RTX 30 系列改为 86。
第 5 步:下载模型
pip install huggingface-hub# 24GB 显存选这个(约17GB)hf download unsloth/Qwen3.6-27B-GGUF \ Qwen3.6-27B-UD-Q4_K_XL.gguf \ --local-dir ~/models/下载慢可切换 ModelScope 国内镜像。
第 6 步:启动模型服务
~/llama.cpp/build/bin/llama-server \ --model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \ --n-gpu-layers 99 \ --ctx-size 65536 \ --flash-attn on \ --port 8080 \ --host 0.0.0.0浏览器打开 http://localhost:8080 就能聊天了。但我们要接入 Agent,继续往下。
第 7 步:安装 Hermes Agent
新开一个终端(保持 llama-server 运行):
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bashsource ~/.bashrchermes --version运行设置向导,选择 Custom endpoint,填入:
• URL: http://localhost:8080/v1• API Key:随便填(本地模型不需要) • Model:自动识别
第 8 步:对接聊天平台
Hermes 支持多平台对接:
| 微信 | |
| Telegram | |
| 飞书 | |
| Discord |
以微信为例,setup 过程中选 wx,扫码即可。完成后你就能通过微信随时调用本地 AI Agent。
第 9 步:设置开机自启(可选)
cat > ~/start-llm.sh << 'EOF'#!/bin/bash~/llama.cpp/build/bin/llama-server \ --model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \ --n-gpu-layers 99 --ctx-size 65536 \ --flash-attn on --port 8080 \ --host 0.0.0.0 &EOFchmod +x ~/start-llm.shecho 'if ! pgrep -f "llama-server" > /dev/null 2>&1; then ~/start-llm.sh; fi' >> ~/.bashrc五、和付费方案比,到底差多少?
| Hermes + Qwen3.6 | 免费 | 无限 | 本地 | 是 |
有人会问:Ollama 也是免费的,为什么要多装一个 Hermes?
因为 Ollama 是模型运行器,只能聊天。Hermes 是 Agent 框架,有任务编排、工具调用、持久记忆、自进化技能库——完全不是一个层次的能力。
六、常见问题
Q:没有 NVIDIA 显卡能跑吗?llama.cpp 支持 CPU 推理,但速度慢。推荐至少有 GTX 1060 6GB。Mac M 芯片原生支持 Metal 加速。
Q:不想折腾,有更简单的方式吗?Hermes 也支持接入云端 API(OpenRouter、阿里百炼),可以先用免费额度体验,再切本地模型。
Q:和 OpenClaw 有什么区别?OpenClaw 专注 IDE 编程场景(类似 Cursor),Hermes 主打全场景智能助手 + 自进化记忆。定位不同,可以并存。
Q:效果和 GPT-4o 差多少?Qwen3.6-27B 日常任务接近 GPT-4o,中文能力尤其出色。超复杂推理 GPT-4o 仍有优势,但对大多数人来说差距不大。
七、写在最后
2026 年,AI 不再只是大公司的专属能力。
一台有显卡的电脑,加上开源社区的共同努力,每个人都能拥有自己的 AI 助手——不花钱、不限量、数据不出门。
它不需要联网,不会泄露你的数据,不会因为服务暂停而不可用。它就在你的电脑上,24 小时待命。
试试看吧。
相关链接:
• Hermes Agent GitHub • Qwen3.6 模型下载 • llama.cpp 推理引擎 • CUDA Toolkit 下载
如果觉得有用,欢迎点赞、在看、转发三连。
夜雨聆风