不花一分钱,在电脑上跑一个24小时待命的AI助手

如果我告诉你，你的电脑就能跑一个免费的 AI 助手，不花一分钱、不限 Token、数据不出门，还能对接微信随时聊——你会不会想试试？

说几个扎心的数字：

• ChatGPT Plus 每月 $20（约 ¥145）
• Claude Pro 每月 $20
• 加上 API 调用费、企业版订阅，一年下来 几千块 不止

更要命的是隐私问题。用 ChatGPT 写公司内部报告、分析客户数据、处理合同文件——每一次对话都在上传到云端。对律师、医生、金融从业者来说，这不是"介不介意"，是合规红线。

2025 年底以来，"本地部署 AI"的搜索量暴涨了 300%。

今天这篇文章，教你用开源工具在本地搭一个完整的 AI Agent——不只是聊天，它能写代码、分析文档、执行自动化任务，还能对接微信、飞书等平台，24 小时待命，完全免费。

二、Agent ≠ 聊天机器人，区别大了

很多人混淆了两个概念：聊天机器人和 Agent。

聊天机器人只能一问一答，像查字典。

Agent 可以：

• 自主拆解复杂任务，规划执行步骤
• 调用工具——搜索、写代码、操作文件
• 拥有持久记忆，越用越懂你
• 对接聊天平台，微信、Telegram、飞书随时响应

跑 Agent 需要两样东西：Agent 框架 + 大语言模型。

今天推荐的组合是：

组件	名称	干什么的
Agent 框架	Hermes Agent	任务编排、工具调用、记忆管理
大语言模型	Qwen3.6	语言理解、推理、生成
推理引擎	llama.cpp	高性能本地推理，GPU 加速

Hermes Agent——2026 年 GitHub 增速最快的开源 Agent 框架，74K+ Stars，最新版 v0.8.0，MIT 协议完全免费。核心亮点是自进化能力：使用过程中自动积累技能库，越来越聪明。

Qwen3.6——阿里通义千问最新开源模型，27B 参数版本多项基准测试接近 GPT-4o 水平，中文能力尤为突出。

一句话总结：免费、无限 Token、数据完全自己掌控。

三、你的电脑能跑吗？先看这张表

门槛没你想的那么高：

显存	推荐模型	模型大小	效果
8GB	Qwen3.5-7B	~4GB	日常对话够用
12GB	Qwen3.5-14B	~8GB	流畅好用
16GB	Qwen3.6-14B	~10GB	接近 GPT-4 级别
24GB	Qwen3.6-27B	~17GB	最强体验

Mac 用户（M1/M2/M3/M4 芯片，统一内存 16GB+）也能跑，llama.cpp 原生支持 Apple Silicon Metal 加速。

其他硬件要求：内存 16GB+，硬盘留 20-50GB，系统 Windows 10/11 或 macOS 或 Linux。

四、9 步部署，手把手教你搞定

第 1 步：安装 WSL2（Windows 用户必做）

Windows 需要先装 WSL2，这是微软官方的 Linux 环境。

管理员身份打开 PowerShell：

wsl --install -d Ubuntu-24.04

装完自动重启，重启后设置 Ubuntu 用户名密码。

避坑提醒：安装时会弹出 WSL 设置窗口，千万别选 NAT 模式，选 Mirrored 模式，这样 WSL2 才能用你 Windows 的网络。改完重启。

进入 Ubuntu 后验证 GPU：

nvidia-smi

看到显卡信息就说明 GPU 直通正常。报错就去 Windows 端升级 NVIDIA 驱动。

第 2 步：安装基础工具

sudo apt update && sudo apt install -y python3-pip python3-venv cmake build-essential git

第 3 步：装 CUDA Toolkit

WSL2 里需要单独装 CUDA（约 2GB）：

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.debsudo dpkg -i cuda-keyring_1.1-1_all.debsudo apt update && sudo apt install -y cuda-toolkit-12-8

设置环境变量并永久生效：

export PATH=/usr/local/cuda-12.8/bin:$PATHexport LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATHecho &#x27;export PATH=/usr/local/cuda-12.8/bin:$PATH&#x27; >> ~/.bashrcecho &#x27;export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH&#x27; >> ~/.bashrc

第 4 步：编译 llama.cpp

cd ~ && git clone https://github.com/ggerganov/llama.cppcd llama.cppcmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=89cmake --build build -j$(nproc)

编译约 5-10 分钟。CUDA_ARCHITECTURES=89 适用于 RTX 40 系列，RTX 30 系列改为 86。

第 5 步：下载模型

pip install huggingface-hub# 24GB 显存选这个（约17GB）hf download unsloth/Qwen3.6-27B-GGUF \  Qwen3.6-27B-UD-Q4_K_XL.gguf \  --local-dir ~/models/

下载慢可切换 ModelScope 国内镜像。

第 6 步：启动模型服务

~/llama.cpp/build/bin/llama-server \  --model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \  --n-gpu-layers 99 \  --ctx-size 65536 \  --flash-attn on \  --port 8080 \  --host 0.0.0.0

浏览器打开 http://localhost:8080 就能聊天了。但我们要接入 Agent，继续往下。

第 7 步：安装 Hermes Agent

新开一个终端（保持 llama-server 运行）：

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bashsource ~/.bashrchermes --version

运行设置向导，选择 Custom endpoint，填入：

• URL：http://localhost:8080/v1
• API Key：随便填（本地模型不需要）
• Model：自动识别

第 8 步：对接聊天平台

Hermes 支持多平台对接：

平台	适合场景
微信	日常最方便，扫码即绑
Telegram	海外用户首选
飞书	企业办公
Discord	团队协作

以微信为例，setup 过程中选 wx，扫码即可。完成后你就能通过微信随时调用本地 AI Agent。

第 9 步：设置开机自启（可选）

cat > ~/start-llm.sh << &#x27;EOF&#x27;#!/bin/bash~/llama.cpp/build/bin/llama-server \  --model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \  --n-gpu-layers 99 --ctx-size 65536 \  --flash-attn on --port 8080 \  --host 0.0.0.0 &EOFchmod +x ~/start-llm.shecho &#x27;if ! pgrep -f "llama-server" > /dev/null 2>&1; then ~/start-llm.sh; fi&#x27; >> ~/.bashrc

五、和付费方案比，到底差多少？

方案	月成本	Token 限制	数据隐私	离线可用
ChatGPT Plus	$20	有	上云	否
Claude Pro	$20	有	上云	否
API 按量调用	不定	按量	上云	否
Ollama + 模型	免费	无限	本地	是
Hermes + Qwen3.6	免费	无限	本地	是

有人会问：Ollama 也是免费的，为什么要多装一个 Hermes？

因为 Ollama 是模型运行器，只能聊天。Hermes 是 Agent 框架，有任务编排、工具调用、持久记忆、自进化技能库——完全不是一个层次的能力。

六、常见问题

Q：没有 NVIDIA 显卡能跑吗？llama.cpp 支持 CPU 推理，但速度慢。推荐至少有 GTX 1060 6GB。Mac M 芯片原生支持 Metal 加速。

Q：不想折腾，有更简单的方式吗？Hermes 也支持接入云端 API（OpenRouter、阿里百炼），可以先用免费额度体验，再切本地模型。

Q：和 OpenClaw 有什么区别？OpenClaw 专注 IDE 编程场景（类似 Cursor），Hermes 主打全场景智能助手 + 自进化记忆。定位不同，可以并存。

Q：效果和 GPT-4o 差多少？Qwen3.6-27B 日常任务接近 GPT-4o，中文能力尤其出色。超复杂推理 GPT-4o 仍有优势，但对大多数人来说差距不大。

七、写在最后

2026 年，AI 不再只是大公司的专属能力。

一台有显卡的电脑，加上开源社区的共同努力，每个人都能拥有自己的 AI 助手——不花钱、不限量、数据不出门。

它不需要联网，不会泄露你的数据，不会因为服务暂停而不可用。它就在你的电脑上，24 小时待命。

试试看吧。

相关链接：

• Hermes Agent GitHub
• Qwen3.6 模型下载
• llama.cpp 推理引擎
• CUDA Toolkit 下载

如果觉得有用，欢迎点赞、在看、转发三连。