课程定位:实战使用篇 · 第 1 讲 / 共 6 讲面向人群:零基础用户(运营、产品、管理者),无需编程经验本讲目标:理解 AI Agent 的本质,完成 hermes-agent 的安装配置并成功启动第一次对话
一、案例:从「聊天机器人」到「AI Agent」—— 一个场景的对比
场景设定
假设你是某互联网公司的运营负责人,每天需要做三件事:
早上 9 点:打开微博热搜、百度指数、抖音热榜,记录当天的热门话题
上午 10 点:根据热点话题,结合公司产品定位,撰写一篇公众号推文草稿
中午 12 点前:将文章同步发布到微信公众号、企业微信群、CSDN 博客
用传统方式 vs 用 AI Agent 的区别
| 维度 | 传统方式(手动操作) | 传统 Chatbot | AI Agent(hermes-agent) |
|---|---|---|---|
| 热点搜集 | 打开 3-5 个网站,人工筛选 | 你说"帮我查热点",它给你文字列表 | 自动调用 web_search 工具访问多个数据源,结构化输出 |
| 内容生成 | 打开写作工具,逐段撰写 | 你给关键词,它生成一段文本 | 调用 web_search 获取素材 → 调用 file_operations 写入模板 → 结合品牌调性润色 |
| 多平台发布 | 复制粘贴到各平台后台 | 无法完成(没有发布能力) | 通过 Gateway 同时推送企业微信、飞书、CSDN 等 |
| 自动化程度 | 0%(纯人工) | 10%(需人驱动每一步) | 90%+(定时任务自动执行) |
| 需要编程吗 | 不需要 | 不需要 | 不需要(本讲就开始学) |
关键认知差异:Chatbot 只能"回答问题",Agent 能"使用工具完成任务"。这就是本门课程要教你的核心能力——让 AI 不再只是一个对话窗口,而是你团队里的一个能干活的"数字员工"。
二、原理讲解:什么是 AI Agent?
2.1 核心定义
AI Agent = 大语言模型(LLM)+ 工具调用能力 + 自主决策循环
用一句话概括:Agent 是一个能够感知环境、自主规划、调用工具、持续迭代的智能系统。
2.2 Agent 的四个核心能力
hermes-agent 项目从 v0.1.0 到 v0.14.0 的迭代历程,恰好对应了 Agent 四个核心能力的逐步完善:
能力一:感知与理解(Perception)
Agent 能理解用户的自然语言指令,并将其转化为可执行的步骤。
# 用户输入:"帮我搜集今天的热点话题"# Agent 理解为:# 1. 需要调用 web_search 工具# 2. 搜索关键词是"今日热点"或"热搜"# 3. 时间范围是今天# 4. 输出格式应该是结构化的列表
在 hermes-agent 中,这个能力由 agent/prompt_builder.py 和 agent/conversation_loop.py 共同实现。系统 prompt 中定义了 Agent 的角色、能力和行为规范。
能力二:工具使用(Tool Use)
这是 Agent 区别于普通 Chatbot 的最本质特征。Agent 可以调用外部工具来扩展自身能力。
hermes-agent 内置了 82 个工具文件,覆盖以下类别:
| 类别 | 代表工具 | 典型用途 |
|---|---|---|
| Web 搜索 | web_tools.py | 搜索引擎查询、网页抓取 |
| 文件操作 | file_operations.py, file_tools.py | 读写文件、目录管理 |
| 终端执行 | terminal_tool.py | 运行 Shell 命令、脚本 |
| 浏览器 | browser_tool.py | 自动化网页操作、截图 |
| 代码执行 | code_execution_tool.py | 运行 Python/其他语言代码 |
| 消息发送 | send_message_tool.py | 多平台消息推送 |
| MCP 协议 | mcp_tool.py | 连接外部 MCP Server |
| 技能管理 | skill_manager_tool.py, skills_hub.py | 加载和管理 Skill |
行业视角:OpenAI 在 2023 年发布的 Function Calling 功能,让 LLM 能够以结构化格式输出"我想调用哪个工具、传什么参数",这是整个 Agent 技术爆发的起点。hermes-agent 正是基于这个能力构建了完整的工具体系。
能力三:规划与推理(Planning & Reasoning)
面对复杂任务,Agent 能够将其拆解为多个子任务,逐步执行。
hermes-agent 的对话循环(agent/conversation_loop.py,约 238KB)实现了完整的 ReAct(Reasoning + Acting)模式:
while (未完成 且 未超时):1. 将当前上下文发送给 LLM2. LLM 决定:返回文本 / 调用工具 / 需要更多信息3. 如果调用工具 → 执行工具 → 将结果追加到上下文 → 回到第 1 步4. 如果返回文本 → 输出结果 → 结束本轮
这个循环默认最多执行 90 次(max_iterations=90),足以处理大多数复杂的多步任务。
能力四:记忆与状态(Memory & State)
Agent 能够记住之前的对话内容、学习用户的偏好,并在跨会话中保持一致性。
hermes-agent 使用 SQLite(WAL 模式 + FTS5 全文搜索)存储会话历史,支持:
会话命名和恢复(
/resume命令)跨平台共享同一会话(CLI 和 Telegram 可以继续同一个对话)
会话压缩(超长对话自动分割)
全文搜索(快速找到历史对话中的任意内容)
2.3 Agent 与相关概念的区分
| 概念 | 定义 | 与 Agent 的关系 |
|---|---|---|
| LLM / 大语言模型 | 如 GPT-4、Claude、DeepSeek | Agent 的"大脑",提供理解和推理能力 |
| Chatbot / 聊天机器人 | 基于 LLM 的对话应用 | Agent 的子集,只具备对话能力 |
| RPA / 流程自动化 | 按预定义规则执行固定流程 | 无学习能力;Agent 可动态决策 |
| Copilot / 编程助手 | 辅助人类完成特定任务 | 通常单轮交互;Agent 支持多步自主执行 |
| WorkFlow / 工作流 | 预编排的任务流水线 | 固定路径;Agent 可根据结果动态调整 |
三、项目介绍:为什么选择 hermes-agent 作为教学载体?
3.1 项目概况
hermes-agent 是一个开源的大规模生产级多平台 AI Agent 框架,由 NousResearch 社区维护。以下是截至 2026 年 5 月(v0.14.0)的关键数据:
项目规模├── 代码量:核心代码约 200 万行(含测试)├── 测试:17,000+ 测试用例,900+ 测试文件├── 版本:v0.1.0 → v0.14.0,共 13 个正式版本├── 提交:8,000+ commits├── 贡献者:215 位社区开发者└── PR 合并:633 个(仅 v0.13→v0.14)功能规模├── 消息平台:22 个(微信、企业微信、飞书、QQ、Telegram...)├── 模型提供商:28 个(OpenAI、Anthropic、DeepSeek、通义千问...)├── 内置技能:500+ 个 SKILL.md 文件├── 内置工具:82 个 Python 工具模块├── 插件类型:15 种扩展点└── 操作系统:macOS / Linux / Windows(原生支持)
最高的3.2 为什么用它学 Agent?第一,它是"活着的"教科书。大多数教程教你的是概念,而 hermes-agent 是一个正在被 200+ 人共同开发的真实生产级项目。它的 Release Notes 详细记录了每个版本做了什么、为什么这样做、遇到了什么问题。你可以看到一个 Agent 项目是如何从一个简单的对话脚本,一步步长成今天的庞然大物的。
第二,它覆盖了 Agent 技术的所有核心领域。工具系统、技能系统、插件架构、多平台网关、安全机制、性能优化——你在任何一本 Agent 书上能看到的主题,这个项目都有对应的代码实现。而且实现得非常精妙(比如 AST 静态发现工具、generation 计数器缓存失效)。
第三,它对中文生态友好。支持企业微信、飞书、QQ、微信个人号等中国主流通讯平台,内置通义千问(Qwen)、智谱 GLM、月之暗面 Kimi 等国产模型,还有腾讯元宝适配器。这在国内开源项目中非常罕见。
第四,它对非开发者友好。"Markdown 即技能"的设计意味着你不需要写一行代码就能创建新技能。pip install 一行命令就能装好。本课程的前半部分完全不需要编程知识。
3.3 项目演进时间轴(与本课程的对应关系)
v0.1.0 ──→ 最小可用原型(对应第 7 讲 MVP)│v0.2.0 ──→ 多平台网关 + MCP + Skills 生态系统(216 PRs, 63 contributors, 2026.3.12)│ ← 对应第 10-12 讲v0.3~0.6 ──→ TUI 界面、插件系统、看板系统、浏览器自动化│ ← 对应第 9、11 讲v0.7~0.10 ──→ 安全加固、上下文压缩、LSP 集成、Windows 支持│ ← 对应第 13-14 讲v0.11~0.13 ──→ 性能优化波(冷启动 -19s, 浏览器 180x, PyPI 发布)│ ← 对应第 15 讲v0.14.0 ──→ 当前版本(Foundation Release)(808 commits, 633 PRs, 1393 files changed, 2026.5.16)
四、动手实践:安装与配置
4.1 环境准备
前置要求:
| 项目 | 要求 |
|---|---|
| 操作系统 | macOS 10.15+ / Linux(Ubuntu 18.04+)/ Windows 10+(原生 beta) |
| Python | 3.10 或更高版本 |
| 网络 | 需要访问 OpenAI API 或兼容接口(国内需要代理或使用国产模型) |
检查 Python 版本:
python3 --version# 应显示 Python 3.10.x 或更高# 如果版本过低,请先升级 Python
4.2 安装 hermes-agent
hermes-agent 从 v0.14.0 开始支持 PyPI 一键安装(之前需要 clone 仓库)。运行以下命令:
pip install hermes-agent
说明:这一条命令会安装 hermes-agent 的核心包,包含 CLI 启动器、Ink TUI 终端界面、所有核心工具和技能。重型后端(Slack SDK、图像生成 SDK、语音/TTS 等)采用懒加载策略——只有你真正用到它们时才会自动安装。
验证安装:
hermes --version# 显示版本信息即表示安装成功
如果遇到权限问题,可以尝试:
pip install --user hermes-agent# 或python3 -m pip install hermes-agent
4.3 配置 API Key
hermes-agent 本身不提供大模型能力,它需要连接到一个 LLM 服务。你需要至少配置一个模型提供商的 API Key。
支持的模型提供商(部分列举):
| 提供商 | 模型示例 | 适用区域 |
|---|---|---|
| OpenAI | GPT-4o, GPT-5 | 全球 |
| Anthropic | Claude 3.5 Sonnet, Claude Opus | 全球 |
| DeepSeek | DeepSeek-V3, DeepSeek-R1 | 中国友好 |
| 智谱 AI | GLM-4-Plus, GLM-4-Flash | 中国 |
| 通义千问 | Qwen-Max, Qwen-Plus | 中国 |
| 月之暗面 | Moonshot-v1, moonshot-v1-128k | 中国 |
| OpenRouter | 多模型聚合路由 | 全球 |
| Azure OpenAI | GPT 系列(Azure 托管) | 企业客户 |
配置方法:
hermes-agent 使用 ~/.hermes/.env 文件存储 API 密钥。创建该文件并添加你的密钥:
mkdir -p ~/.hermesnano ~/.herms/.env # 或者使用 vim / VS Code 编辑
在 .env 文件中添加(以 OpenAI 为例):
# OpenAIOPENAI_API_KEY=sk-your-key-here# 或者使用 DeepSeek(推荐国内用户)DEEPSEEK_API_KEY=sk-your-deepseek-key-here# 或者使用通义千问QWEN_API_KEY=your-qwen-key-here
同时配置多个提供商也是可以的。hermes-agent 支持运行时切换模型(/model 命令)和提供商(/provider 命令)。
安全提示:
.env文件只存放密钥,不要把密钥写到 config.yaml 里。hermes-agent 的设计原则是"YAML 配置 + .env 密钥分离"。而且.env采用原子写入(atomic write),即使程序崩溃也不会丢失密钥内容。
4.4 第一次启动
运行以下命令启动 hermes-agent:
hermes首次启动时会发生什么:
系统检测 Python 环境、依赖完整性
加载
~/.hermes/config.yaml配置文件(首次会自动创建默认配置)读取
~/.hermes/.env中的 API 密钥初始化数据库(SQLite,用于存储会话历史)
扫描内置工具和技能
显示欢迎横幅(Banner)和交互提示符
常用入门命令:
| 命令 | 作用 |
|---|---|
/help | 查看所有可用命令 |
/new | 开始一个新的会话 |
/model | 查看或切换当前使用的模型 |
/provider | 查看或切换模型提供商 |
/tools | 查看已启用和可用的工具列表 |
/skills | 查看已加载的技能 |
/verbose | 开启/关闭调试模式 |
/quit | 退出 hermes-agent |
五、重点总结
本讲核心知识点
知识点 1:Agent ≠ Chatbot。Chatbot 只能对话,Agent 能调用工具、执行任务、自主决策。这是理解后续所有内容的基石。
知识点 2:hermes-agent 的四大能力支柱。感知理解(prompt_builder)、工具使用(82 个工具)、规划推理(conversation_loop 循环)、记忆状态(SQLite FTS5)。后续每一讲都会围绕其中一个支柱深入展开。
知识点 3:「Markdown 即技能」范式。这是 hermes-agent 对非开发者最友好的设计——技能就是 Markdown 文件,不需要写代码。第 3 讲会专门教你怎么创建自己的技能。
知识点 4:配置分离原则。config.yaml 存配置项,.env 存密钥。这是生产级项目的标准做法,值得记住。
夜雨聆风