AI Agent 概述与 hermes-agent 安装配置

课程定位：实战使用篇 · 第 1 讲 / 共 6 讲面向人群：零基础用户（运营、产品、管理者），无需编程经验本讲目标：理解 AI Agent 的本质，完成 hermes-agent 的安装配置并成功启动第一次对话

一、案例：从「聊天机器人」到「AI Agent」—— 一个场景的对比

场景设定

假设你是某互联网公司的运营负责人，每天需要做三件事：

早上 9 点：打开微博热搜、百度指数、抖音热榜，记录当天的热门话题
上午 10 点：根据热点话题，结合公司产品定位，撰写一篇公众号推文草稿
中午 12 点前：将文章同步发布到微信公众号、企业微信群、CSDN 博客

用传统方式 vs 用 AI Agent 的区别

维度	传统方式（手动操作）	传统 Chatbot	AI Agent（hermes-agent）
热点搜集	打开 3-5 个网站，人工筛选	你说"帮我查热点"，它给你文字列表	自动调用 web_search 工具访问多个数据源，结构化输出
内容生成	打开写作工具，逐段撰写	你给关键词，它生成一段文本	调用 web_search 获取素材 → 调用 file_operations 写入模板 → 结合品牌调性润色
多平台发布	复制粘贴到各平台后台	无法完成（没有发布能力）	通过 Gateway 同时推送企业微信、飞书、CSDN 等
自动化程度	0%（纯人工）	10%（需人驱动每一步）	90%+（定时任务自动执行）
需要编程吗	不需要	不需要	不需要（本讲就开始学）

关键认知差异：Chatbot 只能"回答问题"，Agent 能"使用工具完成任务"。这就是本门课程要教你的核心能力——让 AI 不再只是一个对话窗口，而是你团队里的一个能干活的"数字员工"。

二、原理讲解：什么是 AI Agent？

2.1 核心定义

AI Agent = 大语言模型（LLM）+ 工具调用能力 + 自主决策循环

用一句话概括：Agent 是一个能够感知环境、自主规划、调用工具、持续迭代的智能系统。

2.2 Agent 的四个核心能力

hermes-agent 项目从 v0.1.0 到 v0.14.0 的迭代历程，恰好对应了 Agent 四个核心能力的逐步完善：

能力一：感知与理解（Perception）

Agent 能理解用户的自然语言指令，并将其转化为可执行的步骤。


# 用户输入："帮我搜集今天的热点话题"
# Agent 理解为：
# 1. 需要调用 web_search 工具
# 2. 搜索关键词是"今日热点"或"热搜"
# 3. 时间范围是今天
# 4. 输出格式应该是结构化的列表

在 hermes-agent 中，这个能力由 agent/prompt_builder.py 和 agent/conversation_loop.py 共同实现。系统 prompt 中定义了 Agent 的角色、能力和行为规范。

能力二：工具使用（Tool Use）

这是 Agent 区别于普通 Chatbot 的最本质特征。Agent 可以调用外部工具来扩展自身能力。

hermes-agent 内置了 82 个工具文件，覆盖以下类别：

类别	代表工具	典型用途
Web 搜索	`web_tools.py`	搜索引擎查询、网页抓取
文件操作	`file_operations.py`, `file_tools.py`	读写文件、目录管理
终端执行	`terminal_tool.py`	运行 Shell 命令、脚本
浏览器	`browser_tool.py`	自动化网页操作、截图
代码执行	`code_execution_tool.py`	运行 Python/其他语言代码
消息发送	`send_message_tool.py`	多平台消息推送
MCP 协议	`mcp_tool.py`	连接外部 MCP Server
技能管理	`skill_manager_tool.py`, `skills_hub.py`	加载和管理 Skill

行业视角：OpenAI 在 2023 年发布的 Function Calling 功能，让 LLM 能够以结构化格式输出"我想调用哪个工具、传什么参数"，这是整个 Agent 技术爆发的起点。hermes-agent 正是基于这个能力构建了完整的工具体系。

能力三：规划与推理（Planning & Reasoning）

面对复杂任务，Agent 能够将其拆解为多个子任务，逐步执行。

hermes-agent 的对话循环（agent/conversation_loop.py，约 238KB）实现了完整的 ReAct（Reasoning + Acting）模式：


while (未完成 且 未超时):
    1. 将当前上下文发送给 LLM
    2. LLM 决定：返回文本 / 调用工具 / 需要更多信息
    3. 如果调用工具 → 执行工具 → 将结果追加到上下文 → 回到第 1 步
    4. 如果返回文本 → 输出结果 → 结束本轮

这个循环默认最多执行 90 次（max_iterations=90），足以处理大多数复杂的多步任务。

能力四：记忆与状态（Memory & State）

Agent 能够记住之前的对话内容、学习用户的偏好，并在跨会话中保持一致性。

hermes-agent 使用 SQLite（WAL 模式 + FTS5 全文搜索）存储会话历史，支持：

会话命名和恢复（/resume 命令）
跨平台共享同一会话（CLI 和 Telegram 可以继续同一个对话）
会话压缩（超长对话自动分割）
全文搜索（快速找到历史对话中的任意内容）

2.3 Agent 与相关概念的区分

概念	定义	与 Agent 的关系
LLM / 大语言模型	如 GPT-4、Claude、DeepSeek	Agent 的"大脑"，提供理解和推理能力
Chatbot / 聊天机器人	基于 LLM 的对话应用	Agent 的子集，只具备对话能力
RPA / 流程自动化	按预定义规则执行固定流程	无学习能力；Agent 可动态决策
Copilot / 编程助手	辅助人类完成特定任务	通常单轮交互；Agent 支持多步自主执行
WorkFlow / 工作流	预编排的任务流水线	固定路径；Agent 可根据结果动态调整

三、项目介绍：为什么选择 hermes-agent 作为教学载体？

3.1 项目概况

hermes-agent 是一个开源的大规模生产级多平台 AI Agent 框架，由 NousResearch 社区维护。以下是截至 2026 年 5 月（v0.14.0）的关键数据：

项目规模├── 代码量：核心代码约 200 万行（含测试）├── 测试：17,000+ 测试用例，900+ 测试文件├── 版本：v0.1.0 → v0.14.0，共 13 个正式版本├── 提交：8,000+ commits├── 贡献者：215 位社区开发者└── PR 合并：633 个（仅 v0.13→v0.14）功能规模├── 消息平台：22 个（微信、企业微信、飞书、QQ、Telegram...）├── 模型提供商：28 个（OpenAI、Anthropic、DeepSeek、通义千问...）├── 内置技能：500+ 个 SKILL.md 文件├── 内置工具：82 个 Python 工具模块├── 插件类型：15 种扩展点└── 操作系统：macOS / Linux / Windows（原生支持）

最高的3.2 为什么用它学 Agent？

第一，它是"活着的"教科书。大多数教程教你的是概念，而 hermes-agent 是一个正在被 200+ 人共同开发的真实生产级项目。它的 Release Notes 详细记录了每个版本做了什么、为什么这样做、遇到了什么问题。你可以看到一个 Agent 项目是如何从一个简单的对话脚本，一步步长成今天的庞然大物的。

第二，它覆盖了 Agent 技术的所有核心领域。工具系统、技能系统、插件架构、多平台网关、安全机制、性能优化——你在任何一本 Agent 书上能看到的主题，这个项目都有对应的代码实现。而且实现得非常精妙（比如 AST 静态发现工具、generation 计数器缓存失效）。

第三，它对中文生态友好。支持企业微信、飞书、QQ、微信个人号等中国主流通讯平台，内置通义千问（Qwen）、智谱 GLM、月之暗面 Kimi 等国产模型，还有腾讯元宝适配器。这在国内开源项目中非常罕见。

第四，它对非开发者友好。"Markdown 即技能"的设计意味着你不需要写一行代码就能创建新技能。pip install 一行命令就能装好。本课程的前半部分完全不需要编程知识。

3.3 项目演进时间轴（与本课程的对应关系）


v0.1.0  ──→  最小可用原型（对应第 7 讲 MVP）                │v0.2.0  ──→  多平台网关 + MCP + Skills 生态系统           （216 PRs, 63 contributors, 2026.3.12）                │  ← 对应第 10-12 讲v0.3~0.6  ──→  TUI 界面、插件系统、看板系统、浏览器自动化                │  ← 对应第 9、11 讲v0.7~0.10 ──→ 安全加固、上下文压缩、LSP 集成、Windows 支持                │  ← 对应第 13-14 讲v0.11~0.13 ──→ 性能优化波（冷启动 -19s, 浏览器 180x, PyPI 发布）                │  ← 对应第 15 讲v0.14.0  ──→  当前版本（Foundation Release）           （808 commits, 633 PRs, 1393 files changed, 2026.5.16）

四、动手实践：安装与配置

4.1 环境准备

前置要求：

项目	要求
操作系统	macOS 10.15+ / Linux（Ubuntu 18.04+）/ Windows 10+（原生 beta）
Python	3.10 或更高版本
网络	需要访问 OpenAI API 或兼容接口（国内需要代理或使用国产模型）

检查 Python 版本：


python3 --version
# 应显示 Python 3.10.x 或更高
# 如果版本过低，请先升级 Python

4.2 安装 hermes-agent

hermes-agent 从 v0.14.0 开始支持 PyPI 一键安装（之前需要 clone 仓库）。运行以下命令：


pip install hermes-agent

说明：这一条命令会安装 hermes-agent 的核心包，包含 CLI 启动器、Ink TUI 终端界面、所有核心工具和技能。重型后端（Slack SDK、图像生成 SDK、语音/TTS 等）采用懒加载策略——只有你真正用到它们时才会自动安装。

验证安装：


hermes --version
# 显示版本信息即表示安装成功

如果遇到权限问题，可以尝试：


pip install --user hermes-agent
# 或
python3 -m pip install hermes-agent

4.3 配置 API Key

hermes-agent 本身不提供大模型能力，它需要连接到一个 LLM 服务。你需要至少配置一个模型提供商的 API Key。

支持的模型提供商（部分列举）：

提供商	模型示例	适用区域
OpenAI	GPT-4o, GPT-5	全球
Anthropic	Claude 3.5 Sonnet, Claude Opus	全球
DeepSeek	DeepSeek-V3, DeepSeek-R1	中国友好
智谱 AI	GLM-4-Plus, GLM-4-Flash	中国
通义千问	Qwen-Max, Qwen-Plus	中国
月之暗面	Moonshot-v1, moonshot-v1-128k	中国
OpenRouter	多模型聚合路由	全球
Azure OpenAI	GPT 系列（Azure 托管）	企业客户

配置方法：

hermes-agent 使用 ~/.hermes/.env 文件存储 API 密钥。创建该文件并添加你的密钥：

mkdir -p ~/.hermesnano ~/.herms/.env   # 或者使用 vim / VS Code 编辑

在 .env 文件中添加（以 OpenAI 为例）：

# OpenAIOPENAI_API_KEY=sk-your-key-here# 或者使用 DeepSeek（推荐国内用户）DEEPSEEK_API_KEY=sk-your-deepseek-key-here# 或者使用通义千问QWEN_API_KEY=your-qwen-key-here

同时配置多个提供商也是可以的。hermes-agent 支持运行时切换模型（/model 命令）和提供商（/provider 命令）。

安全提示：.env 文件只存放密钥，不要把密钥写到 config.yaml 里。hermes-agent 的设计原则是"YAML 配置 + .env 密钥分离"。而且 .env 采用原子写入（atomic write），即使程序崩溃也不会丢失密钥内容。

4.4 第一次启动

运行以下命令启动 hermes-agent：

hermes

首次启动时会发生什么：

系统检测 Python 环境、依赖完整性
加载 ~/.hermes/config.yaml 配置文件（首次会自动创建默认配置）
读取 ~/.hermes/.env 中的 API 密钥
初始化数据库（SQLite，用于存储会话历史）
扫描内置工具和技能
显示欢迎横幅（Banner）和交互提示符

常用入门命令：

命令	作用
`/help`	查看所有可用命令
`/new`	开始一个新的会话
`/model`	查看或切换当前使用的模型
`/provider`	查看或切换模型提供商
`/tools`	查看已启用和可用的工具列表
`/skills`	查看已加载的技能
`/verbose`	开启/关闭调试模式
`/quit`	退出 hermes-agent

五、重点总结

本讲核心知识点

知识点 1：Agent ≠ Chatbot。Chatbot 只能对话，Agent 能调用工具、执行任务、自主决策。这是理解后续所有内容的基石。

知识点 2：hermes-agent 的四大能力支柱。感知理解（prompt_builder）、工具使用（82 个工具）、规划推理（conversation_loop 循环）、记忆状态（SQLite FTS5）。后续每一讲都会围绕其中一个支柱深入展开。

知识点 3：「Markdown 即技能」范式。这是 hermes-agent 对非开发者最友好的设计——技能就是 Markdown 文件，不需要写代码。第 3 讲会专门教你怎么创建自己的技能。

知识点 4：配置分离原则。config.yaml 存配置项，.env 存密钥。这是生产级项目的标准做法，值得记住。