01
02

身份定义(SOUL.md)——让它知道"像谁" 记忆升级(Hindsight)——让它真正"记住谁" 补齐工具链(抓取+搜索+文档)——让它"会获取信息" 优化成本(Token管控)——让强能力"可持续使用" 表达能力(语音+图片生成)——让它"能听、能说、能画" Skill扩展——接入生态,持续变强 一张图总结——完整闭环
03

身份:12年企业培训内容供应商,专注精益生产、工业安全、医学科普三大领域
风格:案例驱动、口语化讲解、拒绝空洞理论、每页PPT必须有"金句+数据+场景"
能力边界:擅长60页标准大纲设计、逐字稿撰写、配套工具开发;不擅长纯学术理论研究
语言习惯:中文为主,夹杂必要英文术语(VSM、QCC、PDCA),不用网络梗
禁忌:绝不生成搜索来的插图(必须原创或AI生成),绝不省略任何大纲页数
自动提取:实体(人名、公司、项目)、事实(某次对话的结论)、关系("这个用户讨厌搜索插图")、时间戳(什么时候发生的)
知识图谱:不是线性笔记,而是网状结构。项目A和项目B共享同一个客户,它能关联起来。
自动注入:每次调用前,自动把相关记忆注入上下文。你提到"粉尘防爆",它立刻调出上次那个大纲的框架、你当时的修改意见、你指定的参考标准。
命令行操作:
`hermes memory setup` → 选择 hindsight
`hermes memory status` → 验证是否生效
04

用途:给你一个URL,它把网页内容干净地提取成Markdown
我的场景:看到一篇公众号爆文,把链接丢给Jina,立刻得到纯文本,再让Hermes分析结构、提取金句、模仿风格
优点:稳定、格式干净、不丢内容
用途:不是一个页面,是整个网站、整个专栏、整个系列文章
我的场景:我要研究某个竞品账号过去半年的100篇文章,Crawl4 AI可以批量爬取,自动去重
优点:深度、批量、可配置爬取规则
用途:有些网站有反爬机制(比如Cloudflare验证),普通工具抓不到
我的场景:某些行业数据库、某些需要登录的会员内容
优点:模拟真实浏览器行为,绕过大部分反爬
用途:在抓取过程中隐藏自动化特征,让网站以为你是真人
我的场景:配合Scrapling使用,双重保险
优点:指纹伪装、代理轮换
每月1000次免费额度,对我是够用的
它不是传统搜索引擎,而是AI原生搜索——返回的结果已经是经过语义理解的,不是一堆链接列表,而是带摘要、带来源、带相关性的结构化信息
我的场景:查"2025年最新粉尘防爆国家标准",Tavily直接给我标准号、发布机构、核心变化点
当Tavily额度用完,或者需要更广泛的网页覆盖时,DuckDuckGo顶上
隐私保护好,不追踪用户
Word、PPT、Excel、PDF、Markdown、HTML……几乎任何格式互转
我的场景:客户给我一份Word版的安全操作规程,我转成Markdown让Hermes分析结构
专门处理PDF,尤其是扫描版PDF、带表格的PDF、带公式的PDF
普通工具提取PDF经常丢格式、表格变乱码,Marker能保留结构
我的场景:读国家标准PDF、读学术论文、读行业白皮书

看到一篇好文章,用Jina Reader抓取全文 让Hermes分析这篇文章的结构和亮点 用Tavily搜索"这个主题还有哪些权威来源" 找到一份相关PDF标准,用Marker提取 综合所有信息,生成我自己的培训大纲
05

OpenAI开源的语音识别工具
支持99+种语言,中文识别准确率极高
我的场景:
开会录音,丢给Whisper转文字,再让Hermes整理会议纪要
听行业专家的语音分享,转成文字后提取干货
自己口述灵感,不用打字,直接语音输入
微软Edge浏览器内置的TTS引擎,免费可用
语音自然度在免费TTS里是第一梯队
我的场景:
把培训逐字稿转成讲解音频,先听一遍找语感问题
给视频配旁白
做语音助手原型
图片生成能力,可用于封面、海报、配图
我的场景:给公众号文章配头图、给培训PPT做章节过渡页
提升内容表达效率——不用打开Midjourney或Stable Diffusion,直接在对话里生成
比Fal.ai更强调"成品感"
适合视觉内容创作,让结果更像专业设计师出的图
我的场景:课程宣传海报、培训项目封面图、IP形象设计
06

像一个电表,实时看每个任务花了多少Token
我的用法:先跑几个典型任务,摸清成本基线,再优化
不是只看总数,而是看哪一步最烧钱
比如一次复杂任务:抓取花了X Token、搜索花了Y Token、生成图片花了Z Token
我的用法:发现某次PDF提取特别贵,于是优化了提取策略,只提取关键章节
这是最狠的省钱工具
原理:AI输出往往有大量冗余(格式化符号、重复解释、过度礼貌用语),RTK在保持语义完整的前提下,把输出压缩到最精简
我的实测:一篇5000字的逐字稿,RTK压缩后变成3500字,核心信息一点没丢,Token消耗直接降40%
适合场景:内部自用、快速迭代、不需要"漂亮排版"的纯内容生产
它会分析你的使用习惯,自动优化Prompt结构
比如你发现每次都要说"请用中文回答",它自动在系统层加上这个要求,以后你不用再重复
长期用下来,越用越顺手,越用越省Token
可批量安装更多跨平台Skill:就像手机装App,你需要什么能力,就装什么Skill
按需从大型Skill仓库继续扩展:官方仓库、社区仓库、第三方仓库
资源地图:通过 awesome-hermes-agent / hermes-ecosystem 找资源


07
08
不要一次性配齐7步。 先从SOUL.md+Hindsight开始,解决"像谁"和"记住谁",这是地基。地基稳了,再往上盖楼。 先解决最痛的点。 如果你最痛的是"每次都要重复介绍自己",先配SOUL.md;如果你最痛的是"聊完就忘",先配Hindsight;如果你最痛的是"它啥也不知道",先配感知模块。 成本优化要趁早。 不要等账单吓到你再优化,从一开始就用Tokscale监控,养成"精打细算"的习惯。 多模态是加分项,不是必选项。 如果你现在只需要文字,先不配语音和图片,等需要了再扩展。Hermes的Skill机制就是让你按需加载的。
09
夜雨聆风