我做了一款有「形象」的 AI 助手桌面客户端
今天想跟大家聊聊,我是怎么一个人,用半月时间,把脑子里想了的点子,变成了一款真正的产品的。
故事要从一个问题说起——
01 这个痛点,困扰了我很久
作为一个写代码很久的程序员,我每天都在跟 AI 助手打交道。Claude、ChatGPT、国产大模型……换了一圈又一圈。
但说实话,用久了总觉得——少点什么。
一个对话框,冷冰冰的。我对着它说话,它回我文字。就……仅此而已了。
有没有一种可能,让 AI 助手有一个「形象」?不是头像,不是 emoji,而是一个真实的、活生生的数字人?
带着这个问题,我把 Tauri、Three.js、VRM 这些技术栈过了一遍,最后——
Hermes Desktop 诞生了。
02 她的名字叫「小跃」
启动 Hermes Desktop,桌面上只漂浮着一个可爱的二次元少女,跟你打招呼:
“你好呀!”
右键点击,功能菜单出现:首页、对话、设置、技能中心。双击则快速进入主界面。

她的背后,是这样一套技术架构:
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
03 功能一览
悬浮数字人 WidgetVRM 3D 数字人形象,idle 动画(到招呼/思考),等动画,后期会继续拓展,根据内容,反馈内容,实现不同的动画效果、比如 开心、兴奋、沮丧、等情绪动作。

智能对话实时流式响应,打字机效果。Agent 思考过程可见可追溯。多会话管理,历史记录持久化。

动作管理通过骨骼参数面板,可以精细调整数字人的每一个动作——躯干的脊椎弯曲角度、手臂的抬起高度、头部的视线方向……全部可视化操作。

供应商管理支持 OpenRouter、OpenAI、Anthropic、NVIDIA、DeepSeek 等多种 AI 服务商。配置 API Key 即可使用。

一键安装 Hermes Agent检测 Node.js、ripgrep、ffmpeg 等依赖,自动克隆核心引擎。

04 半月的时间,21 个功能上线
从想法到跑通,我大概用了半月时间。
第一版上线了 21 个功能模块,涵盖安装、对话、数字人、动画、供应商配置等核心能力。
坦白说,功能还比较初级,界面也有些糙。但核心链路已经跑通了。
05 接下来要做的
资源有限,但我会持续迭代。
近期规划:
-
Windows 版本适配(目前仅 macOS Apple Silicon) -
更多数字人动作和表情 -
MCP Server 插件管理 -
通信平台设置 -
技能中心插件化 -
语音对话(TTS + ASR) -
…
如果你对这个方向感兴趣,欢迎给我一个 Star ⭐
GitHub: github.com/pengbw/hermes-desktop
扫码关注公众号「小跃行迹」

如果你觉得不错,欢迎关注公众号:小跃行迹(small-leapgo)
我们会持续更新功能,敬请期待!
夜雨聆风