本平台采用端–管–云–端分层架构,实现从设备感知、语音交互到智能决策的完整闭环,整体由五大核心模块组成:
一、设备管理后台(Device Management Backend)
作为系统的中枢控制平台,负责设备全生命周期管理与配置下发。
核心职责
设备注册、认证与状态监控
OTA 固件升级策略管理
全局配置信息管理(MQTT、UDP、模型参数等)
数据交互
向设备端下发:
固件版本、NTP 时间、MQTT Broker 地址、UDP 音频服务器地址接收并持久化存储:
用户配置、对话历史、设备日志
二、适配小智固件(Embedded Firmware)
部署于终端设备侧,承担音视频采集、传输与播放的实时任务。
核心职责
麦克风音频采样与编码
通过 UDP / WebSocket 推送音频流至音频服务器
接收音频服务器返回的语音流并进行实时播放
特性
低延迟音频传输
支持断线重连与缓冲管理
三、MCP 服务器(Model Context Protocol Server)
作为系统的工具调度中枢,提供统一的工具发现与调用机制。
核心职责
维护动态 Tool List(工具列表)
提供工具的订阅(Subscribe)与发布(Publish)能力
为音频服务器提供标准化的工具调用接口
价值
解耦模型能力与外部系统
支持后续灵活扩展新技能(支付、IoT 控制、业务系统对接等)
四、音频服务器(Audio Processing Pipeline)
系统的语音理解与生成核心,串联 ASR → LLM → TTS 全流程。
核心职责
ASR(语音识别):将音频流转写为文本
LLM(大语言模型):语义理解与意图识别
TTS(语音合成):将回复文本转为语音流
协同逻辑
从设备管理后台拉取 用户个性化配置
向 MCP 服务器请求可用 Tool List 并执行工具调用
将完整的对话记录 异步写入 设备管理后台
特性
流式处理,降低端到端延迟
支持多模型热切换
五、小程序(Mini Program)
面向用户的移动端交互入口,实现设备绑定与智能体管理。
核心功能
蓝牙配网与设备绑定
AI 角色选择与参数配置
记忆体(Memory)与智能体(Agent)管理
数据流向
用户配置、角色设定等信息统一同步至 设备管理后台
通过后台间接影响音频服务器的行为表现

夜雨聆风