我做了个无障碍沟通神器终于能和海外客户顺畅开会了-夜雨聆风

我做了个无障碍沟通神器终于能和海外客户顺畅开会了

一个痛点催生的 side project

事情要从一次糟糕的跨国会议说起。

那天我和一个海外客户开线上会，对方英语讲得飞快，我听得似懂非懂，开完会整个人都麻了。翻回去看录像重听，一边开翻译软件一边记笔记，效率低到想砸键盘。

之后我就去搜：”有没有能实时翻译音频的软件？” 搜了一圈，发现能用的要么是付费的闭源软件，要么是功能单一的语音识别工具。开源的方案里，Buzz 算是做得不错的，但它只能对输入的音频进行处理，没法直接捕获任意来源的声音。

我的需求很简单，也很贪心：

找不到现成的，就自己造。

技术方案上，我把它拆成了两个核心功能：

音频捕获 + 语音识别 + 字幕翻译

这部分参考了 Buzz 的思路，但核心区别在于：Buzz 是对着麦克风说话，我想要的是”捕获系统音频”——也就是你电脑正在播放的任何声音。网页视频、本地音乐、视频会议……全部拿下。

捕获方式用的是系统层面的音频路由，识别和翻译接的是阿里云百炼的 API，响应速度在可接受范围内。

同声传译模式

这个功能做的时候想了很久。远程会议里，延迟是最大的敌人。我实测下来，端到端延迟控制在 2-3 秒左右，对于”传达意思”这个目标来说，已经能用了。

具体的交互逻辑是：你说话 → 语音识别 → 翻译成目标语言 → 语音合成播放给对方。整个链路是：Speech → ASR → NMT → TTS。

坦白说，这个项目刚跑通核心流程，还有很多要补的：

项目地址：https://github.com/jackyoung022/real-time-translator

如果你觉得这个工具有用，点个 Star 支持一下 🙏

效果截图