乐于分享
好东西不私藏

我做了个无障碍沟通神器终于能和海外客户顺畅开会了

我做了个无障碍沟通神器终于能和海外客户顺畅开会了

一个痛点催生的 side project

事情要从一次糟糕的跨国会议说起。

那天我和一个海外客户开线上会,对方英语讲得飞快,我听得似懂非懂,开完会整个人都麻了。翻回去看录像重听,一边开翻译软件一边记笔记,效率低到想砸键盘。

之后我就去搜:”有没有能实时翻译音频的软件?” 搜了一圈,发现能用的要么是付费的闭源软件,要么是功能单一的语音识别工具。开源的方案里,Buzz 算是做得不错的,但它只能对输入的音频进行处理,没法直接捕获任意来源的声音。

我的需求很简单,也很贪心:

  • • 随便打开一个视频/音频,不管是 YouTube 还是本地文件,都能实时生成字幕并翻译
  • • 远程开会的时候,能把我的话实时翻译成对方的语言,让不同语言的人无缝沟通

找不到现成的,就自己造。

怎么做的

技术方案上,我把它拆成了两个核心功能:

音频捕获 + 语音识别 + 字幕翻译

这部分参考了 Buzz 的思路,但核心区别在于:Buzz 是对着麦克风说话,我想要的是”捕获系统音频”——也就是你电脑正在播放的任何声音。网页视频、本地音乐、视频会议……全部拿下。

捕获方式用的是系统层面的音频路由,识别和翻译接的是阿里云百炼的 API,响应速度在可接受范围内。

同声传译模式

这个功能做的时候想了很久。远程会议里,延迟是最大的敌人。我实测下来,端到端延迟控制在 2-3 秒左右,对于”传达意思”这个目标来说,已经能用了。

具体的交互逻辑是:你说话 → 语音识别 → 翻译成目标语言 → 语音合成播放给对方。整个链路是:Speech → ASR → NMT → TTS。

现在能做什么

  • • 任意音频实时字幕:打开任何视频或音频应用,字幕实时生成
  • • 多语言翻译:在字幕的基础上叠加翻译,支持主流语言互译
  • • 同声传译模式:语音输入 → 实时翻译 → 语音合成输出,远程会议直接用

还在路上

坦白说,这个项目刚跑通核心流程,还有很多要补的:

  • • 声音克隆:现在的合成声音还不够自然,我希望未来能让翻译后的声音尽量接近原声
  • • 本地模型支持:目前依赖云端 API,部分用户可能有离线需求
  • • 多语言模型适配:更多小语种的支持

项目地址:https://github.com/jackyoung022/real-time-translator

如果你觉得这个工具有用,点个 Star 支持一下 🙏

效果截图

本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » 我做了个无障碍沟通神器终于能和海外客户顺畅开会了

猜你喜欢

  • 暂无文章