速递|韩国POSTECH研发AI颈带:90分贝噪音下捕捉喉部微妙运动还原语音

当你说出“Hello”时,除了能听到的声波,颈部肌肉和皮肤还会同步产生肉眼难以察觉的微米级运动,这些运动构成的“无声指纹”可能比声音本身更可靠。韩国浦项科技大学的研究团队将这一原理转化为技术,研制出一款可穿戴AI颈带,能在高达90分贝的噪音环境中“读取”喉部皮肤的运动模式,并通过AI将其还原为用户本人的声音。这项技术为喉部疾病患者、高噪音作业人员乃至任何无法发声的场景提供了一种全新的沟通方案。

CVOS传感器:精度超越传统应变传感器千倍的核心突破
该系统的技术核心在于浦项科技大学团队自主研发的CVOS传感器。传感原理从传统电阻式响应转变为基于计算机视觉的实时光学追踪:传感器由柔软硅胶基底制成,表面密布高对比度微型标记点,工作时内置微型摄像头和LED照明以每秒数十帧的频率持续捕捉标记点的位移,通过追踪二维方向上的位移矢量,实时生成皮肤的多轴应变分布图。

传统一维应变传感器难以精确捕捉喉部肌肉的复杂拉伸与扭转运动,而CVOS传感器通过二维应变映射完整还原了声带周边的机械动态。性能方面,CVOS的灵敏度系数高达3625,是同类型传统柔性应变传感器的数倍至数十倍;能够检测小至0.02%的皮肤微变形;经10000次加载循环测试后性能无明显衰减;非线性误差仅约1%,整套系统在多次重复贴合佩戴时可自动校正位置偏差,无需每次重新手动标定。

AI解码还原语音:目前支持26个单词,未来可期
光有精准的传感器还不够。每秒生成的大量应变图序列,需经由AI系统解码为用户期望输出的词语,并最终合成为个性化的声音。
研究团队构建了一套结合卷积神经网络与Transformer语言模型的智能解码管道:CNN专注于提取应变映射图中的局部形变空间特征,Transformer负责分析这些特征随时间的演化规律,最终联立推断发音动作对应的完整单词。为让AI高效学习,团队选择以北约音标字母表(Alpha、Bravo、Charlie…Zulu)构成的26个标准化单词作为初始训练语料库。

实现个性化语音重建是最大的亮点之一,用户仅需事前录制不到10分钟的语音素材,AI即可训练出一个能够精准匹配其本人音色、语调和口音的语音合成模型。在测试条件下,该系统对26个北约音标单词的识别准确率达到85.8%。面对约90分贝(相当于繁忙建筑工地)的白噪音干扰,系统依然能保持最高33.75dB的信号噪声比,明显优于传统商业肌电传感系统在同等环境下的表现。即使在步枪开火测试中,系统同样保持了稳定可靠的性能。
目前该系统局限在约26个单词的固定词组上,在用户步行或进行大幅度头部摆动时准确率最低降至39.72%。研究团队已在《Cyborg and Bionic Systems》期刊发表上述成果(DOI: 10.34133/cbsystems.0536),计划将语料库规模从当前的26个单词大幅扩展,同时进一步优化算法削弱剧烈运动带来的干扰。
这项技术有望帮助因喉癌等原因切除声带的患者重获自然的沟通能力,也适用于嘈杂工业现场、抗震救灾、军事警戒等场景下的无声通讯,教育工作者在图书馆讲授手语时同样能借助它辅助教学。领导该研究的浦项科技大学教授Sung-Min Park表示:“这项技术之所以意义重大,是因为它具有广泛的潜在应用——从帮助喉切除患者,到在嘈杂工业环境中进行通信,甚至支持无声对话。”















夜雨聆风