
Maruchi Kim, Rasya Fawwaz, et al.
智能手机摄像头和部分智能眼镜已能让用户对AI模型提问,获取眼前场景的相关解答。很快,这类功能将拓展到耳机等其他设备上。
华盛顿大学的研究人员研发出了一款名为VueBuds的耳机,每只耳塞上都集成了一枚小型低分辨率摄像头。这款原型耳机具备与雷朋Meta智能眼镜类似的功能,比如翻译外文标识、辅助视力不佳的使用者,或是在徒步时识别植物种类。
智能眼镜本身存在诸多短板,包括隐私问题与佩戴舒适度。其隐蔽式摄像头因可能在路人不知情的情况下录制画面,且视觉敏感数据的最终去向存疑,一直饱受批评并引发相关诉讼。
而且并非所有人都喜欢戴眼镜 —— 有些人甚至为了不戴眼镜而选择隐形眼镜,领导这项VueBuds研究的华盛顿大学教授Shyam Gollakota就是其中之一。“几乎人人都在戴的可穿戴设备,其实是耳机,”他表示。其团队提出,用耳机作为智能眼镜的替代方案,会更低调、也更利于隐私保护。
不过这项研究的核心目的,是证明在耳机这种小巧的佩戴形态上实现视觉AI是可行的。“传统上,耳机只局限于音频交互,”Gollakota说,“我们证实了,我们完全可以在这个尺寸内打造一套系统,并通过运行视觉大语言模型实现丰富的智能功能。”
该研究成果已于今日在巴塞罗那举办的ACM人机交互大会上正式发布:
https://chi2026.acm.org/。
为何耳机是理想的智能设备
Gollakota及其团队并不认为VueBuds会是视觉AI的唯一交互载体。
“可穿戴设备非常私密。”Gollakota实验室的博士生Maruchi Kim说道。有人可能更喜欢眼镜或手表,也有人偏爱戒指等设备,因此 Kim认为,未来不会出现一款一统天下的设备。“我们只是想开辟一个新品类,证明智能眼镜能做到的一切,耳机同样可以实现。”
话虽如此,耳机这种交互形态也具备一些优势。由于耳机已普及度极高,人们接受这项技术的意愿可能更强。此外, Kim表示:“人们早已习惯把耳机放回充电盒里。”智能眼镜可能带有近视度数,使用者需要全天佩戴。但“如果你想确保摄像头绝对没有在录制,耳机这种形态就很友好 —— 不想用的时候直接收起来就行”。
Kim还提到,用户感兴趣的许多AI功能都属于间歇性使用场景。比如翻译路牌或包装上的成分表,并不需要持续的视频流。
带摄像头耳机的核心挑战
Gollakota表示,要实现具备视觉功能的耳机,需攻克三大关键难题:在严苛的尺寸、功耗与重量限制下容纳摄像头;数据传输;以及在耳戴式形态下构建完整的视觉场景。
摄像头通常功耗较高,这是首要难题。“耳机电池的大小,大约只有智能眼镜电池的十分之一。”Kim说道。视觉数据所需带宽也远高于音频,因此智能眼镜录制的视频一般通过WiFi传输至云端AI模型处理。WiFi带宽充足,但耗电量也更高。
VueBuds通过蓝牙传输低分辨率灰度图像。大多数设备厂商都倾向于尽可能传输更多数据,但Gollakota团队采取了相反思路。他们想弄清楚,视觉大语言模型最低需要多高分辨率才能提取有效信息,最终选用了一块324×324像素的图像传感器。
除了功耗和带宽问题,研究人员还必须确保耳机上的摄像头能获得足够的视野。将摄像头放在耳朵位置时,脸部会遮挡两侧镜头,形成盲区。但研究团队把摄像头稍微向外侧偏转一个小角度(5度或10度),再将画面拼接在一起,发现可以重建出视野更完整的广角场景。不过,这也会在人脸正前方约20厘米以内的区域,留下一小块近距离盲区。
研究人员用四种不同的视觉大语言模型对这款耳机进行了测试。在表现最优Qwen2.5-VL模型参与的用户测试中:
物体识别准确率约82%
文字识别准确率94%
翻译准确率84%
整体综合准确率87%
在17项任务里,VueBuds的表现与雷朋Meta智能眼镜基本相当。
未来,团队希望为系统加入彩色成像功能。Kim也在研究通过内置JPEG编码器来提升有效分辨率,这将大幅减小待处理图像的体积。
智能耳机的隐私担忧
许多用户对智能眼镜的隐私与监控问题一直心存顾虑。而随着新证据表明,制造这类眼镜的公司可能不当处理采集到的数据,这种担忧正进一步加剧。
既然存在这些顾虑,我们还该在另一款可穿戴设备上加装摄像头吗?华盛顿大学的研究人员表示,与如今的智能眼镜相比,VueBuds极简的图像采集方式对隐私更友好。
Gollakota称,一方面,该系统设计为在手机或其他本地设备上运行,数据不会上传云端。此外,VueBuds只拍摄静态照片。Meta智能眼镜的主要用途之一是录制视频,但他补充道:“说到底,没人想看低分辨率的灰度视频。”
此外,VueBuds通过语音指令触发。“这种语音启动的方式,意味着你周围的人都能知道你在进行拍摄操作。”而智能眼镜只需轻按按钮就能开始录制。
Gollakota指出,大多数人已经习惯了几乎所有设备都配备麦克风,因为语音指令等功能带来了足够的实用性,而且人们已经对苹果等销售内置麦克风设备的公司建立了信任。未来几年,随着视觉智能技术的发展以及人们对它的信任程度变化,类似的模式是否会出现,还有待观察。
另有传闻称,苹果也在研发新一代AirPods,将集成红外摄像头以实现手势识别并优化空间音频。这类耳机不会具备普通摄像头所能实现的视觉智能功能,但这也表明,厂商正越来越希望拓展传统上仅用于音频的耳机的能力边界。
Gollakota表示:“耳机是‘我们当下最成功的可穿戴设备,而目前它还仅限于音频交互’。引入视觉智能后,它将成为比现在更丰富、更强大的交互终端。”
文章来源:IEEE电气电子工程师学会

IEEE Spectrum
《科技纵览》
官方微信公众平台

夜雨聆风