一个研究团队为智能眼镜开发了 OpenClaw 智能体,旨在探究持续感知的 AI 会如何改变人们使用智能体 AI 系统的方式。
来自科罗拉多大学、光州科学技术研究院和谷歌的研究人员共同推出了 VisionClaw——一种常开型的智能体 AI,它将持续的第一人称感知与数字任务的自主执行能力相结合。
该团队旨在弥合数字世界与现实世界之间的鸿沟:AI 智能体可以运行软件并处理网页任务,但它们无法“看见”物理世界。而智能眼镜通过摄像头和麦克风捕捉周围环境,却几乎无法自主行动。通过 VisionClaw,研究人员希望了解常开型 AI 在日常生活中的实用性,以及当感知和行动集成于一个系统时,现实世界中的交互会如何改变。
VisionClaw 的工作原理
VisionClaw 通过一款定制智能手机应用,将无显示屏的雷朋 Meta 眼镜连接到 Gemini Live 和 OpenClaw。眼镜将用户周围环境的连续音频流和单帧图像传输给 Gemini,Gemini 处理多模态输入后,要么直接通过语音回复,要么通过 OpenClaw 启动任务。该智能体可调用浏览器、电子邮件、日历或网页搜索等工具,然后将结果反馈给语言模型。这套方案将持续的第一人称感知与数字任务的智能体化执行联系了起来。
研究人员进行了两项研究,以评估 VisionClaw 在实践中的表现以及用户实际如何使用这类系统。
第一项研究:12 名参与者,将 VisionClaw 与两个简化版系统进行对比:
1. 运行在雷朋 Meta 眼镜上、能感知环境但无法执行通用智能体动作的常开型 AI。
2. 可处理智能体任务但没有持续环境感知能力的智能手机版 OpenClaw。
参与者需完成四项涉及真实物体或纸质文档的任务,例如从文件中记笔记、撰写邮件、研究产品或控制设备。
更快的结果,更少的精力
根据论文数据,VisionClaw 完成任务的速度根据不同任务提升了 13% 到 37%,用户评价其费力程度降低了 7% 到 46%。脑力负担、时间压力和挫败感均有所下降。总体成功率在统计上相似,但在记笔记任务中,VisionClaw 的成功率降至约 58%,原因是眼镜摄像头难以可靠捕捉小尺寸或视觉上有挑战性的物体(如收据)。
研究人员写道:“结果表明,与非常开型和非智能体基线相比,整合感知与执行能够加快任务完成速度,并减少交互开销。”
第二项自传式实地研究:四位论文作者在实际生活中长期使用该系统,记录了 55 个有效参与人天。在此期间,他们产生了 555 次语音发起的交互,总使用时长 25.8 小时。研究人员分析了实际使用场景,归纳出六个类别:信息检索(30%)、购物(19%)、保存内容(16%)、沟通(14%)、记忆辅助(12%)和控制(9%)。
此外,实地研究还发现了四种新兴交互模式:
1. 与 AI 智能体进行开放式、多步骤对话;
2. 自发捕捉信息,随后再回忆调用;
3. 更无干扰但有时可靠性较低的无屏 AI 使用;
4. 随着系统积累个人数据,其有用性随时间增长。
研究人员总结道:“除了性能提升,部署过程中的发现还揭示了交互方式的转变:任务是在进行中的活动里机会性地启动,执行过程越来越多地被委派而非手动控制。这些结果表明,可穿戴 AI 智能体正在形成一种新范式——感知与行动持续耦合,以支持情境化的、免提交互。”
VisionClaw:GitHub 开源项目
论文作者认为,VisionClaw 不仅指向单个用例,更预示着一种新的人机交互方式。与传统语音助手响应一次性指令不同,常开型系统更像一个持续的、感知情境的伙伴,其感知、记忆和行动协同工作。
他们也指出了挑战:持续录音带来的隐私风险、大量个人数据的处理,以及设计在后台保持无干扰系统的必要性。
技术方面需要注意的是:尽管 Meta 在美国已销售带显示屏的版本,但研究者使用的是无显示屏的雷朋 Meta 眼镜。
显示屏可以通过直接在用户视野中呈现结果来显著扩展和简化 AI 的使用,使其更易于一目了然地验证。
方法论上,小样本量限制了结论的普适性:第一项研究仅 12 人,第二项仅 4 人。更大的问题是,实地研究完全由四位论文作者(系统的构建者,深知其工作原理)进行。
此外,谷歌研究人员也参与了研究,而谷歌已宣布计划在今年晚些时候推出基于 Android XR 和 Gemini 的 AI 眼镜。因此,不应将该研究视为完全 unbiased(无偏倚)的评估。
论文《VisionClaw:通过智能眼镜实现常开型 AI 智能体》可在线免费获取,VisionClaw 本身在 GitHub 上开源。
夜雨聆风