当AI学会＂读心术＂:阿里千问想做的,不只是一副眼镜

01

当AI开始"读心"

上海前滩中心65层，云涧空间。下午两点的阳光极具穿透力，透过巨大的落地窗洒在地板上。

我刚戴上千问AI眼镜，它就传来"新闻播报"——而且正是我想听的海外科技新闻速读。

"它是怎么知道我的想法的？"

作为一名智能眼镜赛道的长期观察者，我脑海中闪过的第一个念头不是惊喜，而是审视。当一副眼镜开始尝试读懂你的意图、在你开口之前就给出答案，这究竟是人机交互的伟大进化，还是一种全新的"注意力入侵"？

这套"读心术"能给我们带来什么？它又是如何在几十克的躯壳里跑通的？带着这两个问题，我在5月7日和8日连续两天深度体验了千问AI眼镜S1的新版本，并在8日上午专访了阿里千问AI眼镜硬件产品负责人晋显。

🔺阿里千问AI眼镜产品负责人晋显在活动现场

02

跟着一天走：五个场景，五种"读心"

理解这套"读心术"最好的方式，不是看参数表，而是跟着真实的一天走一遍。阿里为千问AI眼镜这次升级设计了一条完整的全天候生活轨迹，从清晨到深夜，覆盖了现代都市人高频使用的五个显性场景与一条健康暗线。每一个场景里，"主动"的程度和形态都不一样，但背后的逻辑是一致的：让眼镜在你需要它的时候出现，在你不需要它的时候消失。

清晨：早安电台+智能陪跑

天刚亮，戴上眼镜的那一刻，千问不需要你开口。早安电台自动触发——天气播报、定制新闻、你爱的歌单，依次进入耳朵。手机不用拿出来，不需要解锁，不需要点开任何应用。

跑步时的体验更能说明问题。说一句"你好千问，开始跑步"之后，配速、距离、消耗卡路里同步显示在视野里。眼镜知道你在跑步这件事，不仅是因为你告诉了它，更是因为它感知到了你的步频和移动速度，从而主动做出适配：系统不仅会自动播放音乐，而且还会智能推荐节奏感更强、专门适合跑步听的专属歌单。

已关注

关注

重播分享赞

视频详情

🔺说出“开始跑步”后，眼镜自动开启音乐，并显示配速、距离、消耗卡路里数据，图源：AR圈

除了基础的伴跑，我还发现了一个极具亮点的"高光时刻"功能。这是一种典型的条件触发（If-Then）机制：你可以通过可以通过语音一句话设置触发，也可以在APP内提前设定一个门限条件（例如"当配速即将达到6'00''时"），并绑定一个自动操作（如"录屏15秒"）。在实际起跑后，一旦系统感知到你的配速突破该阈值，眼镜就会自动无感抓拍下这段高光视频。这种体验彻底跳出了冷冰冰的数据记录，让眼镜化身为一个懂你状态的智能陪跑教练。

🔺高光时刻的触发阈值可以在手机APP设置，图源：AR圈

更令人惊喜的是，据透露该功能在不久后即将迎来一次新的升级：届时用户将不仅可以用手机APP设定阈值，还可以直接对眼镜说一句"你好千问，如果我配速快过每公里5分半就自动录一段视频"，即可通过纯自然语音直接完成条件阈值的设定。

这是主动服务极具穿透力的形态。它不抢戏，只在你切换状态的节点或达成某个特定条件的瞬间主动出现——从静止到运动，从室内到室外，从休息到工作。这种"感知状态切换"与"个性化条件触发"融合的能力，是过去所有单纯依靠唤醒词的AI助手都做不到的事。它改变的不只是交互方式，而是眼镜在你生活里的存在感：从一个等待指令的工具，变成了一个跟着你节奏走、甚至能为你提供情绪价值的伴侣。

上午：录音纪要+AI克隆同声传译

开会，是最能体现主动服务价值的场景之一，也是商务用户最容易被这款产品说服的切入点。

已关注

关注

重播分享赞

视频详情

🔺会议纪要新增图文总结和脑图等新功能，图源：AR圈

千问AI眼镜内置录音纪要功能，会议进行时持续录音，结束后自动整理成能一图读懂要点的图文会议稿件，关键结论和待办事项单独提取。这个功能本身已经足够实用，但在现场体验后，更让我眼前一亮的是AI克隆同声传译。

之前的同声传译，翻译过来的声音都是固定的音色，而现在阿里千问眼镜可以直接克隆本人音色。我实际测试了让对方说中文或者英文，听到的音色几乎与本人没有区别。这个应用，已经不需要再去看翻译字幕了，直接听即可。这样一来，眼神始终可以落在对方脸上。整个沟通过程中，我没有一次低头看手机，没有一次打断对方说"等一下，我查一下翻译"。翻译稳定跟上讲话节奏，延迟控制在可接受范围内。

已关注

关注

重播分享赞

视频详情

🔺AI克隆同声传译实拍，图源：AR圈

这种"眼神在场"的沟通质感，是手机翻译软件在物理上无法实现的。用手机翻译，你必然要低头，必然要分心，对方感受到的是你在看手机而不是在听他说话。眼镜翻译和人声克隆解决的不只是语言障碍，解决的是跨语言沟通时人与人之间的那种微妙疏离感。

对于有大量涉外沟通需求的商务人士来说，这一个场景就足以支撑购买决策。

中午：扫街探店+同款比价+极速支付

午间这条场景链，是阿里生态整合能力最直接的展示。

已关注

关注

重播分享赞

视频详情

🔺阿里生态整合能力展示，图源：AR圈

走近一家店面，可以直接问眼镜这家店怎么样。眼镜自动识别门店，给出评分、人均消费、推荐菜品等等信息。在展区模拟的街边探店场景里，这个体验相当流畅。

逛街时看到心仪的物件，对着它拍一下，全网比价结果直接出来。这个功能的价值不只是省钱，更在于它把"值不值得买"这个判断从事后行为变成了当场行为——你站在货架前就能知道这个价格是不是最优，不用回家再搜。

结账时的极速支付是整条场景链最流畅的收尾。支付宝账号绑定眼镜后，扫码支付在视野里完成。这个体验在现场测试时几乎是无感的——你只是看了一眼，然后东西就付完了。另外值得一提的是，之前支付是需要语音确认的，对于社恐的人来说会比较尴尬。而新的升级可以无需语音“确认”，只需要点头或滑动镜腿即可完成付款，感觉好了很多。不过也期待未来能推出完全不需要说话的版本。

这套体验能跑通，背后是支付宝、高德、淘宝三套数据底座在同时支撑。缺少任何一个节点，整条服务链路就会断裂。这不是硬件能力，这是生态能力——而这恰恰是其他AI眼镜品牌，最难复制的东西。

🔺阿里千问AI眼镜支付画面展示，图源：AR圈

下午：实况对话（逛展场景）

千问AI眼镜的"实况对话"功能，把多轮对话的上下文留存在眼镜里。你可以对着同一个对象连续追问，它记得你上一个问题是什么，回答会接续上下文而不是每次从零开始。这听起来简单，但在真实使用中差别很大。

在现场"午后花园"展区，我在一副油画前连续提了三个问题。三个问题没有一次重新唤醒，眼镜始终保持着对话的连贯性。

🔺由于实况过程中暂时无法对眼镜同步录屏，因此这里通过手机app的记录呈现实况对话的记录，图源：AR圈

这对逛展、参观博物馆、问诊、法律咨询等"需要连续深挖"的场景价值极高。过去你跟AI说话，每一句都是孤立的；现在它开始能跟着你的思路走，这是从工具到助理最关键的一步跨越。

值得一提的是，这个场景也让双目空间3D显示的价值体现得格外直观——字幕带有空间深度地悬浮在画作前方，仿佛真实呈现在现实空间里，而不是贴在镜片上的平面贴纸。这一点，我们在下面的章节会专门展开。

晚间：拍照答疑

晚间场景偏向学习和知识获取。对着一些题目拍照，千问直接给出答案，并主动追问"要不要听解析"——它不只是给你结果，而是带着引导逻辑，像一个有耐心的辅导老师，问你下一步想做什么。

在现场的体验里，我用眼镜对准了几道不同领域的选择题，拍照后两秒内得到了答案，随后眼镜主动说"这道题需要我展开讲一下吗"。这个主动追问的设计，比单纯给答案多走了一步，也是"主动服务"在学习场景里最直接的体现。

对于有孩子的家庭用户，或者正在备考的人群，这个场景的实用性相当直接。更重要的是，这个场景让眼镜从白天的工作效率工具，延伸成了晚间的学习辅助工具——一副眼镜覆盖了一天里大部分的高频需求。

🔺拍照答疑功能在手机端的记录，图源：AR圈

向内感知：一条贯穿全天的健康暗线

除了上述按时间线展开的向外理解与效率辅助，千问AI眼镜的这次升级还暴露了另一个底层野心：向内量化身体。相比于智能手表只能受限于手腕，智能眼镜占据了现代职场人最脆弱、也最核心的生理枢纽——颈椎。

基于头部姿态传感器的持续运作，千问AI眼镜在健康中心里构建了一套极具针对性的“颈椎健康”模型。它摒弃了笼统的步数统计，而是将用户的颈椎负荷实时划分为“良好”、“轻度”与“重度”三个阶梯。在提醒机制上，系统表现出了极佳的分寸感：它并不会因为你偶尔的低头就频繁报警，只有当底层数据确认颈椎连续处于“重度负荷”超过15分钟时，才会触发“颈椎疲劳提醒”，温柔地提示用户抬头放松。

🔺颈椎健康记录能在手机端查看并设置健康提醒，图源：AR圈

而在更广阔的泛运动与基础健康层面，千问同样补齐了体验闭环。配合前文提到的“状态感知”无感触发机制，眼镜能顺滑地接管“户外跑步”与“户外骑行”的数据记录。运动结束后，不仅能查阅精确到秒的平均配速、用时与千卡消耗，还能直接生成包含高精度GPS轨迹路线的实景分享卡片，一键同步至社交网络。

此外，在最基础的“久坐提醒”上，阿里依然展现出了对打工人真实场景的细腻观察：除了支持自定义（如60分钟）的起身间隔外，还直接在首层设置了“午休免打扰”（如12:00至13:30）的强硬开关。

这套健康监测逻辑的全面铺开，彻底丰满了千问AI眼镜的“主动服务”的骨架。它证明了这副眼镜不仅能在你工作时充当外脑，更能成为一个全天候蛰伏在耳畔、时刻关注你生理底线的无声伴侣。

🔺手机端的健康中心可以查看颈椎、运动与设置久坐提醒、健康提醒，以及分享户外骑行运动记录，图源：AR圈

场景小结：一天的"读心术"说明了什么

从清晨的早安电台到晚间的拍照答疑，再到贯穿始终的健康凝视，这六个切面走下来，有一个感受越来越清晰：千问S1这次升级的核心，不是某一个单点功能的突破，而是用"主动感知+场景适配"重新定义了AI眼镜应该如何融入一个人真实的一天。

每个场景里的"主动"都是克制的。它不会在你跑步时突然说"检测到你在跑步，需要推荐运动食谱吗"，也不会在你看展时每走三步就触发一次介绍。它在该出现的时候出现，不该出现的时候安静地待着。这种克制，比任何一个单点功能都更难做到，也是这款产品最值得认真对待的地方。

但随之而来的问题是：这套"读心术"背后的技术逻辑是什么？持续感知不会把电量榨干吗？主动触发的边界是怎么划定的？这些问题，在8日上午对晋显的专访里，得到了清晰的答案。

03

双目空间3D显示：突破二维割裂感

如果说"主动服务"是软件层面的激进，那么系统级空间3D显示就是硬件层面的硬核秀肌肉。

目前市面上绝大多数近眼显示都有一个通病：二维信息的"膏药感"。无论是音乐界面还是翻译字幕，都像是强行贴在单侧镜片上的贴纸——不仅遮挡视线，还与现实世界的深度完全脱节。你清楚地知道那个绿色箭头是虚假的，它只是一层覆盖在现实上的滤镜。

🔺其实这里的每个图标都是3D的，而且是动态3D，但受限于我们的媒体形式，只能依靠大家脑补了，图源：AR圈

在现场的街区实测中，千问S1的双光机双目MicroLED方案展示出了截然不同的体验质感。带有空间深度的UI出现在每个角落——菜单如此，具体应用亦如此。这种"空间感"一旦体验过，就很难再接受单眼的平面显示方案，就像从立体声退回单声道。

唯一遗憾的是，这种体验几乎无法通过图像传达——它本质上依赖双眼视差，是只属于佩戴者的感知，镜头捕捉不到。只能请各位自行脑补了。

🔺阿里千问AI眼镜S1搭载双光机，图源：AR圈

当然，双光机方案不是免费的午餐。两颗光机意味着更高的硬件集成难度、更大的散热压力，以及对镜腿空间的极致压榨——所有模块必须在宽度仅7.5mm的镜腿截面内共存。

但阿里押注双目，显然不只是为了一个更好看的信息提示。

千问S1真正激进的地方在于：3D显示被写进了系统级UI规范。这不是某个功能碰巧支持空间感，而是每一个菜单、每一个界面，都在遵循同一套3D视觉语言——重要内容浮在更近的层次，背景信息退入更深的底层，信息的主次关系通过空间距离直接传达给眼睛，而不需要大脑费力去解析颜色、字号或加粗。

这套逻辑有点像苹果的Human Interface Guidelines：不是一次性的炫技，而是一套所有应用都必须遵守的设计语言。区别在于，苹果的规范在平面屏幕上营造层级感，而千问S1的规范，是在真实的三维空间里建立层级。

结果是：你看一个界面的速度变快了。因为空间深度本身就是信息——大脑处理"这个东西离我更近"的速度，远快于处理"这个字更粗所以更重要"。这是人类视觉系统几百万年进化的结果，3D规范只是第一次让智能眼镜学会了用这门语言说话。

对于复杂度的代价，晋显在采访中没有回避：

"我们在硬件选择上从没想过走容易的路。双光机双目是我们认为未来AI眼镜应该走的方向，现在承受这个复杂度，是为了在正确的路上建立领先。"

04

"读心术"背后：算力与克制的博弈

从"指令驱动"到"意图感知"

千问AI眼镜这次软件升级的核心关键词只有两个字：主动。

过去的交互逻辑是"指令驱动"——你不开口，它就装死，等待唤醒词。而现在，它试图成为真正的生活助理。但聪明之处在于，它没有走让摄像头和麦克风时刻保持"微觉醒"那条既耗电又侵犯隐私的笨路，而是切换到了"状态感知"与"底层传感器融合"的路径。

例如，系统能精准感知"眼镜戴上"这一动作，结合当前时段自动触发相应任务（如晨间播报）；或者通过IMU捕捉到用户正在跑步，顺势启动运动音乐并开启后台记录。感知在前，响应在后，全程无需一句唤醒词。

意图感知：化解矛盾的底层逻辑

尽管绕开了音视频常驻监听，多传感器的持续运转与全天候续航之间，依然是一对结构性矛盾——感知越多，耗电越快；电越快耗完，用户越不想戴；越不戴，数据越少，主动服务就越没有意义。

在上午的专访中，晋显没有回避这个问题。他坦言，当AI与人的交互频次呈指数级上升，功耗的"负利"必然随之而来，关键在于如何让"正利"远大于"负利"。他将千问S1的解法提炼为三个层面的克制：

首先是算力克制。主动服务不靠摄像头全程狂奔，而是依赖极低功耗的传感器进行轻量触发。

其次是场景克制。必须精准区分用户的明确意图与模糊意图，具备'场景屏蔽'能力——如果传感器察觉到用户正在沉浸式通话或登台演讲，系统会自动静音退让。

最后是交互克制。信息呈现必须像手机顶部的通知栏，只占边缘视线而不遮挡全屏；同时，必须把随时打断、随时修改的绝对控制权还给用户。主动智能绝不能变成让人感到失控的野蛮入侵。

这三条克制，对应着一套严密的软硬协同机制。

在硬件底层，是极致的主副分工。S1没有让主芯片全程待命，而是把环境感知压在协处理器（如BES2800）上充当"神经末梢"，只有当本地判断触发了阈值，才瞬间唤醒主处理器与云端大模型介入。"本地轻量感知＋云端重度推理"的端云协同，稳稳守住了全天候续航的红线。

在软件表层，是空间级的防打扰设计。结合双目3D显示，千问S1的主动推送不再是生硬贴在视线中央的"膏药"，而是带有空间深度地悬浮在余光边缘。点头、摇头，或一句语音，随时可以回应，也随时可以打断。

这套逻辑彻底厘清了"主动服务"的伦理边界：感知在后台，呈现靠边缘，控制权永远在人手里。

"分寸感"：最难调校的不是算法，是克制

主动服务最难跨越的鸿沟，从来不是技术瓶颈，而是"打扰"的边界。每隔几分钟就强行刷存在感的眼镜，和永远装死的眼镜一样令人沮丧——前者制造焦虑，后者形同虚设。

这条线究竟画在哪里，是整个产品体验最难拿捏的灵魂所在。晋显透露，内部在触发阈值上选择了极其保守的策略：

"比如早晨通勤场景，它只做精准播报，内容高度可自定义，绝不输出任何多余的废话。主动服务的高级感，恰恰来自这种绝不逾矩的分寸感。"

传统硬件的"主动"往往沦为暴力的"打扰"——无效通知推送得越多，用户越想一键关闭。千问S1的底层逻辑是反共识的：宁可少触发，也绝不触发错。

在两天的深度体验里，我确实未曾遭遇一次唐突的推送。它的介入总是恰好卡在那个微妙时刻——或者更准确地说，卡在我"可能需要、但还没意识到自己需要"的隐性萌芽处。这种克制的分寸感，是任何产品都无法靠堆料来伪装的成熟度。

当然，触发边界的最终标定绝非一日之功。实验室的演示场景永远是理想化的真空，这条线最终该落在哪里，只有数百万用户的真实体感才能给出最终裁判。

05

和美国对手PK

提到AI眼镜，自然绕不开Meta。但如果还拿无屏的Ray-Ban Meta去对标千问S1，是错位拉踩。真正与千问S1在同一牌桌上的，是搭载了近眼显示的Ray-Ban Meta Display。

把两款产品的核心维度放在一起，差距比想象中要大。

重量：50克和69克之间隔着什么

千问S1的整机重量控制在50克，恰好压在行业公认的"舒适临界线"上。Ray-Ban Meta Display的重量是69克，标准款如此，大号款更甚。

19克的差距，听起来不大，戴在脸上是完全不同的感受。50克是你能忘记自己戴着眼镜的重量，69克是你会持续感知到鼻梁压力的重量。一副你会想一直戴着的眼镜，和一副你会时不时摘下来休息的眼镜，在"主动服务"这个命题上的价值截然不同——主动服务的前提，是你愿意一直戴着它。

🔺Ray-Ban Meta Display眼镜799 美元，如加配近视镜，整套价格超过7千元人民币，图源：eBay

显示方案：双目3D和单目2D的本质差异

千问S1采用双光机双目MicroLED方案，支持双眼空间3D显示。Ray-Ban Meta Display虽然是彩色显示，但采用单目方案——一块600×600像素的屏幕只置于右侧镜片，只能呈现2D效果。

这不只是参数层面的差异。单目显示的根本问题在于不对称：你的右眼在看屏幕，左眼在看现实，大脑需要持续协调两个不同的视觉输入，长时间使用极易引发眼部疲劳，部分用户甚至会出现眩晕症状。双目显示从根本上消除了这个问题——两眼都能看到信息，视觉负担大幅降低。

在实际体验里，这个差异在"逛展看画"和"会议同传"两个场景里体现得最明显。字幕出现在双眼视野里和只出现在右眼里，是完全不同的信息获取体验。

续航策略：热插拔vs物理失联

千问S1采用热插拔双电池设计，配合便携换电仓，在不关机、不中断音频和服务的情况下瞬间换电，真正实现全天候不断电。Ray-Ban Meta Display内置不可拆卸电池，电量耗尽后必须摘下放回充电盒，存在强制"物理失联"的使用断点。

对于主打"主动服务全天候"的产品来说，这个设计差异直接决定了产品承诺的可信度。你不可能对一副需要定时充电、强制摘下的眼镜建立"它一直在"的信任感。

06

53%之后：阿里千问真正想做的是什么

销量第一只是入场券

自3月8日正式开售以来，千问AI眼镜线上累计销量已超过国内AI眼镜市场总份额的53%，位居绝对头部。

但在科技行业，销量第一只是留在牌桌上的入场券。透过S1这轮升级，我们清楚地看到，阿里的野心远不止于此。千问真正想做的，是下一个"物理世界的AI索引入口"——一个能够持续获取用户第一视角、实时生活数据的连接节点。

这个定位背后有一个关键的数据逻辑：每一次用户用眼镜问路、识物、翻译、支付，都在帮助千问大模型理解用户的真实生活语境。这是手机APP的交互日志无法比拟的数据质量——第一人称视角、实时发生、多模态感知，且用户处于主动使用状态而非被动刷屏。这些数据将成为阿里AI能力迭代最稀缺的燃料，也是AI眼镜这个品类对巨头们真正的战略价值所在。

生态开放：自留地，还是公共市场？

当被问及千问眼镜未来的生态边界时，晋显的回答颇具深意。

硬件接口：时机未到，并非不开放

在他看来，硬件开放的核心障碍不是意愿，而是时机。AI眼镜目前仍处于渗透初期，整体设备保有量有限——在这个规模下，即便将硬件接口对外开放，第三方开发者算一算ROI也很难跑通，投入转化的积极性自然不高。与其过早开放却换来一片冷清，不如先把设备保有量做上去。

"我们并没有说现在就主动把硬件接口做开放。但当有了一定市占、一定设备保有量之后，我觉得是有可能的。"

他也坦言，从长期来看，硬件本身并非千问眼镜的终极护城河——随着产业链成熟，关键器件的可获得性提升，类似架构的产品迟早会出现。真正的核心竞争力，始终是整套AI解决方案，是"AI生活助理"这个定位本身。

软件生态：从重度自研到平台开放

软件侧的逻辑分两个阶段理解。

第一阶段，千问选择了重度自研。这个阶段的首要任务是"为AI眼镜正名"——验证市场、打造标杆场景。如果过早引入研发资源有限的第三方，一旦体验接不上用户期待，口碑崩塌的代价远大于开放带来的收益。即便如此，晋显坦言目前依然面临严峻压力，现有功能仍需持续打磨。

第二阶段，平台开放的时机正在临近。随着特定场景、特定人群、特定行业的差异化需求不断涌现，全靠自己重度研发既跑不过时间，也撑不住投入。目前团队已完成眼镜近端、APP移动端、云端能力的全面梳理，SDK规划已从定义层面落地，正进入快速开发周期。

"未来无论是各种应用、Agent，还是广场、商店，我们都会持续做好版本管理和开发者激励，把基于千问AI眼镜的开发成本和周期压缩到最低。"

两段话合在一起，是同一套产品哲学的延伸：在规模与生态之间，千问选择先把规模做扎实，再把门打开。

06

结语

离开上海前滩中心的时候，我从便携换电仓里抽出一块满电电池，顺手完成了热插拔，眼镜里的音乐会继续播放。

这个细节，某种程度上是千问S1的缩影：硬件躯壳还是熟悉的配方，但整套系统运转的方式，正在悄然改变。

从"你问我答"到"主动读心"，从二维贴纸到双目3D呈现，从单一设备到开放生态的野心——千问S1的这轮升级，走的是一条激进且代价清晰的路：用更高的工程复杂度和功耗预算，换取更接近"真正懂你的助理"而非"智能配件"的产品体验。

这条路走得通吗？现在下结论还为时尚早。主动服务的分寸感需要在数百万用户的真实生活里被校准，生态开放的承诺需要开发者社区用脚投票来验证。这些都不是靠一次软件升级能解决的问题。

但至少，在AI眼镜赛道百镜大战、大多数参与者还在用堆摄像头规格和低价抢市场的当下，千问S1提出了一个更有价值的问题：

一副眼镜，什么时候才算真的"懂你"？

END

加入AR圈社群，与全球行业精英同行

我们的社群成员来自：📱终端巨头：华为/小米/苹果/Meta/Google/三星... 👓垂直领军：Rokid/XREAL/雷鸟/影目/陆逊梯卡... 🏭核心供应：高通/索尼/歌尔/舜宇/京东方... 💰投资机构：红杉/IDG/高瓴/经纬/深创投... 🚗跨界生态：字节/腾讯/理想/吉利/美的...覆盖CEO、产研、市场、投融资各领域。

📩 立即扫码/添加 18026953759（小黄）入群，期待与您见面！

联系我们

申请入群：18026953759（小黄）

商务合作：15920000920（小雪）

爆料/投稿：15920000920（小雪）

行业内参：加入XR研究院