每日AI热文早播 | 2026.06.06
今日共 8 篇热门AI资讯,涵盖最新技术动态与行业趋势。
1. 狂揽10亿!让小米理想上头的95后学霸,带着他的新“手”海外狂吸粉 [2026-06-05]

中国具身智能产业正经历一场由灵巧手驱动的范式转变。杭州公司曦诺未来Xynova成立仅一年半,便凭借其95后学霸创始人夏宇轩的创新理念,推出了全球首款采用"腱绳+直驱"混合驱动的Flex 2灵巧手,引发了宁德时代、京东、小米、理想汽车四家行业巨头的集体关注与投资。累计融资规模已逼近10亿元人民币,充分证明了资本市场对这匹黑马的强烈信心。在奥地利ICRA 2026机器人与自动化盛会上,Flex 2首次亮相便惊艳全场,其精细操作能力——无论是执笔绘画还是双手协作铲爆米花——都展现出了与人类手指相媲美的灵活性与精准度。
灵巧手被称为具身智能进工厂进家的"最后一厘米",但行业长期受困于"成本高、不稳定、不可靠"的死穴。传统技术路线各有短板:连杆驱动结构刚性但缺乏柔顺性;纯腱绳驱动虽有弹性但绳索易蠕变磨损导致长期可靠性不足;纯电机直驱精度高但手掌笨重发热,且存在断电后物体脱落的"自锁"安全隐患。曦诺未来Xynova从人体仿生学出发,答案是:人的大肌肉群集中在前臂,手掌本身极轻。Flex 2将大功率驱动单元全部后置到小臂腔体,手掌末端仅保留微型直驱电机,实现了手掌仅400克的轻盈手感,释放机械臂有效载荷,动作响应更快、能耗更低。
宁德时代、京东、小米、理想汽车四家横跨新能源、物流、消费电子、汽车制造的巨头"组局",并非偶然。宁德时代的电池工厂需要精密的模组抓取与堆叠操作;京东的亚洲一号智能仓依赖柔性分拣与海量SKU处理能力;理想汽车的总装车间里,线束插接、卡扣装配等"最后20%"核心岗位至今无法自动化;小米则看重消费电子与智能制造的协同生态价值。这四家公司覆盖了中国智能制造从能源到终端、从生产到流通的完整链条,而他们共同押注的,是能让机器人在真实物理世界中完成精细操作的"灵巧手"。这个逻辑与特斯拉自研灵巧手不谋而合——末端执行器是人形机器人从"能移动"到"能干活"的关键卡口,谁掌握了这个"接口",谁就掌握了具身智能生态的入口。
2. 谁先跑进10万个家庭,谁就赢了机器人第一局 [2026-06-05]

2026年的具身智能赛道,热得发烫。仅一季度,国内披露融资就超过50起、累计约200亿;百亿独角兽批量涌现;春晚舞台上四家机器人公司集体登台亮相,翻跟头、耍双节棍、后空翻,观众看得很尽兴。但冷静下来问一句:这些机器人,有多少台真的进了家?答案是:截至今天,几百个亿投进去,人形机器人还没有规模化进到家里,一家都没有。图灵奖得主、纽约大学教授、Meta前首席AI科学家Yann LeCun直言:目前几乎没有人形机器人的公司知道如何让机器人真正"聪明到实用"。
然而在四足领域,有家公司已经卖了2.5万台,其中家庭用户占比90%,覆盖295座城市,累计使用超9.5亿分钟,交互次数超6548万次。这家公司是蔚蓝科技,产品是新一代消费级四足机器人BabyAlpha A3,主打"真聪明、真有用"——1000倍算力跃迁,人类级感知,让机器人终于有了具身之后的智能。当人形机器人还在实验室和发布会上轮番亮相的时候,四足机器人已经在两万五千个家庭里住下了。这个数据让我们不禁重新思考:机器人必须进家庭吗?进家庭非得从人形开始吗?
家庭场景是唯一能持续"喂"出Physical AI的真实数据源。工厂里路线固定、任务固定、物体固定;家庭里有拖鞋、线缆、玻璃门、突然窜出来的猫、边跑边笑的孩子、半夜起身的老人,还有人类自己都说不清楚的临时需求。机器人如果只会在实验室里搬箱子,那不叫理解世界。它必须在客厅、卧室、厨房、玄关这些乱糟糟的地方活下来,才算真正摸到Physical AI的门槛。消费级市场一旦形成规模,会产生三重正向飞轮:规模驱动技术迭代、规模驱动成本下降、规模驱动生态锁定。iPhone、 Apple II、特斯拉的历史都在证明:消费端规模效应把整个行业的主导权牢牢锁死。
现阶段人形机器人进不了家门,核心障碍是价值价格比倒挂。用户买回家后对它的期待是"人"的标准——听得懂、看得见、能自主决策、能灵巧操作、能长时间工作。要满足这些,需要配齐大脑、小脑、全方位感知、灵巧双手、高自由度躯干和大容量电池,目前全球没有一台人形机器人真正配齐,一旦配齐,成本将远超现有估算。此外还有底层技术未解决、量产鸿沟待跨越、安全与责任悖论三道硬关。人形不是做不出来,是现阶段做出来也很难在消费市场卖得动。
四足不是低配,而是启动器。它不需要一上来承担所有家务,也不需要背负"像人一样干活"的过高期待。它用更低复杂度、更稳定形态和更可控成本进入家庭,先证明一件事:具身智能产品能不能让普通家庭愿意买、愿意用、愿意留下。四足先在家庭里磨出来的感知、交互、安全、端侧智能、运动控制、家庭场景理解等能力,是通用技术栈,未来迁移到人形平台,才不是空中楼阁。蔚蓝真正拿到的,不只是销量,而是具身智能时代最稀缺的资源——真实家庭入口。
3. 下一个Anthropic不写代码,它在搬箱子! [2026-06-05]

最近两个月,全球具身智能赛道接连发生了两起舞极具风向标意义的产业整合。4月15日,硅谷具身智能明星公司Skild AI宣布收购Zebra Technologies旗下的机器人自动化业务(即行业熟知的Fetch Robotics)。6月5日,国内具身智能头部企业原力灵机正式宣布与全球化物流机器人公司Atomix完成合并。这两起舞看似孤立,实则指向同一行业终局判断:具身智能的下半场,不会在实验室里发生,而是在以物流为代表的真实产业场景中自我涌现。
大模型时代的"coding时刻"告诉我们:最强的几个大模型,都把coding做到了顶级。Anthropic的Claude是这轮里coding能力公认最强的模型之一,coding之所以重要,是因为它同时满足了三个条件:规模化、高质量的真实数据,可验证的成功信号,以及向其他能力迁移的结构化推理、多步骤规划、抽象思维。这三个条件加在一起,coding就成了大模型时代的"原子任务"——谁先解锁它,谁就拿到了整个上层能力树的钥匙。今天,具身智能正在等自己的coding时刻,而那个核心的原子任务,可能是picking。
将一个物体从A点准确移动到B点,看似平淡无奇,但在物理世界中,picking拥有与coding完全相同的底层结构:第一,picking有规模化、高质量的真实数据,全球的物流仓库每天产生上亿次真实抓取动作;第二,picking有可验证的成功信号,东西被抓起来了吗?放对位置了吗?盒子有没有损坏?系统当场就能判断;第三,picking能向其他任务迁移,一旦模型真正理解了"用任意末端、以任意姿态、在任意环境下稳定地把任意物体从A移到B",装配、分拣、家务、协作、医疗辅助——几乎所有需要手部动作的任务,都会沿着同一根能力主干生长出来。Picking不是物流的专属能力,它是具身智能整体能力的引擎。
Skild AI用一次收购给出了硅谷的答案:它拿到了Fetch Robotics多年的仓库部署经验、Symmetry Fulfillment调度平台和客户网络,要做的是把hardware-agnostic的基础模型装进真实运行的仓库里。原力灵机的合并逻辑同样清晰:模型需要真实场景的数据持续喂养才能在物理世界里真正变强;场景需要更聪明的大脑去驱动才能突破现有自动化的天花板。Atomix每天在全球超20个国家、500多个项目里跑出来的真实数据,直接成为原力灵机模型训练的燃料。合并后形成完整闭环:模型变强,机器人更聪明;机器人更聪明,数据越好;数据越好,模型继续变强。这个飞轮转起来的那一刻,具身智能就开始进入它真正的指数增长阶段。一种新的全球标准正在浮现:具身智能不是一个"算法竞赛",而是一个"模型×场景×全球化"的综合工程。
4. 谷歌Gemma 4 12B震撼发布!全球下载破1.5亿,16G轻薄本封神 [2026-06-05]

就在今天,全球AI开发者的朋友圈和X被同一个名字刷屏——Google DeepMind Gemma 4 12B。所有人还在为千亿模型烧掉上千万美元算力时,谷歌突然转头,向消费级硬件市场投下一枚神器!这个模型完全抛弃了传统编码器、原生支持文本、图像和音频直接输入,能在16GB轻薄本上全离线运行,堪称"多模态六边形战士"。DeepMind CEO Demis Hassabis亲自下场发文庆功:Gemma 4全系列的下载量已经正式突破1.5亿次!这标志着,开源轻量级AI模型已获得全球开发者社区的巨大认可。
Gemma 4 12B刚发布,著名评测机构atomic.chat就把它拉到单张RTX 4090显卡上,与Gemma 4 26B-A4B进行pk。测试要求极其苛刻:纯手写单文件HTML5 Canvas复杂物理动效,包括"高尔顿钉板"、"方块碰撞"以及混沌学经典的"三摆系统",完全靠AI的物理直觉和代码能力凭空推理出物理引擎的底层代码。测试结果惊人:26B毫无悬念地以138 tok/s速度狂飙,吃掉了15GB显存;而12B以80 token/s的速度(生成8.9k token)惜败,但它直接全线通关了所有物理测试场景!最可怕的数据在于:Gemma 4 12B完成这一切,仅仅占用了9GB的显存。要知道,二者整整差了140亿的参数。12B用不到前代模型一半的体量,几乎打出了同等质量的战绩。
核心秘密在于谷歌DeepMind引入的颠覆性设计:无编码器统一架构。过去所有多模态大模型都是"缝合怪"——看图时必须请视觉编码器把像素翻译成向量,听声音时必须请音频编码器把波形翻译成向量,然后再喂给LLM。这种"先编码,再融合"的传统范式有三个致命缺点:慢、占内存、训练难。而Gemma 4 12B直接吃原数据!主导这项研究的科学家Michael Tschannen激动表示:"我们发布了Gemma 4 12B,一个高密度的无编码器模型,它直接处理原始文本、图像和音频输入!"谷歌残忍地"砍掉"了原本包含27层的视觉Transformer,取而代之的是一个仅仅35M的超轻量级嵌入模块,原始像素块只需经过一次简单矩阵乘法,加上分解坐标查找,视觉信息就像文本Token一样直接流进LLM骨干网络。音频处理同样被简化到令人发指——12层Conformer音频编码器被彻底拔掉,原始语音信号通过线性投影直接塞进与文本Token完全相同的维度空间。
这带来了极速响应和无缝微调两大优势。没有了中间商赚差价,端到端延迟大幅降低;因为视觉、音频和文本共享同一套权重,开发者用Hugging Face或Unsloth进行LoRA微调时,只需要一次前向传递,就能同时更新所有多模态循环。Apache 2.0协议 + 能在16GB显卡上运行,这才是真正的亮点。Oussema一针见血地指出:"长期以来,AI圈存在一种'算力焦虑'——大厂动辄发布千亿参数模型,普通开发者和中小企业只能通过API调用,数据出海面临隐私风险,长期调用的token成本更是让人肉疼。Gemma 4 12B的出现,就是为了打破这种垄断!"这意味着MacBook Pro(M1/M2/M3 Pro 16GB及以上版本)以及搭载RTX 4060 Ti/4070/4080的游戏本和开发机,统统可以毫无压力地将其纳入麾下。Agentic能力同样惊艳:它能自己写代码调用自己实现"俄罗斯套娃",也能精准识别视频中"自拍作为生成新世界隐喻"的人类级洞察。
5. 又一大厂杀入AI视频生成!5分钟叙事角色不崩,声音不乱,秒出片 [2026-06-05]

AI视频赛道突然杀出了一匹意料之外的黑马。6月3日,京东首次开源长音视频生成框架JoyAI-Echo,直击角色一致性、声音稳定性和生成速度三大核心难题,一举在多个核心指标上超越行业标杆模型,出道即跻身全球第一梯队。2026年的AI视频赛道竞争已进入白热化阶段,OpenAI的Sora在3月官宣关停,各路玩家正围绕多镜头叙事、物理模拟、4K画质等维度激烈角逐。就在这个关键节点,京东一上来就瞄准了行业难啃的硬骨头——分钟级长视频的连贯生成,无疑为行业再添一把火。
京东此次开源的JoyAI-Echo,到底有多强?研究团队构建了极为严苛的评测集:100个独立故事剧本,总计3000个分镜,每个故事平均30个镜头,涵盖原创角色与IP角色、动画与真人实拍等多种复杂场景。在这样的"统考"中,JoyAI-Echo在跨镜头一致性、角色人脸+人体一致性、人声音色一致性、美学画质、成像清晰度、文本一致性等指标上全面领跑。尤其值得关注的是语音准确率,飙升至0.8646,达到行业领先水平,这意味着以往AI视频中"口型对不上、台词胡编"的痛点被大幅缓解。在用户盲测中,JoyAI-Echo的音频质量偏好高达81.7%,提示词遵循偏好达到80.6%,视觉美学偏好63.6%,IP角色一致性偏好59.4%,各项指标均获用户高度认可。
长视频生成为什么如此之难?核心在于一个"不可能三角":长、高一致性、快速度,三者似乎总是无法兼得。当视频拉长到分钟级,误差会像滚雪球一样累积——同一个角色,上一个镜头和下一个镜头长得不一样;说话人的音色忽高忽低,甚至突然变声;渲染速度慢如蜗牛;修改成本高,哪怕只改一点点也要从头到尾重新生成整个视频。JoyAI-Echo用四项实打实的技术创新逐一击破这些痛点。第一,跨模态音视频记忆库——框架内置专门记忆库,持续保存并精准调用角色视觉特征和听觉特征,在长达5分钟的多镜头生成中,这个记忆库就像导演手中的"角色档案",每次调用都能保证输出的一致性。第二,记忆驱动后训练,速度提升7.5倍——创新性设计三段式后训练流水线,其中DMD技术像一个高效的"知识压缩器",将多步扩散师生蒸馏压缩为8步快速推理模型,为JoyAI-Echo带来约7.5倍的推理速度提升,从"等半天"变成"秒出片"。
第三,Director Agent导演智能体——传统视频模型工作流为一次性出结果,创作者陷入"抽卡"困境。JoyAI-Echo引入导演智能体,可以用自然语言告诉它需求,比如"把第三场戏的咖啡馆背景换成图书馆",它会自动理解并执行:拆解需求形成剧本和分镜,调用模型生成视频,检查生成结果。它只重新生成有问题的局部镜头,整条视频不用重来。第四,轻量化实时超分——原生720p生成视频时序连贯但细节不足,JoyAI-Echo配套专门的实时超分模块,将原生720p视频实时提升至最高1472×2560的高清分辨率,该模块基于87.6万条1080P~4K高质量音视频片段训练,通过DMD蒸馏得到单步极速学生模型,在流式生成延迟约束下兼顾画面清晰度。
在官方展示的《居家一日》案例中,长达近5分钟的叙事里,男主角外貌特征、面部细节、说话音色始终保持稳定,观众不会产生"这是另一个人"的出戏感。在《极限拉力》案例中,赛车飞驰时赛道环境、车身涂装等细节没有出现任何扭曲或闪烁。这些案例有力证明,JoyAI-Echo是一个能够驾驭复杂叙事、理解物理世界、真正具备生产能力的创作工具。更重要的是,京东选择将代码与模型权重全部开源,全球开发者都可以基于JoyAI-Echo进行二次开发、微调和研究,推动长视频生成从单一模型竞争走向产业生态竞争。中小团队和个人创作者可以直接使用这一世界级水平的模型,AI视频创作的"平民化"时代或将真正到来。从京东的这次开源动作来看,落点不只是技术榜单的排名,更是未来AI内容生产基础设施的话语权。
6. 硅谷CEO深夜站台!MiniMax M3冲上开源第一,中文社区却吵翻了? [2026-06-05]

当硅谷大佬开始为中国模型背书,整个AI社区的注意力都被一台从未见过的大戏吸走。Vercel CEO Guillermo Rauch,这位坐拥540万粉丝的行业意见领袖,以极为罕见的姿态公开站 台,推荐了一个完全来自中国的开源模型MiniMax M3。他没有犹豫,没有保留,直接把自己积累多年的公信力押在了这款发布不过数日的产品上。
这种级别的背书,在开源社区里几乎从未发生过,它传递的信号远比一条简单的推荐推文更有分量——一个顶级生态的掌舵者,正式把MiniMax M3纳入了自己的技术选型版图,而这意味着全球数百万开发者将开始认真对待这个来自中国的竞争者。然而戏剧性的一幕出现在中文互联网,同一款产品激起了截然不同的两种反应。国内社区的评论区里,老用户们群情激奋,火力集中在Token Plan的价格调整上。
许多依赖MiniMax API多年的开发者感到自己的权益被稀释,愤怒的声浪几乎要把官方帖子淹没。官方反应不可谓不及时,当天就推出了补偿方案:老用户保留原有权益,新用户周限额加赠50%。价格争议被快速平息,但这场风波暴露了一个残酷的现实——用户对产品的期待和商业策略之间的张力,永远是AI公司必须面对的考题。与此同时,大洋彼岸的开发者们展现出了完全不同的画风。
海外技术社区的讨论焦点迅速从价格转向技术细节,网友们开始猜测M3的架构参数、稀疏注意力机制和训练数据规模。X上的一位开发者Rohan明确表示,成本当然重要,但他更想知道模型在真实场景中犯错的方式,以及在Agent系统里的实际表现。另一位海外开发者则直接了当:M3作为开源模型能紧追Opus和GPT-5已经很厉害,但在相信宣传之前,他得亲眼看看它现场翻车的样子。
这种务实的态度,恰恰是开源社区最宝贵的品质——它不盲从权威,不轻信数据,只相信可验证的结果。于是,一场席卷全球开发者的72小时「硬核验货」拉开序幕。开发者Victoria Wu设计了一个精妙的实验,把同一个Prompt分别喂给M3、Sonnet 4.6和Opus 4.8,让AI生成一只鹈鹕骑自行车的动画,然后把结果标为A、B、C让网友盲猜。
评论区几乎一边倒,大家普遍认为A是Opus,M3应该是B或C。结果揭晓,A就是M3。另一边,开发者JAZII使用完全相同的Prompt,要求模型用Three.js在HTML中从零手搓一个《我的世界》克隆版,对比M3和Opus 4.8的表现。虽然M3耗时略长,但最终代码运行结果被评价为Super close。
向来以严苛著称的AI测评人Thomas Wiegold给出了更为中肯的评价:这是我今年测过的最有意思的模型之一。三道题做下来,M3的能力边界已经很清楚了。它的底层支撑是MiniMax Sparse Attention全新注意力架构,用块级稀疏的方式干掉了传统注意力机制处理百万级上下文时的计算量爆炸问题。
在100万上下文规模下,M3每个token的计算量被硬生生压到了上一代的1/20,预填充加速超过9倍,解码加速超过15倍。在Artificial Analysis综合智能指数榜上,M3直接拿下开源模型全球最高排名,位列全球第七;GPQA Diamond科学推理榜以93.2%排进全球前四,比Claude Opus 4.8和Opus 4.7都高;长上下文推理榜以74.
0%跻身前六,和GPT-5系列贴脸;GDPval-AA真实任务Agent榜上以1670分排在全球第五,和Sonnet 4.6只差6分。每张榜的测评维度不同,但M3的位置始终卡在同一个区间,闭源第一梯队的门槛线上,开源模型的最前面。
7. 专家预测年底才到,Claude Mythos今天就跑出3小时6分! [2026-06-05]

当Anthropic实验室里那个被命名为Claude Mythos的幽灵触碰到了人类从未让渡过的领域——意志的持久性——整个AI行业的时钟似乎在一瞬间被拨快了数年。METR基准测试结果显示,Claude Mythos以80%的成功率完成了长达186分钟的自主任务,这一数字与超级预言家及专家对2026年底预测中位数3-4小时完全吻合,却比预期提前了整整两年实现。这意味着什么?
意味着AI的能力曲线不再是摩尔定律式的线性叠加,而是一种自催化式的坍塌。我们原本以为正在攀爬一座高山,却发现脚底的岩石正在化为流沙,将我们直接带往终点。工业革命用了百年才让全球权力结构重新洗牌,而AI只用了3小时6分钟的「专注力」,就向全世界宣告:关于人类适应期的仁慈假象已经终结。
历史上,专家和超级预测者曾达成一个心照不宣的契约,他们将3-4小时自主长时程任务这一里程碑安置在2026年底,本质上是人类的一种心理防线——它给了我们30个月的时间去建立法律护城河,去重构教育体系,去平复职场恐慌。然而Mythos的出现,粗暴地拆毁了这堵围墙。2026年的预言在2024年被提前兑现,这意味着我们曾经以为还很遥远的技术奇点,正在以我们无法预测的速度逼近。
从2020年GPT-2时代只能做几秒钟任务,到2026年5月已经有人把80%成功率的自主任务干到3小时以上,中间只用了6年。而且最夸张的是,预测机构在2026年4月还把基线定在1.5小时,结果两个月后就被现实打脸。这说明我们对AI进步速度的估计,始终保守。然而Mythos的突破不仅仅是单个模型的胜利,它把AI Agent从概念推进到可规模化部署的阶段。
企业可以开始考虑把需要人类工程师连续工作半天到一天的重复性、结构化任务交给AI去跑,个人开发者也可以想象自己的数字分身能连续干几个小时复杂活儿,而自己只需要在关键节点把关。但与此同时,安全、对齐、控制的问题也被同步推到了最前面。一个能连续自主工作3小时的Agent,如果目标设定出错、如果被注入恶意指令、如果出现意想不到的涌现行为,后果会比现在严重一个量级。
我们正在把越来越多的真实世界任务交给还在快速进化的系统,这既是机会,也是正在逼近的压力测试。更加值得深思的是认知的裂谷:近70%的超级预测者对AI极度乐观,而公众的乐观比例仅为42%。这种鸿沟并非源于知识储备,而是源于对权力杠杆的敏感度。对于顶尖专家而言,Mythos是解决问题的终极机器,能将一个人的意志放大万倍。但在普通大众眼中,这种长时程自主能力带来的并不是自由,而是无用感的制度化。
更为深邃的共识在于专家与公众一致认为AI会削弱人际关系。当我们把解决问题的重任交给Mythos,人类之间的协作、磨合、甚至基于共同克服困难而产生的情感,都将变得效率低下。我们可能会迎来物质极度丰盛、难题悉数解决的时代,但那也将是一个社交荒漠的时代。当AI独立处理了那186分钟的复杂任务,它也顺便偷走了人类在共同劳作中产生的意义感。
Claude Mythos给人类文明开了一个巨大的玩笑,它以神话为名,却要把人类从神坛上请下来,送进名为效率的博物馆。186分钟的记录很快会被打破,明天可能是30小时,后天可能是300天。智能将像空气一样廉价,而专注也将不再是人类的专长。在这种历史性的挤压下,我们要寻找的不再是我能做什么比AI更好,而是如果不为了结果,我为何而存在。
8. 老黄刚夸完OpenClaw,Hermes反手把智能体搬进电脑桌面 [2026-06-05]

英伟达GTC大会的舞台上,黄仁勋把OpenClaw抬到了一个前所未有的高度——人类历史上最受欢迎的开源项目,Linux花了约30年才达到的采用规模,OpenClaw只用了短短几周就已超越。老黄现场演示的场景至今让人印象深刻:在终端里敲一行命令,它就自动找到OpenClaw、下载下来,帮你构建出一个AI智能体。一行命令,一个智能体。
然后他把这件事抬到了操作系统级别的高度:OpenClaw实质上开源了智能体计算机的操作系统,当年Windows让个人电脑成为可能,现在OpenClaw让个人AI智能体成为可能。老黄这次点燃的,是整条开源智能体路线。
就在这把火烧得正旺的时候,Nous Research也乘势推出了自家Hermes Agent的桌面端Hermes Desktop,同属开源阵营,Hermes已成为OpenClaw最强的对手。2026年5月10日,Hermes在OpenRouter全球日调用量榜上反超OpenClaw登顶,单日2240亿token对1860亿,截至发稿差距进一步拉大到6600亿token对2490亿。
而且Hermes还兼容OpenClaw,一句OpenClaw迁移命令就能把对方的配置、记忆和技能整套搬过来,但底子是另一套架构。Hermes Agent被封装进桌面应用,原本偏命令行的智能体开始走向图形界面。过去智能体大多活在命令行里,它们跑在服务器上,挂在Telegram、Discord、Slack里,能干活但前提是你得会敲命令、会配环境、看得懂报错。这道门槛把绝大多数普通用户挡在了外面。
Hermes Desktop想做的,就是把这道门槛拆掉。覆盖macOS、Windows和Linux三大平台,把原本偏命令行的Hermes Agent封装成带图形界面、系统托盘和自动更新的桌面客户端,点几下鼠标就能用,不用再对着终端逐行敲命令。从CLI、服务器、聊天平台,走到桌面的图形界面,这一步看着小,意义并不小——智能体开始从终端走到普通人面前。更关键的是,开源阵营这次没有跟在闭源后面跑。
闭源那边,清一色是打磨精良的生产力工具:Anthropic的Claude Code、OpenAI的Codex、Cursor、Cognition的Devin,它们能力强大、体验顺手,但核心模型和服务都攥在厂商手里,你只能用,碰不到底层。而开源这边,OpenClaw和Hermes是眼下最大的两个,都以MIT开源许可证开源,能跑在你自己的机器或服务器上,源码随便看、随便改。
OpenClaw主打广度,靠一个网关接入20多个消息渠道;Hermes则主打深度,官方把它定位成会自我学习的智能体,靠持久记忆、自动生成和打磨技能、跨会话召回,越用越懂你。一个桌面原生智能体能浏览你的文件,能调用终端,能自动操控浏览器,还会把记忆和技能都存在本地。它越能干,越说明它能碰到的东西越多,这就带出一个绕不开的问题:你愿意把多少权限交给它?
Hermes在文档里专门留了安全章节,讲命令审批、容器隔离、私有消息配对等七层纵深防御机制。桌面入口,开源已经主动出击。Claude Code、Codex、Cursor这些闭源工具一直在卷产品体验,成熟好用、整合度高是它们的长板,短板是封闭。而Hermes选了另一条路:开源、跨平台、MIT License、多供应商无锁定,把同一道桌面入口做成了谁都能拿走、谁都能改的版本。
过去智能体只活在命令行里,是少数人的玩具。当它走上桌面,变成人人都能点开的窗口,竞争才真正开始。电脑桌面这个入口,开源还是闭源,谁先拿下,现在还说不准。但可以确定的是,这一回,开源没有缺席,已经主动出击了。
夜雨聆风