AI 日报 · 5月1日 | DeepSeek 多模态新范式超越 GPT-5.4,宇树 R1 人形机器人 2.69 万起售
DeepSeek 联合北京大学、清华大学发布了一篇题为《Thinking with Visual Primitives》的研究论文,提出了一种全新的多模态推理范式。
今日关键信号
- • DeepSeek 联合北大清华发布视觉原语推理新范式,多项测试超越 GPT-5.4,多模态路线再升级
- • 宇树科技发布 R1 人形机器人,2.69 万元起售,成为目前最低价格的双臂人形机器人
- • Zed 1.0 正式发布,Atom 原班人马用 Rust 重写百万行代码,原生集成 AI 与实时协作
- • 阿里发布 QoderWake,定位生产级数字员工,支持 7×24 小时自主值守
- • LWD 具身训练新范式发布,16 台机器人长程任务成功率达 0.91,首次实现大规模 RL 预训练+后训练
1. DeepSeek 联合北大清华发布”视觉原语推理”新范式,超越 GPT-5.4
事件描述:
5 月 1 日,DeepSeek 联合北京大学、清华大学发布了一篇题为《Thinking with Visual Primitives》的研究论文,提出了一种全新的多模态推理范式。该方法的核心思路是将视觉信息分解为”视觉原语”(Visual Primitives)——即图像中最基础的视觉元素,如形状、颜色、空间关系等——作为推理的锚点,让模型在推理过程中显式地引用和操作这些视觉原语,而非像传统方法那样直接处理原始像素。
在多项视觉推理基准测试中,该方法的性能超越了 OpenAI 最新的 GPT-5.4 模型。研究团队表示,这一突破的关键在于”让模型学会像人类一样看问题”——人类在解决视觉问题时,并不会直接处理视网膜上的像素,而是先提取出有意义的视觉概念,再基于这些概念进行逻辑推理。
深度分析:
这一成果标志着多模态 AI 从”端到端黑盒”向”可解释推理”的重要转向。当前主流的多模态大模型大多采用”图像编码+文本推理”的端到端架构,虽然性能强大,但推理过程缺乏透明性。DeepSeek 的视觉原语方法为多模态推理引入了结构化的中间表示,不仅提升了性能,还增强了可解释性。对于需要高可靠性的应用场景(如医疗影像诊断、工业质检),这一方向具有重要的工程价值。
来源:AITNT 全球 AI 新闻 (aitntnews.com)
2. 宇树科技发布 R1 人形机器人,2.69 万元起售
事件描述:
5 月 1 日,宇树科技正式发布 R1 人形机器人,起售价仅为 2.69 万元,成为目前市场上价格最低的双臂人形机器人。R1 覆盖工业和家用两大场景,支持二次开发,开发者可以通过 SDK 对其进行定制化编程和功能扩展。
这一价格远低于此前行业同类产品——银河通用、智元机器人等公司的双臂人形机器人售价普遍在 10 万元以上。宇树科技凭借在关节电机、运动控制等核心部件上的自研能力,将成本大幅压缩。此前在 4 月 19 日的北京亦庄人形机器人半程马拉松赛事中,宇树 H1 机器人虽然中途摔倒,但其运动能力仍引发了广泛关注。
深度分析:
2.69 万元的定价是一个标志性事件,意味着人形机器人正在从”实验室展品”向”消费级产品”跨越。价格下探的背后是核心零部件(尤其是关节电机)的规模化量产——小象电动的关节电机成本已减半,累计出货近 7 万台。当人形机器人的价格进入 3 万元以内,教育、科研、轻工业等场景的采购门槛将大幅降低,有望加速具身智能的产业化落地。不过,低价是否意味着性能妥协,仍需市场检验。
来源:AITNT 全球 AI 新闻 (aitntnews.com)
3. Zed 1.0 正式发布:Atom 原班人马用 Rust 重写的 AI 编辑器
事件描述:
5 月 1 日,由 Atom 编辑器原班人马打造的 Zed 1.0 正式发布。Zed 使用 Rust 语言重写了超过百万行代码,自研了 GPU 加速框架,原生集成了 AI 辅助编程和实时协作功能。发布后,Zed 在 GitHub 上迅速获得 8 万颗星,成为近期最受关注的开发者工具之一。
Zed 的定位是”为 AI 时代而生的编辑器”——它不仅是一个代码编辑工具,更是一个 AI 原生开发环境。内置的 AI 功能支持代码补全、重构建议、自然语言生成代码等能力,实时协作功能则允许多名开发者同时编辑同一文件,延迟极低。
深度分析:
Zed 的发布反映了 AI 编程工具正在从”插件化”向”原生集成”演进。过去两年,AI 编程主要依赖 Copilot 等插件形式嵌入现有编辑器,而 Zed 从底层架构就将 AI 作为核心能力,这意味着更流畅的用户体验和更深的 AI 集成。Rust 语言带来的高性能和 GPU 加速框架,使其在处理大型项目时具有显著优势。对于追求极致开发效率的工程师来说,Zed 可能成为 Cursor、VS Code 之外的新选择。
来源:AITNT 全球 AI 新闻 (aitntnews.com)
4. 阿里发布 QoderWake:生产级数字员工,7×24 小时自主值守
事件描述:
5 月 1 日,阿里巴巴正式发布 QoderWake,定位为”生产级数字员工”。与传统 AI 助手不同,QoderWake 具备岗位制、长期记忆和权限管控三大核心能力,支持 7×24 小时自主值守运行。
具体而言,QoderWake 可以被分配到一个具体的”岗位”(如运维工程师、数据分析师),拥有该岗位对应的权限范围和知识库。它具备长期记忆能力,能够记住历史操作和决策上下文,在跨天、跨周的任务中保持一致性。权限管控则确保数字员工的操作在企业安全边界内进行,避免越权操作带来的风险。
深度分析:
QoderWake 的发布标志着 AI Agent 从”工具”向”员工”的角色转变。此前大多数 AI 编程工具(如 Cursor、Claude Code)定位为开发者助手,需要人类全程参与和审核。而 QoderWake 的”岗位制+长期记忆+权限管控”架构,使其能够在无人值守的情况下独立完成周期性任务,如夜间运维、数据巡检等。这对于企业降本增效具有直接价值,也预示着 AI Agent 的商业化正在从”个人效率工具”向”企业级数字劳动力”升级。
来源:AITNT 全球 AI 新闻 (aitntnews.com)
5. LWD 具身训练新范式:16 台机器人长程任务成功率 0.91
事件描述:
5 月 1 日,罗剑岚团队联合智元机器人等机构发布了 LWD(Large-scale World Dynamics)具身训练新范式。该范式首次实现了大规模强化学习(RL)预训练与后训练的结合,在 16 台机器人上完成了长程任务测试,成功率达到 0.91。
LWD 的核心理念是”先理解物理世界动态,再学习操作技能”。传统的具身智能训练往往直接从操作数据中学习策略,而 LWD 先让模型学习对物理世界的预测能力(世界模型),再在此基础上训练操作策略。这种方法显著提升了机器人在复杂、长程任务中的稳定性和成功率。
深度分析:
LWD 的成功率(0.91)在具身智能领域是一个令人瞩目的数字。当前人形机器人在真实环境中的任务成功率普遍较低,多数在 0.5-0.7 之间。LWD 通过”世界模型预训练+策略后训练”的两阶段方法,有效解决了传统 RL 训练中的样本效率低、泛化能力差等问题。这一成果与银河通用此前提出的 LDA 模型(”先理解物理,再学习操作”)形成了呼应,表明”世界模型+具身操作”正在成为具身智能的主流技术路线。
来源:AITNT 全球 AI 新闻 (aitntnews.com)
明日关注
- • 斯坦福 AI Index 2026 报告持续引发讨论,12 张图表解读 AI 发展现状与趋势
- • 2026 中国网络文明大会将于 5 月 19-20 日在南宁举办,将发布《人工智能应用伦理安全指引》
- • 马斯克诉 OpenAI 案持续发酵,索赔约 1340 亿美元,庭审进展值得关注
本文资讯来源于 AITNT 全球 AI 新闻、36 氪、腾讯新闻等公开报道,仅供参考,不构成投资建议。
夜雨聆风