AI 日报 · 5月1日 | DeepSeek 多模态新范式超越 GPT-5.4,宇树 R1 人形机器人 2.69 万起售-夜雨聆风

AI 日报 · 5月1日 | DeepSeek 多模态新范式超越 GPT-5.4,宇树 R1 人形机器人 2.69 万起售

DeepSeek 联合北京大学、清华大学发布了一篇题为《Thinking with Visual Primitives》的研究论文，提出了一种全新的多模态推理范式。

今日关键信号

• DeepSeek 联合北大清华发布视觉原语推理新范式，多项测试超越 GPT-5.4，多模态路线再升级
• 宇树科技发布 R1 人形机器人，2.69 万元起售，成为目前最低价格的双臂人形机器人
• Zed 1.0 正式发布，Atom 原班人马用 Rust 重写百万行代码，原生集成 AI 与实时协作
• 阿里发布 QoderWake，定位生产级数字员工，支持 7×24 小时自主值守
• LWD 具身训练新范式发布，16 台机器人长程任务成功率达 0.91，首次实现大规模 RL 预训练+后训练

1. DeepSeek 联合北大清华发布”视觉原语推理”新范式，超越 GPT-5.4

事件描述：

5 月 1 日，DeepSeek 联合北京大学、清华大学发布了一篇题为《Thinking with Visual Primitives》的研究论文，提出了一种全新的多模态推理范式。该方法的核心思路是将视觉信息分解为”视觉原语”（Visual Primitives）——即图像中最基础的视觉元素，如形状、颜色、空间关系等——作为推理的锚点，让模型在推理过程中显式地引用和操作这些视觉原语，而非像传统方法那样直接处理原始像素。

在多项视觉推理基准测试中，该方法的性能超越了 OpenAI 最新的 GPT-5.4 模型。研究团队表示，这一突破的关键在于”让模型学会像人类一样看问题”——人类在解决视觉问题时，并不会直接处理视网膜上的像素，而是先提取出有意义的视觉概念，再基于这些概念进行逻辑推理。

深度分析：

这一成果标志着多模态 AI 从”端到端黑盒”向”可解释推理”的重要转向。当前主流的多模态大模型大多采用”图像编码+文本推理”的端到端架构，虽然性能强大，但推理过程缺乏透明性。DeepSeek 的视觉原语方法为多模态推理引入了结构化的中间表示，不仅提升了性能，还增强了可解释性。对于需要高可靠性的应用场景（如医疗影像诊断、工业质检），这一方向具有重要的工程价值。

来源：AITNT 全球 AI 新闻 (aitntnews.com)

2. 宇树科技发布 R1 人形机器人，2.69 万元起售

事件描述：

5 月 1 日，宇树科技正式发布 R1 人形机器人，起售价仅为 2.69 万元，成为目前市场上价格最低的双臂人形机器人。R1 覆盖工业和家用两大场景，支持二次开发，开发者可以通过 SDK 对其进行定制化编程和功能扩展。

这一价格远低于此前行业同类产品——银河通用、智元机器人等公司的双臂人形机器人售价普遍在 10 万元以上。宇树科技凭借在关节电机、运动控制等核心部件上的自研能力，将成本大幅压缩。此前在 4 月 19 日的北京亦庄人形机器人半程马拉松赛事中，宇树 H1 机器人虽然中途摔倒，但其运动能力仍引发了广泛关注。

深度分析：

2.69 万元的定价是一个标志性事件，意味着人形机器人正在从”实验室展品”向”消费级产品”跨越。价格下探的背后是核心零部件（尤其是关节电机）的规模化量产——小象电动的关节电机成本已减半，累计出货近 7 万台。当人形机器人的价格进入 3 万元以内，教育、科研、轻工业等场景的采购门槛将大幅降低，有望加速具身智能的产业化落地。不过，低价是否意味着性能妥协，仍需市场检验。

来源：AITNT 全球 AI 新闻 (aitntnews.com)

3. Zed 1.0 正式发布：Atom 原班人马用 Rust 重写的 AI 编辑器

事件描述：

5 月 1 日，由 Atom 编辑器原班人马打造的 Zed 1.0 正式发布。Zed 使用 Rust 语言重写了超过百万行代码，自研了 GPU 加速框架，原生集成了 AI 辅助编程和实时协作功能。发布后，Zed 在 GitHub 上迅速获得 8 万颗星，成为近期最受关注的开发者工具之一。

Zed 的定位是”为 AI 时代而生的编辑器”——它不仅是一个代码编辑工具，更是一个 AI 原生开发环境。内置的 AI 功能支持代码补全、重构建议、自然语言生成代码等能力，实时协作功能则允许多名开发者同时编辑同一文件，延迟极低。

深度分析：

Zed 的发布反映了 AI 编程工具正在从”插件化”向”原生集成”演进。过去两年，AI 编程主要依赖 Copilot 等插件形式嵌入现有编辑器，而 Zed 从底层架构就将 AI 作为核心能力，这意味着更流畅的用户体验和更深的 AI 集成。Rust 语言带来的高性能和 GPU 加速框架，使其在处理大型项目时具有显著优势。对于追求极致开发效率的工程师来说，Zed 可能成为 Cursor、VS Code 之外的新选择。

来源：AITNT 全球 AI 新闻 (aitntnews.com)

4. 阿里发布 QoderWake：生产级数字员工，7×24 小时自主值守

事件描述：

5 月 1 日，阿里巴巴正式发布 QoderWake，定位为”生产级数字员工”。与传统 AI 助手不同，QoderWake 具备岗位制、长期记忆和权限管控三大核心能力，支持 7×24 小时自主值守运行。

具体而言，QoderWake 可以被分配到一个具体的”岗位”（如运维工程师、数据分析师），拥有该岗位对应的权限范围和知识库。它具备长期记忆能力，能够记住历史操作和决策上下文，在跨天、跨周的任务中保持一致性。权限管控则确保数字员工的操作在企业安全边界内进行，避免越权操作带来的风险。

深度分析：

QoderWake 的发布标志着 AI Agent 从”工具”向”员工”的角色转变。此前大多数 AI 编程工具（如 Cursor、Claude Code）定位为开发者助手，需要人类全程参与和审核。而 QoderWake 的”岗位制+长期记忆+权限管控”架构，使其能够在无人值守的情况下独立完成周期性任务，如夜间运维、数据巡检等。这对于企业降本增效具有直接价值，也预示着 AI Agent 的商业化正在从”个人效率工具”向”企业级数字劳动力”升级。

来源：AITNT 全球 AI 新闻 (aitntnews.com)

5. LWD 具身训练新范式：16 台机器人长程任务成功率 0.91

事件描述：

5 月 1 日，罗剑岚团队联合智元机器人等机构发布了 LWD（Large-scale World Dynamics）具身训练新范式。该范式首次实现了大规模强化学习（RL）预训练与后训练的结合，在 16 台机器人上完成了长程任务测试，成功率达到 0.91。

LWD 的核心理念是”先理解物理世界动态，再学习操作技能”。传统的具身智能训练往往直接从操作数据中学习策略，而 LWD 先让模型学习对物理世界的预测能力（世界模型），再在此基础上训练操作策略。这种方法显著提升了机器人在复杂、长程任务中的稳定性和成功率。

深度分析：

LWD 的成功率（0.91）在具身智能领域是一个令人瞩目的数字。当前人形机器人在真实环境中的任务成功率普遍较低，多数在 0.5-0.7 之间。LWD 通过”世界模型预训练+策略后训练”的两阶段方法，有效解决了传统 RL 训练中的样本效率低、泛化能力差等问题。这一成果与银河通用此前提出的 LDA 模型（”先理解物理，再学习操作”）形成了呼应，表明”世界模型+具身操作”正在成为具身智能的主流技术路线。

来源：AITNT 全球 AI 新闻 (aitntnews.com)

明日关注

• 斯坦福 AI Index 2026 报告持续引发讨论，12 张图表解读 AI 发展现状与趋势
• 2026 中国网络文明大会将于 5 月 19-20 日在南宁举办，将发布《人工智能应用伦理安全指引》
• 马斯克诉 OpenAI 案持续发酵，索赔约 1340 亿美元，庭审进展值得关注

本文资讯来源于 AITNT 全球 AI 新闻、36 氪、腾讯新闻等公开报道，仅供参考，不构成投资建议。