最新AI信息:河南日报社也有大动作

01北大EvoPhys团队发布全球首个自进化5D世界模型

日前，北京大学EvoPhys团队基于摩尔线程全国产算力底座推出全球首个自进化5D世界模型EvoPhys-World。如何将世界模型范式从3D升维到5D，EvoPhys团队的判断是：世界模型的本质，是对超维空间的模拟。EvoPhys所追求的5D World Model，不仅建模三维空间，也建模时间、动作、记忆、因果与价值。世界模型从3D到4D再到5D的演进，本质上也是AI从“看见世界”到“预测世界”再到“改变世界”的演进。EvoPhys-WorldLatent Memory Pool（4D ST-Memory）作为长期时空记忆池，用于保存场景在不同时间与时间状态下的隐式记忆。EvoPhys-World使用并行生成架构，搭载创新混合注意力机制，在统一“隐式状态—动作空间”中进行Unified State-Action Token并行推演，原生并行完成预测下一时刻的世界状态（Next-State Prediction）、预测下一步动作（Next-Action Prediction）。EvoPhys-World采用“双模式螺旋”推理生成机制，持续滚动推演世界状态和动作策略，支持小时级、场景级的未来世界交互决策与预演。此次发布的基础模型具Model as World Engine、Model as World Policy两个核心形态。EvoPhys的另一个关键突破，是在Action Space上采用了以“人”为中心的标准动作表示，天然对齐人类理解和操控物理世界的方式，也让模型能够直接从大规模原始无标注人手EGO数据中学习。更重要的是，这一过程不再依赖大量真实机器人采集数据。模型能够通过孪生场景进行虚拟交互，再反哺真实世界中的机器人操作，从而显著降低具身智能数据采集成本。这让世界模型不再只是生成模型，而开始具备人类策略能力。（摘编自《机器之心Pro》）

02 宇树与英伟达合作研发“H2+”机器人

日前，英伟达首席执行官黄仁勋宣布，英伟达已与宇树科技合作，推出新一代人形机器人参考设计“H2+”。宇树科技工作人员表示，新的“H2+”机器人基于英伟达的算力平台研发，新产品将于今年下半年亮相。据介绍，“H2+”也被称为Isaac GR00T系统，已完成整体集成。机器人本体拥有31个自由度，每只机械手25个自由度，整机身高约1.8米、重量约68公斤。该合作整合了Sharpa的触觉灵巧操作能力、宇树H2机器人本体与NVIDIA端侧算力与Isaac GR00T开发流程，标志着人形机器人从单打独斗走向基于标准化底座的竞争。

03 阿里发布Qwen3.7-Plus多模态智能体

6月2日凌晨，阿里巴巴通义实验室发布Qwen3.7-Plus多模态智能体模型。该模型将GUI操作、CLI调用、代码生成和自我验证放进同一智能体循环，形成了看、想、写、做、验的端到端闭环，打通界面感知、工具调用、代码生成和任务交付。Qwen3.7-Plus在实测中连续运行11小时以上，累计生成超10000行代码，触发超1000次调用，覆盖需求文档生成、代码编写、自动部署、测试用例创建、GUI自动化测试及版本迭代等全流程。Qwen3.7-Plus还支持多模态推理、搜索增强视觉问答、图像/视频转SVG矢量代码、视觉驱动的网页设计等功能。目前Qwen3.7-Plus已在阿里云百炼平台上线，支持OpenAI兼容API与Anthropic协议调用。

04 扣子3.0上线，支持三端协同

6月1日，扣子3.0上线，手机端、电脑端、网页端三端同步完成全量更新。扣子3.0兼具云端创建与本地接入能力，提出AI团队协作方式的全新架构，将Agent带入更完整的工作现场，Agent可以被创建、接入和随时调度。在扣子3.0中，用户能够添加自定义Agent，组建自己的Agent team。扣子3.0支持接入Claude Code、Codex CLI等本地Agent，这些本地Agent可以进入扣子的同一个项目空间，和其他Agent围绕同一个目标协作推进。扣子内置行业技能包和数据集，支持一键生成“专家助手”。扣子3.0还新增“项目空间”功能，支持创建独立任务管理空间，整合目标、成员、Agent、文件及过程产出。此外，扣子3.0还深化了编程与视频两类垂直领域能力。

05 MiniMax发布M3模型，转向长上下文与Agent能力

6月1日，国产大模型公司MiniMax正式发布新一代通用模型MiniMax M3。M3采用新的自研稀疏注意力架构MiniMax Sparse Attention（MSA），在编程及智能体能力、超长上下文及原生多模态等多个方向实现代际突破。据介绍，M3具备前沿Coding能力、1M超长上下文、原生多模态三项核心能力。这意味着，模型在处理长文档、复杂代码仓库、多轮任务协作等场景时，能够在一次推理中保留更完整的信息链路。MiniMax表示，M3从训练起点便采用文本、图片、视频等多模态混合训练，并在数据规模和训练管线上进一步扩展。模型不仅支持图像与视频理解，也具备桌面操作能力，可在复杂跨应用环境中执行Computer Use任务。

06 河南日报社“数智记者”上线

6月1日，河南日报报业集团有限公司技术中心、大河网自主研发的“数智记者”1.0正式上线。据介绍，“数智记者”1.0通过智能终端AI眼镜与自研讯息采集平台协同，实现“文、图、音视频”记者的“三合一”，能够让记者从语音转录、素材整理等工作中解放出来，投入到深度采访、信息求真和精品报道中。正在研发的“数智记者”2.0不仅支持AI眼镜作为输入设备，还可兼容智能手机、摄像机等多种终端，同时通过外挂知识库，实现新闻报道从“抢速度”到“做深度”的跃升。

07 微软发布MAI系列7款自研模型

当地时间6月2日，微软在Build开发者大会上宣布全面转向“智能体时代”（Agentic Era），并发布MAI系列7款自研模型。微软将此次发布描述为“一次重大转变”。据介绍，微软首款推理模型MAI-Thinking-1是一款稀疏混合专家模型（MoE），拥有350亿活跃参数、总参数量约1万亿，专为复杂的多步骤指令、长上下文推理和代码生成设计，微软称该模型“完全基于干净数据从头训练”。微软首款代码生成模型MAI-Code-1-Flash能够根据用户输入的自然语言描述，自动生成应用程序和网站的源代码。目前，该模型已集成至GitHub Copilot AI编程助手以及Visual Studio Code编辑器中。此外，在图像方面，微软发布了MAI-Image 2.5及其Flash版本，均支持文生图和图像编辑功能；语音转写方面，微软推出MAI-Transcribe-1.5；语音能力方面，微软发布了新增对15种语言支持的MAI-Voice-2，并称其将推出轻量级Flash版本。

08 OpenAI宣布组建机器人事业部，重返机器人赛道

OpenAI日前发布公告，宣布大力扩张机器人事业部，正式全面切入硬件赛道，实现从人工智能算法研发向机器人编程+实体设备制造全链条布局的战略转型。OpenAI首席执行官山姆·奥特曼（Sam Altman）在公开声明中确认这一战略举措。此举标志着OpenAI发展路径迎来重大调整，告别以往依托外部硬件厂商合作的模式，转而自主深耕机器人硬件研发与生产领域。据悉，OpenAI机器人业务板块由旗下“世界模拟研究项目”升级演化而来，该项目由DALL-E系列模型创始人阿迪亚·拉梅什（Aditya Ramesh）主导研发。OpenAI短期将聚焦研发辅助型机器人，重点赋能建筑、物理基础设施建设领域的技术工人，以智能设备助力一线作业，而非替代人工；长期愿景则致力于打造普惠型通用个人机器人，未来实现人人均可拥有多功能智能机器人，满足日常生活与多元场景服务需求。

09 欧盟正式公布《云计算与人工智能发展法案》提案

当地时间6月3日，欧盟委员会正式公布《云计算与人工智能发展法案》（Cloud and AI Development Act，简称CADA）提案。欧盟还同步推进《AI应用战略》、新版《欧洲芯片法案》和《欧盟开源战略》等一系列数字产业政策。与《人工智能法案》（AI Act）不同，CADA的重点并不是监管AI，而是发展AI。CADA主要围绕三个方向展开：首先是研究、开发与创新。欧盟将支持下一代云计算和人工智能技术研发，重点推动高性能、可持续发展的云平台和AI系统建设，提升欧洲在核心技术领域的竞争力。其次是基础设施能力建设。法案提出加快数据中心建设审批流程，并支持更多高性能数据中心落地欧洲。欧盟希望通过建设“AI工厂（AI Factories）”和“AI超级工厂（AI Gigafactories）”，向企业和科研机构提供先进算力资源。第三是云计算和AI主权。欧盟计划建立统一的云计算和AI主权评估框架，对关键领域使用的云服务和AI基础设施进行评估。未来在政府、能源、医疗、金融等关键行业，相关项目在采购时可能会更加重视数据安全、供应链可控性以及技术自主能力。

10 李飞飞长文拆解三种世界模型及融合趋势

日前，AI科学家李飞飞与其创办的World Labs团队发表题为《世界模型的功能分类：渲染器、模拟器、规划器，以及连接它们的循环》的长文，试图厘清2025年以来世界模型概念在使用上的混乱。李飞飞表示，大语言模型让机器学会了遣词造句和逻辑推理，但物理世界运行的底层逻辑完全不同。语言模型学的是文本的统计规律，而世界模型学的是时空统计规律。文章分析了世界模型的三种功能，第一种世界模型是渲染器。渲染器的任务是把信息转成人眼能看的像素，这也是目前商业化跑得最快的方向。但它只管“看起来像”，不管“实际上对不对”，因为这类模型根本不掌握三维空间结构。这种输出再精美，也没法拿来做建筑设计，或者训练一个需要在真实环境里精准操作的工业机器人。第二种是模拟器，负责输出精确的物理数据。它追求的不是“看起来像”，而是结构上的正确。因为几何要经得起测量，运动要遵守牛顿定律，动力学行为要符合物理法则。这类模型同时服务两类用户：一是建筑师、设计师、影视和游戏开发者，二是强化学习智能体、机器人控制器、自动驾驶算法这类程序。模拟器的市场很大，但模拟器也最难做，挑战来自数据、偏差、计算成本。第三种是规划器，背后用的就是视觉－语言－动作模型等规划器技术。从功能逻辑上来看，渲染器与规划器互为逆运算。这三条路线各自已经撑起百亿美元级别的产业，现在正从独立发展走向融合，这正是空间智能的漫长征程。

来源｜人民网研究院