01北大EvoPhys团队发布全球首个自进化5D世界模型
日前,北京大学EvoPhys团队基于摩尔线程全国产算力底座推出全球首个自进化5D世界模型EvoPhys-World。如何将世界模型范式从3D升维到5D,EvoPhys团队的判断是:世界模型的本质,是对超维空间的模拟。EvoPhys所追求的5D World Model,不仅建模三维空间,也建模时间、动作、记忆、因果与价值。世界模型从3D到4D再到5D的演进,本质上也是AI从“看见世界”到“预测世界”再到“改变世界”的演进。EvoPhys-WorldLatent Memory Pool(4D ST-Memory)作为长期时空记忆池,用于保存场景在不同时间与时间状态下的隐式记忆。EvoPhys-World使用并行生成架构,搭载创新混合注意力机制,在统一“隐式状态—动作空间”中进行Unified State-Action Token并行推演,原生并行完成预测下一时刻的世界状态(Next-State Prediction)、预测下一步动作(Next-Action Prediction)。EvoPhys-World采用“双模式螺旋”推理生成机制,持续滚动推演世界状态和动作策略,支持小时级、场景级的未来世界交互决策与预演。此次发布的基础模型具Model as World Engine、Model as World Policy两个核心形态。EvoPhys的另一个关键突破,是在Action Space上采用了以“人”为中心的标准动作表示,天然对齐人类理解和操控物理世界的方式,也让模型能够直接从大规模原始无标注人手EGO数据中学习。更重要的是,这一过程不再依赖大量真实机器人采集数据。模型能够通过孪生场景进行虚拟交互,再反哺真实世界中的机器人操作,从而显著降低具身智能数据采集成本。这让世界模型不再只是生成模型,而开始具备人类策略能力。(摘编自《机器之心Pro》)
日前,英伟达首席执行官黄仁勋宣布,英伟达已与宇树科技合作,推出新一代人形机器人参考设计“H2+”。宇树科技工作人员表示,新的“H2+”机器人基于英伟达的算力平台研发,新产品将于今年下半年亮相。据介绍,“H2+”也被称为Isaac GR00T系统,已完成整体集成。机器人本体拥有31个自由度,每只机械手25个自由度,整机身高约1.8米、重量约68公斤。该合作整合了Sharpa的触觉灵巧操作能力、宇树H2机器人本体与NVIDIA端侧算力与Isaac GR00T开发流程,标志着人形机器人从单打独斗走向基于标准化底座的竞争。
6月2日凌晨,阿里巴巴通义实验室发布Qwen3.7-Plus多模态智能体模型。该模型将GUI操作、CLI调用、代码生成和自我验证放进同一智能体循环,形成了看、想、写、做、验的端到端闭环,打通界面感知、工具调用、代码生成和任务交付。Qwen3.7-Plus在实测中连续运行11小时以上,累计生成超10000行代码,触发超1000次调用,覆盖需求文档生成、代码编写、自动部署、测试用例创建、GUI自动化测试及版本迭代等全流程。Qwen3.7-Plus还支持多模态推理、搜索增强视觉问答、图像/视频转SVG矢量代码、视觉驱动的网页设计等功能。目前Qwen3.7-Plus已在阿里云百炼平台上线,支持OpenAI兼容API与Anthropic协议调用。
6月1日,扣子3.0上线,手机端、电脑端、网页端三端同步完成全量更新。扣子3.0兼具云端创建与本地接入能力,提出AI团队协作方式的全新架构,将Agent带入更完整的工作现场,Agent可以被创建、接入和随时调度。在扣子3.0中,用户能够添加自定义Agent,组建自己的Agent team。扣子3.0支持接入Claude Code、Codex CLI等本地Agent,这些本地Agent可以进入扣子的同一个项目空间,和其他Agent围绕同一个目标协作推进。扣子内置行业技能包和数据集,支持一键生成“专家助手”。扣子3.0还新增“项目空间”功能,支持创建独立任务管理空间,整合目标、成员、Agent、文件及过程产出。此外,扣子3.0还深化了编程与视频两类垂直领域能力。
05 MiniMax发布M3模型,转向长上下文与Agent能力
06 河南日报社“数智记者”上线
6月1日,河南日报报业集团有限公司技术中心、大河网自主研发的“数智记者”1.0正式上线。据介绍,“数智记者”1.0通过智能终端AI眼镜与自研讯息采集平台协同,实现“文、图、音视频”记者的“三合一”,能够让记者从语音转录、素材整理等工作中解放出来,投入到深度采访、信息求真和精品报道中。正在研发的“数智记者”2.0不仅支持AI眼镜作为输入设备,还可兼容智能手机、摄像机等多种终端,同时通过外挂知识库,实现新闻报道从“抢速度”到“做深度”的跃升。
当地时间6月3日,欧盟委员会正式公布《云计算与人工智能发展法案》(Cloud and AI Development Act,简称CADA)提案。欧盟还同步推进《AI应用战略》、新版《欧洲芯片法案》和《欧盟开源战略》等一系列数字产业政策。与《人工智能法案》(AI Act)不同,CADA的重点并不是监管AI,而是发展AI。CADA主要围绕三个方向展开:首先是研究、开发与创新。欧盟将支持下一代云计算和人工智能技术研发,重点推动高性能、可持续发展的云平台和AI系统建设,提升欧洲在核心技术领域的竞争力。其次是基础设施能力建设。法案提出加快数据中心建设审批流程,并支持更多高性能数据中心落地欧洲。欧盟希望通过建设“AI工厂(AI Factories)”和“AI超级工厂(AI Gigafactories)”,向企业和科研机构提供先进算力资源。第三是云计算和AI主权。欧盟计划建立统一的云计算和AI主权评估框架,对关键领域使用的云服务和AI基础设施进行评估。未来在政府、能源、医疗、金融等关键行业,相关项目在采购时可能会更加重视数据安全、供应链可控性以及技术自主能力。
日前,AI科学家李飞飞与其创办的World Labs团队发表题为《世界模型的功能分类:渲染器、模拟器、规划器,以及连接它们的循环》的长文,试图厘清2025年以来世界模型概念在使用上的混乱。李飞飞表示,大语言模型让机器学会了遣词造句和逻辑推理,但物理世界运行的底层逻辑完全不同。语言模型学的是文本的统计规律,而世界模型学的是时空统计规律。文章分析了世界模型的三种功能,第一种世界模型是渲染器。渲染器的任务是把信息转成人眼能看的像素,这也是目前商业化跑得最快的方向。但它只管“看起来像”,不管“实际上对不对”,因为这类模型根本不掌握三维空间结构。这种输出再精美,也没法拿来做建筑设计,或者训练一个需要在真实环境里精准操作的工业机器人。第二种是模拟器,负责输出精确的物理数据。它追求的不是“看起来像”,而是结构上的正确。因为几何要经得起测量,运动要遵守牛顿定律,动力学行为要符合物理法则。这类模型同时服务两类用户:一是建筑师、设计师、影视和游戏开发者,二是强化学习智能体、机器人控制器、自动驾驶算法这类程序。模拟器的市场很大,但模拟器也最难做,挑战来自数据、偏差、计算成本。第三种是规划器,背后用的就是视觉-语言-动作模型等规划器技术。从功能逻辑上来看,渲染器与规划器互为逆运算。这三条路线各自已经撑起百亿美元级别的产业,现在正从独立发展走向融合,这正是空间智能的漫长征程。
夜雨聆风