AiWeekly | 每周AI热点精选 05.25-05.31

技术动态

阶跃星辰：发布并开源Step 3.7 Flash

5月29日，阶跃星辰发布并开源Step 3.7 Flash，是面向Agent生产化阶段推出的新一代 Flash模型。

Step 3.7 Flash采用稀疏混合专家架构，总参数量196B，但推理激活参数仅11B。它具备原生多模态理解、深度联网搜索、高可靠工具调用等核心能力，适用于高频调用和长程任务场景，能显著降低Agent开发成本并提升执行效率。

Model Page：

https://static.stepfun.com/blog/step-3.7-flash

GitHub：

https://github.com/stepfun-ai/Step-3.7-Flash

Huggingface：

https://huggingface.co/stepfun-ai/Step-3.7-Flash

Modelscope：

https://modelscope.cn/models/stepfun-ai/Step-3.7-Flash

原文链接>> 阶跃发布 Step 3.7 Flash，面向生产级 Agent 的高效率 Flash 模型

02-1

自变量机器人：发布具备"事件级预测能力"的世界模型WALL-WM

5月29日，自变量机器人发布具备"事件级预测能力"的世界模型WALL-WM。

WALL-WM通过单向耦合视觉与动作模块、多视角几何约束等技术，解决了跨模态先验扭曲问题，并支持事件模式（灵活输出完整动作单元）与统一模式（实时固定频率控制）双部署形态。其核心突破在于以动作语义事件（如抓取、移动等）作为预测单位，而非传统按固定时间帧预测。

GitHub：

https://github.com/X-Square-Robot/wall-x

项目主页：

https://x2robot.com/pages/wm

原文链接>> 自变量发布“事件级”世界模型WALL-WM，让模型学会抓重点

02-2

自变量机器人：开源预训练具身大模型Wall-OSS-0.5

5月28日，自变量机器人开源Wall-OSS-0.5预训练具身大模型，在20多种机器人形态、100万条轨迹及9000万多模态语料上完成预训练。

其核心突破在于实现了预训练后无需任务微调即可在真实机器人上直接部署，即“预训练即策略”（Pretrain Once, Act Anywhere）。其独创梯度桥接协同训练、视觉对齐动作Tokenizer与DMuon分布式优化器，将Muon开销缩减约100倍。

GitHub:

https://github.com/X-Square-Robot/wall-x

Huggingface:

https://huggingface.co/x-square-robot/wall-oss-0.5

项目链接:

https://x2robot.com/oss#resources

论文链接:

https://x2robot.com/api/files/file/wall_oss_05.pdf

原文链接>> Wall-OSS-0.5开源，预训练后可直接部署

Genesis AI：发布机器人全栈仿真基础设施Genesis World 1.0

5 月 28 日，Genesis AI 发布机器人全栈仿真基础设施Genesis World 1.0，并开源了三套核心项目：Genesis World物理仿真平台、Quadrants跨平台GPU编译器，以及Nyx写实渲染器。

Genesis World 1.0通过高保真模拟真实世界的物理交互，将机器人模型测试时间从现实中的200多小时压缩至0.5小时内，仿真与真实操作的相关性达89%。其创新点在于采用自研的NyX渲染器处理实时光照和Quadrants编译器实现跨平台加速，特别擅长模拟布料、绳索等软物体的交互，已应用于番茄炒蛋等精细任务的训练。

开源地址：

https://github.com/Genesis-Embodied-AI/quadrants

原文链接>> 让机器人学会番茄炒蛋爆红网络的 Genesis AI，开源了自己的机器人「训练场」

腾讯：发布混元Hy-Memory

5月28日，腾讯混元正式推出 Hy-Memory，这是一个专门为长期协作型Agent设计的记忆插件。

Hy-Memory采用6层记忆框架×System1/System2双系统×演化链三层架构，独创演化链通过supersedes指针串联新旧记忆，搜索时整条链自动展开，让Agent既能掌握最新判断又不丢失因果路径。

项目地址：

https://memory.hunyuan.tencent.com

使用文档：

https://memory.hunyuan.tencent.com/openclaw

原文链接>> Hy-Memory发布：打造记忆力超强的Agent第二大脑

蛋白质结构预测AI模型ESMFold2发布

5 月 27 日，Meta前大模型团队负责人Alex Rives领衔、陈·扎克伯格生物中心（Chan Zuckerberg Biohub）团队打造的蛋白质结构预测AI模型ESMFold2正式面世，并开源包含 11 亿个预测蛋白质结构和 68 亿条蛋白质序列的超巨型数据库ESM Atlas。

ESMFold2采用蛋白质语言模型（Protein Language Model）架构，设计算法采用简单方法，通过序列和结构联合模型寻找预测会与目标结合的蛋白质。数据库ESM Atlas通过蛋白质语言模型ESMC学习进化序列的统计规律，将结构预测与功能检索整合为可搜索图谱，支持跨物种结构相似性检索和抗体设计等应用。

论文地址：

https://www.nature.com/articles/d41586-026-01686-3

原文链接>> 正式面世，用10亿开源蛋白质图谱拓展生命科学的边界

昆仑万维：天工AI推出高性能Agent模型SkyClaw-v1.0

5月26日，天工AI正式推出高性能Agent模型SkyClaw-v1.0，并同步发布轻量化版本SkyClaw-v1.0-lite。

SkyClaw-v1.0支持百万token上下文，深度适配各类真实智能体工作场景，重点优化复杂工具调用、多轮任务执行、代码生成、文件编辑、交互式应用构建与研究型数据分析。模型可在OpenClaw、Hermes、Nanobot等主流Agent环境中运行，同时适配Claude Code、Codex等代码 Agent 框架，通用性与兼容性拉满。

项目地址：

https://skyworkai.github.io/skyclaw

原文链接>> 天工AI发布SkyClaw-v1.0：面向真实工作流的百万上下文 Agent 模型

快手：发布多模态大语言模型Keye-VL-2.0-30B-A3B

5月26日，快手发布多模态大语言模型Keye-VL-2.0-30B-A3B。

Keye-VL-2.0-30B-A3B核心突破在于将DSA（DeepSeek Sparse Attention）机制引入多模态理解场景。支持256K超长上下文处理，在长视频时序理解上实现无损推理，能精准捕捉关键帧并建立时序因果链条，已应用于快手内容推荐、广告投放等场景。此外，它还解锁Agent协作机制，具备代码解析、工具调用等复杂任务执行能力，通过强化学习体系显著提升了推理稳定性。

ModelScope：

https://modelscope.cn/models/Kwai-Keye/Keye-VL-2.0-30B-A3B

GitHub：

https://github.com/Kwai-Keye/Keye

原文链接>> 将DSA注意力引入多模态，快手Keye2.0开启强化推理新范式

群核科技：开源3D高斯浏览器Aholo Viewer

5月25日，群核科技正式开源3D高斯浏览器Aholo Viewer，不用复杂操作，不用安装客户端，手机、电脑、VR设备都能打开。

Aholo Viewer浏览器通过分块式LOD技术优化内存占用，兼容主流3D高斯格式、自带高质量LOD生成与碰撞体生成工具，开箱即用，配套平台开放空间重建、云端渲染、图生3D等一整套API，应用场景涵盖数字文旅、影视制作和机器人训练等。

开源地址：

https://github.com/manycoretech/aholo-viewer

原文链接>> 开源3D高斯浏览器，手机也能流畅逛超大3D世界！

面壁智能：与OpenBMB联合举办「端侧大模型开源周」

5月26日，面壁智能联合清华大学、OpenBMB开源社区正式发布并开源端侧文本基座大模型MiniCPM5-1B。采用Llama架构，支持131k超长上下文和INT4量化（仅0.5GB），可在手机/浏览器本地运行。

HuggingFace：

https://huggingface.openbmb.com/model/openbmb/MiniCPM5-1B

GitHub：

https://github.com/OpenBMB/MiniCPM

ModelScope：

https://modelscope.cn/models/OpenBMB/MiniCPM5-1B

5月27日，面壁智能联合清华大学、OpenBMB 开源社区正式发布 ForgeTrain——全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。框架采用Forge Engineering三阶段方法论（立标准→逐比特对齐→性能反超），通过自动化评测系统（Harness）确保AI生成代码的正确性与性能优化，支持跨硬件平台的分布式训练。

GitHub：

https://github.com/OpenBMB/ForgeTrain

5月28日，清华大学THUNLP实验室、面壁智能、OpenBMB与AI9stars联合研发并开源的全新智能体操作系统 PilotDeck。系统采用TypeScript和React开发，旨在通过Workspace工作舱实现多AI智能体的高效协同管理；核心功能包括白盒记忆管理（允许编辑和回滚记忆）、智能路由（自动匹配任务难度与模型类型以降低70%成本）、Always-on后台执行（支持离线任务处理）；支持Web/桌面/CLI多端适配，适用于内容创作、代码开发等场景。

GitHub：

https://github.com/OpenBMB/PilotDeck

官网：

https://pilotdeck.openbmb.cn

5月29日，面壁智能联合清华大学、OpenBMB 开源社区联合发布并开源两大最新数据集：Ultra-FineWeb-L3 与 UltraData-SFT-2605。Ultra-FineWeb-L3包含高质量中文+英文网页合成数据，总量突破600B Tokens，中文占据200B+ Tokens；UltraData-SFT-2605 是千万级、包含深思考与非思考标注的SFT数据集；两大数据集均基于面壁智能独创的 UltraData 数据分级治理体系构建。

Hugging Face：

https://huggingface.co/collections/openbmb/ultradata

Ultra-FineWeb-L3：

https://huggingface.co/datasets/openbmb/Ultra-FineWeb-L3

UltraData-SFT-2605：

https://huggingface.co/datasets/openbmb/UltraData-SFT-2605

原文链接>> MiniCPM5-1B 正式发布并开源；面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain；PilotDeck 开源：一人，一桌面，有序管理一支 AI 智能体团队；面壁智能开源千万级 SFT 与最大中文合成数据，MiniCPM5‑1B 核心数据公开

行业动态

ElevenLabs：正式发布音乐生成大模型Music v2

5月29日，ElevenLabs正式发布音乐生成大模型Music v2。

Music v2主要突破在于支持单首曲目内的风格无缝切换（如从歌剧到重金属），并能精准处理复杂人声和快速说唱。模型允许用户分段创作歌曲，或单独修改某段落而不影响整体结构，同时兼容非音乐音效（如环境声）。已上线ElevenMusic和ElevenCreative平台，API接口即将开放。

原文链接>> ElevenLabs全新音乐模型V2震撼发布，人声编曲能力大跃升

讯飞：发布AI眼镜

5月29日，讯飞在澳门发布AI眼镜，定位为"眼前的超级AI助理"。

该产品主打40克超轻机身、122种语言实时翻译（含视觉翻译）及GlassClaw AI助理功能；采用单绿色Micro-LED微显示光机和全贴合树脂波导技术，配备唇动降噪系统提升嘈杂环境下的翻译准确性；支持会议纪要生成、多模态任务执行等场景，主打商务及跨语言沟通需求。

原文链接>> 在澳门，正式发布！

腾讯：发布AI游戏创作平台「代号Craft」

5月28日，腾讯SPARK 2026游戏发布会上，发布AI 游戏创作平台“代号Craft”。

Craft由腾讯游戏生态发展部自研，通过自然语言与AI对话可快速生成2D/3D游戏原型，用户只需输入文字描述，就能自动生成角色、场景和玩法逻辑。内置完整AIGC工具链并免费开放超万种预制美术资产，还提供可视化参数调优功能，单人即可完成从创意到成品的全流程开发，显著降低了传统开发中美术和技术门槛，让游戏创意能从想法快速落地为可玩作品。

原文链接>> 下限零基础，上限肝大作！腾讯这个AI游戏创作平台，太野了

阿里：通义千问升级“拍照问健康”能力

5月27日，通义千问升级“拍照问健康”能力，通过视觉圈选、联动推理和过程透明等核心功能，提升了健康辅助诊断的可靠性。

上传检查单、患处照片等医学图像后，能像医生看诊一样推理：先在原图中圈出异常区域和关键信息，再自主调用专业健康知识库，结合图像细节、医学知识和用户情况逐步推理，给出诊断参考。

原文链接>> “不要担心”！千问拍照问健康进一步升级

支付宝：推出全栈AI原生支付体系

5月26日，支付宝发布Token Pay服务和AI钱包产品，连同此前推出的AI付与AI收，构建了面向AI时代的全栈AI原生支付体系，涵盖了从授权到管理、从支付到结算、从安全到信任的完整服务。

原文链接>> 支付宝AI支付3！亿！笔！

华为：正式发表半导体领域“韬（τ）定律”

5月25日，2026国际电路与系统研讨会上，华为公司董事、半导体业务部总裁何庭波在题为《半导体新路径探索与实践》的主旨演讲中，正式发表“韬（τ）定律”，这是中国在全球半导体领域首次提出指导产业发展的新原则。

“韬定律”提出以“时间缩微”替代“几何缩微”，以系统性降低时间常数（韬τ）为目标，通过逻辑折叠等创新技术，持续压缩信号传播时延，不断提升晶体管密度，实现半导体与电子系统的持续演进。“韬定律”构建了贯穿器件、电路、芯片到系统层面的多层级协同优化体系。预计到2031年，基于该定律的高端芯片晶体管密度将达到1.4纳米制程的同等水平。