
AI前沿日报 05.31-06.01|RTX Spark把本地Agent装进PC,NVIDIA开放物理AI技能
01 今日速览
NVIDIA 与 Microsoft 推出面向个人 Agent 的 RTX Spark Windows PC 方案。新设备最高提供 1 petaflop AI 性能和 128GB 统一内存,可以在本地运行 120B 参数大模型,并支持最高 100 万 token 上下文。
NVIDIA 发布 Cosmos 3,这是面向 Physical AI 的开放世界模型。它可以同时处理文字、图像、视频、环境声音和动作,用于生成合成数据、训练机器人和自动驾驶模型。
NVIDIA 开源一组 Physical AI Agent 技能和工具,覆盖机器人、自动驾驶、视觉 AI、工业数字孪生等场景。这些 skill 把数据生成、仿真、训练、评估、部署流程拆成 Agent 可以调用的标准步骤。
NVIDIA 推出 Isaac GR00T 开源人形机器人参考设计,由 Unitree H2 Plus 机器人本体、Sharpa Wave 触觉五指灵巧手、Jetson Thor 计算平台和 Isaac GR00T 软件栈组成。
OpenAI Robotics 开始招聘全栈硬件、机器人系统、机器学习和运营工程师。OpenAI 的机器人路线不是先做家庭陪伴,而是先靠近基建、工厂、数据中心这类更明确的工作场景。
阿里巴巴成为 UEFA Champions League、Europa League、Conference League 和 EURO 2028 的官方 AI、云计算和电商合作伙伴。合作周期覆盖 2027/2028 赛季至 2032/2033 赛季,Qwen 大模型和阿里云将用于球迷体验、AI 能力建设和官方商品电商。
02 海外新产品 / 新业态
1. RTX Spark:AI PC 从“带 NPU”变成“本地 Agent 工作站”
NVIDIA 和 Microsoft 推出的 RTX Spark,瞄准的是本地个人 Agent。它不是给普通 PC 多加一个 AI 快捷键,而是把 GPU、CPU、统一内存、CUDA、Windows 安全机制和 OpenShell 运行环境放进同一套设备里。官方参数显示,RTX Spark 可提供 1 petaflop AI 性能、最高 128GB 统一内存,并支持在本地运行 120B 参数大模型和最高 100 万 token 上下文。
统一内存的意思是 CPU 和 GPU 可以共享同一块大容量内存。对本地 Agent 来说,这比单纯算力数字更关键。一个个人 Agent 要同时读文件、看代码、检索邮件、理解网页、调用本地工具,还要保留长上下文。如果内存不够,Agent 只能频繁切换、压缩、丢上下文,体验会变成“它好像很聪明,但总是忘事”。
AI PC 过去经常被包装成“电脑里有个助手”。RTX Spark 这类设备把产品问题往前推了一层:个人电脑能不能成为本地 Agent 的运行环境。它处理的是隐私、延迟和成本三件事。隐私敏感的本地文件不一定要上传云端;代码、视频、3D 场景可以在本地处理;长时间自动化任务不必全部消耗云端 token。
本地 Agent 也会改变产品设计。以前 AI 产品默认把请求发到云模型,开发者只需要设计网页或 App。现在产品要判断:哪些任务放本地,哪些任务调用云端,哪些文件允许 Agent 读取,哪些操作必须用户确认,哪些模型在本地够用。AI PC 不只是硬件升级,它会迫使 AI 应用重新设计“本地—云端”的任务分配。
Adobe 已经在为 RTX Spark 重构 Photoshop 和 Premiere,设备也会由 ASUS、Dell、HP、Lenovo、Microsoft Surface、MSI 等厂商推出。创意工具会是第一批吃到本地算力的产品,因为 12K 视频、90GB 以上 3D 场景、高清图像编辑都很吃内存和 GPU。
2. OpenAI Robotics:机器人路线先从“帮熟练工人”开始
OpenAI Robotics 正在招聘硬件、系统、机器学习和运营工程师。公开招聘信息显示,短期重点是开发帮助熟练工人建设未来基础设施的机器人,长期愿景才是面向所有人的个人机器人。
家用机器人听起来有想象力,但产品难度很高。家庭环境太不标准:家具摆放不同,杂物随处变化,儿童、宠物、老人、玻璃杯、湿滑地面都会带来不可控风险。相比之下,工厂、仓库、数据中心、施工现场的任务更明确,环境更容易管理,安全边界也更容易设计。
OpenAI 过去几年做了很多世界模拟、多模态和视频生成工作。机器人是这些能力的自然延伸:模型不只要理解图像和语言,还要把理解转成动作。屏幕里的 Agent 做错了可以撤销,机器人做错了可能撞坏设备、伤到人或中断生产流程。机器人产品的第一批场景更可能是有监督、有流程、有责任人的工作环境。
这也解释了为什么 OpenAI 的短期目标不是“陪你聊天的家用机器人”。更适合先做的,是帮工人搬运、检测、装配、巡检、记录和辅助操作。机器人商业化不是把 ChatGPT 装进身体,而是把模型、传感器、机械结构、任务流程和安全系统放在一起设计。
3. 阿里与 UEFA 合作:体育 AI 从“直播辅助”进入观赛和电商闭环
阿里巴巴成为 UEFA 旗下多项赛事的官方 AI、云计算和电商合作伙伴,合作覆盖 Champions League、Europa League、Conference League,以及 EURO 2028。公开信息显示,阿里云基础设施和 Qwen 大模型将支持 UEFA 建设下一代 AI 能力,并结合全球电商网络服务官方商品销售。
体育赛事天然有大量实时内容:比赛画面、球员数据、历史统计、社交讨论、战术复盘、多语言解说、赛后集锦。AI 可以把这些内容转成个性化观赛体验,比如自动生成某个球员的高光、给新球迷解释战术、用本地语言回答比赛问题、为不同国家用户推荐相关内容。
03 新技术 / 技术底座
1. Cosmos 3:机器人和自动驾驶需要可生成的“虚拟训练世界”
NVIDIA 发布 Cosmos 3,定位为面向 Physical AI 的开放世界模型。它可以同时处理文字、图像、视频、环境声音和动作,用于合成数据生成、物理 AI 策略模型开发和机器人训练。它的模型结构结合了视觉推理、世界生成和动作预测。
世界模型解决的是机器人和自动驾驶训练里的数据问题。真实世界数据贵、慢、危险,而且覆盖不了所有极端情况。自动驾驶不可能靠真实道路测试收集所有事故边缘场景;机器人也不可能在真实仓库里无限试错。世界模型的作用,是生成和模拟大量可能场景,让模型先在虚拟环境里学习。
Cosmos 3 不是一个“生成好看视频”的模型。它要生成的是能训练和评估物理系统的场景。比如一个机器人伸手拿物体,模型需要预测物体是否滑落、遮挡如何变化、手的位置是否合理;一辆车遇到雨夜、施工、行人横穿,模型要能生成可用于测试的场景。
NVIDIA 称,Cosmos 3 可以把 Physical AI 训练和评估周期从数月缩短到数天。这个表述需要看后续真实部署验证。
2. Physical AI Agent Skills:把机器人开发流程拆成 Agent 能执行的步骤
NVIDIA 开源了一组 Physical AI Agent skills 和工具,覆盖 Omniverse、Cosmos、Alpamayo、Metropolis 等平台,面向机器人、自动驾驶、视觉 AI 和工业数字孪生。skill 在这里不是聊天插件,而是 Agent 可以执行的任务说明书。
机器人开发不是只有训练模型。完整流程包括合成数据生成、传感器仿真、场景构建、模型训练、策略评估、故障复现、部署验证。每一步都要调用不同工具。过去这些流程依赖工程师手工串联,现在 NVIDIA 把它们拆成 Agent 可以调用的 skills。
工业软件公司也在接入这套方向。NVIDIA 提到 Cadence、Dassault、Siemens、Synopsys 等公司使用 NemoClaw 和 OpenShell 构建面向仿真、验证和工程流程的自主 AI 工程师。这里的产品逻辑不是让 Agent 聊工程问题,而是让它能调用专业软件,跑仿真,检查结果,缩短工程迭代。
3. Isaac GR00T 参考人形机器人:把“身体、手、计算、软件”标准化
NVIDIA 推出 Isaac GR00T 开源人形机器人参考设计,组合了 Unitree H2 Plus 机器人本体、Sharpa Wave 触觉五指灵巧手、Jetson Thor 计算平台和 Isaac GR00T 软件开发栈。
人形机器人开发长期存在一个问题:每家公司硬件不一样,手不一样,传感器不一样,控制接口不一样。模型在一台机器人上学会的技能,很难迁移到另一台机器人。标准参考设计的价值,是让研究者和开发者至少有一套共同的“身体”。
五指灵巧手尤其关键。很多机器人 demo 看起来像人在移动,但真正执行任务靠的是手。拿杯子、拧瓶盖、抓软物体、开抽屉、插线,这些动作都需要触觉和精细控制。只有移动能力没有手,机器人很难进入真实工作。
Jetson Thor 则解决本体计算问题。机器人不能所有动作都依赖云端推理,延迟、安全和断网都会成为风险。参考设计把本地计算、动作模型和开发工具放在一套栈里,方便开发者围绕同一个硬件平台训练、测试和复现技能。
04 开发者生态 / 开源项目
1. GrepSeek 与 LongTraceRL:搜索 Agent 训练开始重视“查找轨迹”
Hugging Face 6 月 1 日榜单出现 GrepSeek 和 LongTraceRL。前者题目指向训练能直接与语料库交互的搜索 Agent,后者关注从搜索 Agent 轨迹中学习长上下文推理。
研究型 Agent 的难点不是打开搜索框,而是如何查。它要决定先查什么关键词,读哪些结果,什么时候换搜索方向,哪些证据保留,哪些内容丢弃。最终报告只是结果,真正决定质量的是中间搜索轨迹。
如果训练只看最终答案,模型很难学会好的搜索策略。LongTraceRL 这类方向把搜索过程本身变成训练材料,让模型学习长任务里怎么找证据、怎么修正查询、怎么避免被错误结果带偏。
这对 AI 产品有直接影响。Deep Research、投研助手、法律检索、企业知识库 Agent 都不是“问一句答一句”。它们需要长时间查资料、比较来源、留下引用和证据链。搜索轨迹训练会决定这类产品是“像在认真研究”,还是“只是把网页摘要拼起来”。
05 商业化落地
1. TSMC 把 NVIDIA AI 工具接进晶圆厂流程
TSMC 正在把 NVIDIA CUDA-X、cuLitho、cuEST、Metropolis、TAO Toolkit 和 Omniverse 等工具用于半导体制造。应用场景包括计算光刻、晶体管和工艺仿真、缺陷检测、先进制程控制、晶圆厂运营优化和虚拟晶圆厂环境 FabTwin。
这类 AI 应用不是内容生成,而是进入制造流程。计算光刻用于把芯片设计图案更准确地转移到硅片上;工艺仿真用于提前预测材料、化学和设备条件;缺陷检测用于在纳米尺度上发现问题;数字孪生则把晶圆厂里的工具布局、物流和流程放到虚拟环境里模拟。
NVIDIA 称 cuLitho 相比 CPU 计算光刻可提升 20% 到 50% 成本效率和周期时间,cuEST 在化学仿真上平均快 50 倍。具体效果要看不同工艺节点和生产环境,但它说明一个清晰变化:半导体制造正在用 AI 压缩仿真、检测和流程优化时间。
这类垂直 AI 产品的客户少,但价值高。晶圆厂每缩短一次迭代、每减少一类缺陷、每提升一点良率,都可能对应巨大商业价值。AI 在制造业里的产品形态,不是一个助手,而是嵌在仿真、检测、控制和调度系统里的能力。
夜雨聆风