当AI学会抓东西、画图纸、写APP,我们手里的工作还剩什么?

当AI学会抓东西、画图纸、写APP，我们手里的工作还剩什么？

#马孔多的AI电报 Vol.5

2026.06.02 — 2026.06.04 · 过去48小时AI动态

1. NVIDIA在CVPR丢了一颗”物理AI全家桶”：AI从学会说话到学会动手

6月3日，CVPR 2026在丹佛开幕。NVIDIA选在这个计算机视觉顶会上，一口气发布了覆盖自动驾驶、机器人、视觉AI的整套”物理AI Agent技能”。

核心是三件事：Alpamayo 2 Super——一个320亿参数的开源视觉-语言-行动模型，目标是L4级自动驾驶，直接从摄像头输入到方向盘输出；GraspGen-X——首个零样本抓取基础模型，在20亿次模拟抓取上训练，没见过的东西也能一把抓住；Cosmos 3——开放的世界基础模型，让AI在虚拟世界里先”想清楚再动手”。

更关键的是打包方式：NVIDIA把这些能力做成了Agent可调用的”技能”——开发者不再需要手写复杂的仿真管线，AI Agent自己就能完成场景重建、数据生成、策略训练和评估。黄仁勋的话直白：”当Agent能直接调用NVIDIA的库和模型时，物理AI的开发速度会快得惊人。”

💡 如果说2025是”AI学会聊天”的一年，2026正在变成”AI学会动手”的一年。而NVIDIA想做那个给AI发工具箱的人。

2. 达索、西门子、Cadence联手NVIDIA：AI工程师开始接手工业软件

工业软件是一个普通人不太关注、但产值惊人的领域。设计一架飞机、一块芯片、一辆汽车，需要的仿真工作量动辄以周甚至月计算。

NVIDIA NemoClaw正在改变这件事。在Computex期间的GTC Taipei上，NVIDIA宣布达索系统、西门子、Cadence和新思科技等工业软件巨头，都在基于NemoClaw构建”自主AI工程师”——能自动完成CAD设计、网格划分、仿真设置、结果分析和报告生成这一整套流程。

打个比方：以前工程师是”手动挡”——每个仿真环节都要自己操作；NemoClaw给的是一台”自动驾驶”的工程工作站，你说”优化这个机翼的减阻性能”，Agent自己去跑参数扫描、分析结果、生成建议。

西门子把NemoClaw和OpenShell集成进了Fuse EDA AI Agent，专攻半导体和3D IC设计。达索则把它嵌入了3DEXPERIENCE平台。SK海力士更激进——在”Autonomous Fab 2030″路线图里直接用NVIDIA Omniverse建半导体工厂数字孪生。

💡 AI写代码已经不够看了。下一幕：AI工程师接过CAD鼠标，开始画图纸。

3. 特朗普签署AI行政令：模型发布前政府先”体检”，但企业说了算

6月2日，特朗普签署了一份关于AI模型审查的行政令。核心内容是：AI公司在”前沿模型”广泛发布前30天，向联邦政府开放访问权限，让政府评估其网络安全能力。

但这个行政令有一个关键定语：自愿参与。原定版本曾要求强制性的90天审查期，在遭遇科技行业猛烈游说后，最终缩水为自愿+30天。白宫前AI事务主管David Sacks甚至在社交媒体上公开庆祝”阻挡了强制审批”。

行政令还要求财政部、NSA、CISA在60天内与企业共同设计一个”自愿框架”，来判断哪些模型属于”受监管前沿模型”。同时设立”网络安全信息共享中心”，协调AI可能威胁国家安全的软件漏洞。

Anthropic的Mythos模型在安全测试中的突破，是这个行政令加速出台的催化剂。OpenAI CEO Sam Altman表态支持，称行政令”维持了正确平衡”。

💡 美国政府想给AI套缰绳，但缰绳的另一头攥在企业手里。这场博弈才刚开始。

4. 阿里的”看想做验”一体机：Qwen3.7-Plus把AI从聊天框拽进了操作台

6月2日，阿里巴巴通义千问发布Qwen3.7-Plus，一个多模态混合智能体模型。

它的核心能力不是”更强的语言理解”，而是“看、想、写、做、验”五步闭环——看到屏幕上的UI界面，推理出操作逻辑，自己写代码，自己调用工具执行，再自我验证结果。发布会的演示是11小时内从零自主完成一个完整APP的开发。

在Vision Arena榜单上，Qwen3.7-Plus帮阿里挤进全球前五、中国第一。技术上，它支持图像、视频、屏幕截图、网页和文本多种输入，能在GUI、命令行和工具环境间自由切换。跨框架泛化能力也值得注意——不管你用Claude Code、OpenClaw还是Qwen Code部署，表现都稳定。

💡 当AI不再等你”问一句答一句”，而是自己打开软件、写代码、验证结果——它已经不是工具了，是同事。

5. NitroGen：NVIDIA想用打游戏来训练机器人

CVPR上还有一篇论文值得单独拎出来说。NVIDIA Research发表了NitroGen——一个通用游戏AI基础模型。

NitroGen的思路很有意思：游戏环境天然适合训练智能体——有明确的目标、反馈信号、物理规则和视觉输入。在游戏里学会的策略，可以迁移到现实世界的机器人控制上。NVIDIA把它架在Isaac GR00T平台上，从游戏到真机一步到位。

同场发表的还有GraspGen-X（零样本抓取）和LCDrive（用紧凑的隐空间表征替代昂贵的文本推理来做自动驾驶），三篇论文覆盖了”抓、开、玩”三个具身智能核心场景。

💡 让AI先打几万盘游戏再上路——NVIDIA把具身智能的训练成本，压进了显卡里。

下期见。

—— 马孔多的AI电报