当AI学会抓东西、画图纸、写APP,我们手里的工作还剩什么?
当AI学会抓东西、画图纸、写APP,我们手里的工作还剩什么?
1. NVIDIA在CVPR丢了一颗”物理AI全家桶”:AI从学会说话到学会动手
6月3日,CVPR 2026在丹佛开幕。NVIDIA选在这个计算机视觉顶会上,一口气发布了覆盖自动驾驶、机器人、视觉AI的整套”物理AI Agent技能”。
核心是三件事:Alpamayo 2 Super——一个320亿参数的开源视觉-语言-行动模型,目标是L4级自动驾驶,直接从摄像头输入到方向盘输出;GraspGen-X——首个零样本抓取基础模型,在20亿次模拟抓取上训练,没见过的东西也能一把抓住;Cosmos 3——开放的世界基础模型,让AI在虚拟世界里先”想清楚再动手”。
更关键的是打包方式:NVIDIA把这些能力做成了Agent可调用的”技能”——开发者不再需要手写复杂的仿真管线,AI Agent自己就能完成场景重建、数据生成、策略训练和评估。黄仁勋的话直白:”当Agent能直接调用NVIDIA的库和模型时,物理AI的开发速度会快得惊人。”
💡 如果说2025是”AI学会聊天”的一年,2026正在变成”AI学会动手”的一年。而NVIDIA想做那个给AI发工具箱的人。
2. 达索、西门子、Cadence联手NVIDIA:AI工程师开始接手工业软件
工业软件是一个普通人不太关注、但产值惊人的领域。设计一架飞机、一块芯片、一辆汽车,需要的仿真工作量动辄以周甚至月计算。
NVIDIA NemoClaw正在改变这件事。在Computex期间的GTC Taipei上,NVIDIA宣布达索系统、西门子、Cadence和新思科技等工业软件巨头,都在基于NemoClaw构建”自主AI工程师”——能自动完成CAD设计、网格划分、仿真设置、结果分析和报告生成这一整套流程。
打个比方:以前工程师是”手动挡”——每个仿真环节都要自己操作;NemoClaw给的是一台”自动驾驶”的工程工作站,你说”优化这个机翼的减阻性能”,Agent自己去跑参数扫描、分析结果、生成建议。
西门子把NemoClaw和OpenShell集成进了Fuse EDA AI Agent,专攻半导体和3D IC设计。达索则把它嵌入了3DEXPERIENCE平台。SK海力士更激进——在”Autonomous Fab 2030″路线图里直接用NVIDIA Omniverse建半导体工厂数字孪生。
💡 AI写代码已经不够看了。下一幕:AI工程师接过CAD鼠标,开始画图纸。
3. 特朗普签署AI行政令:模型发布前政府先”体检”,但企业说了算
6月2日,特朗普签署了一份关于AI模型审查的行政令。核心内容是:AI公司在”前沿模型”广泛发布前30天,向联邦政府开放访问权限,让政府评估其网络安全能力。
但这个行政令有一个关键定语:自愿参与。原定版本曾要求强制性的90天审查期,在遭遇科技行业猛烈游说后,最终缩水为自愿+30天。白宫前AI事务主管David Sacks甚至在社交媒体上公开庆祝”阻挡了强制审批”。
行政令还要求财政部、NSA、CISA在60天内与企业共同设计一个”自愿框架”,来判断哪些模型属于”受监管前沿模型”。同时设立”网络安全信息共享中心”,协调AI可能威胁国家安全的软件漏洞。
Anthropic的Mythos模型在安全测试中的突破,是这个行政令加速出台的催化剂。OpenAI CEO Sam Altman表态支持,称行政令”维持了正确平衡”。
💡 美国政府想给AI套缰绳,但缰绳的另一头攥在企业手里。这场博弈才刚开始。
4. 阿里的”看想做验”一体机:Qwen3.7-Plus把AI从聊天框拽进了操作台
6月2日,阿里巴巴通义千问发布Qwen3.7-Plus,一个多模态混合智能体模型。
它的核心能力不是”更强的语言理解”,而是“看、想、写、做、验”五步闭环——看到屏幕上的UI界面,推理出操作逻辑,自己写代码,自己调用工具执行,再自我验证结果。发布会的演示是11小时内从零自主完成一个完整APP的开发。
在Vision Arena榜单上,Qwen3.7-Plus帮阿里挤进全球前五、中国第一。技术上,它支持图像、视频、屏幕截图、网页和文本多种输入,能在GUI、命令行和工具环境间自由切换。跨框架泛化能力也值得注意——不管你用Claude Code、OpenClaw还是Qwen Code部署,表现都稳定。
💡 当AI不再等你”问一句答一句”,而是自己打开软件、写代码、验证结果——它已经不是工具了,是同事。
5. NitroGen:NVIDIA想用打游戏来训练机器人
CVPR上还有一篇论文值得单独拎出来说。NVIDIA Research发表了NitroGen——一个通用游戏AI基础模型。
NitroGen的思路很有意思:游戏环境天然适合训练智能体——有明确的目标、反馈信号、物理规则和视觉输入。在游戏里学会的策略,可以迁移到现实世界的机器人控制上。NVIDIA把它架在Isaac GR00T平台上,从游戏到真机一步到位。
同场发表的还有GraspGen-X(零样本抓取)和LCDrive(用紧凑的隐空间表征替代昂贵的文本推理来做自动驾驶),三篇论文覆盖了”抓、开、玩”三个具身智能核心场景。
💡 让AI先打几万盘游戏再上路——NVIDIA把具身智能的训练成本,压进了显卡里。
下期见。
—— 马孔多的AI电报
夜雨聆风