三件大事
CVPR 2026 开幕:孙剑的时间检验奖,全场起立
CVPR 今年收到 16,092 篇投稿,比去年涨了 24%,中国作者 23,233 人,是美国的三倍。这些数字本身没什么惊喜,中国在 CV 领域的统治力已经是常识了。
真正让人破防的是时间检验奖。2016 年的 ResNet 获奖,而它的第一作者孙剑博士已经不在了。全场起立致敬的时候,很多人是红着眼的。ResNet 解决了深层网络训练的退化问题,直接奠定了今天所有大模型的底层基础——没有 skip connection,就没有后来的一切。
另一个让人振奋的故事:广东工业大学的本科生团队,用几张"古董级" Titan 显卡,做了一个 Training-free 的图像编辑方法,拿下了最佳学生论文荣誉提名。在算力军备竞赛的今天,这个故事像一盆冷水——有时候聪明比有钱重要。
苹果给 Siri 办"告别演出"
WWDC 2026 还没开,但爆料已经把底裤扒得差不多了。古尔曼的信息量一如既往地大:Siri 要从一个"听指令的语音助手"变成"全天候 AI 伴侣"。
变化不小:灵动岛变成了 Siri 的新入口,从屏幕顶部下滑会出现"搜索或询问"面板,Siri 终于有了自己的独立 App——界面长得像 ChatGPT,支持多轮对话、图片附件、iCloud 同步。底层跑的是 Gemini 模型,托管在谷歌云上。
更值得关注的是苹果悄悄搞了个自研搜索引擎,内置在 Siri 里,对标 Perplexity。iOS 27 的相机和照片也要做 AI 改造:视觉智能整合进相机、AI 扩展生成画外内容、空间照片重新构图。
但说实话,这些都是在"补课"。苹果智能发布两年了,跳票、集体诉讼、功能缩水……库克的最后一届 WWDC,与其说是开创新局面,不如说是把之前吹的牛尽量兑现一部分。
英伟达也缺算力?研究员"叛逃"xAI 的真实内幕
前英伟达研究员 Ethan He 的访谈很有意思。他在英伟达做 Cosmos 世界模型,做完发现——视频模型也有 scaling law,需要更多算力。但连英伟达都给不了他想要的资源。于是他去了 xAI。
三个月,几个人,从零搭出了 Grok Imagine 0.9。
他的几个判断值得关注:视频模型的真实成本远不止 GPU——数据标注、PB 级存储、云端带宽、音视频时间戳对齐,都是隐性吞金兽。另外,视频模型的关键进步越来越多来自语言模型而非视频模型本身。视觉智能,本质上是语言智能在驱动。
他还预测,视频生成的下一次跃迁不是更强的扩散模型,而是视频智能体——从一次性生成视频,走向能规划任务、调用工具、交付生产级内容的 Agent。
其他值得关注的事
Anthropic 呼吁暂停 AI 研发,顺便自曝 80% 代码是 AI 写的。 这两个信息放在一起有种微妙的荒诞感——一边说"AI 太危险了我们要暂停",一边说"我们自己的代码 80% 靠 AI 写"。当然,Anthropic 的意思不是完全停止,而是呼吁前沿实验室建立协调暂停机制。但这个时机选择确实让人浮想联翩。
OpenAI 大量账号被封,系统 bug 搞的乌龙。 昨天很多用户发现 ChatGPT、Codex、API 账号突然被封,没有任何预警。OpenAI 花了几个小时排查,最后确认是系统问题导致的误封,目前已全部恢复。但这种"误封"对用户的信任伤害不小——你的工作流随时可能因为一个 bug 而中断。
Codex 新增代码审查功能。 现在可以在 Codex 界面里直接审查 AI 的代码修改,对特定代码段写评论,评论会自动作为上下文发给 Agent 处理。人机协作的代码编辑又往前走了一步。
开源模型微调可替代 Claude,成本降到 1/11。 Harvey 的实验显示,对 Kimi 2.6 做 SFT 后,法律任务通过率从 11% 提到 15%,超过 Opus 的 14%,成本只有 954。混合方案(GLM 5.1 主力 + Opus 4.7 顾问)在质量和成本上都赢了纯 Opus。开源替代 Claude 的路径越来越清晰。
Cursor 推出 Design Mode。 在浏览器里直接点击、绘制或语音指令就能修改 UI,不用手动定位代码。前端开发的门槛又降低了一点。
港股鞋王千百度收购 AI 数据公司。 千百度(一家鞋履公司)收购了本原智数,形成"鞋履+AI 数据"双主业。本原智数 2025 年收入 1.56 亿,已经盈利。核心观点:AI 的瓶颈正从模型规模转向高质量数据供给。算力可以买,算法可以复现,数据买不到也快不了。
港科大学霸做出百亿机器人独角兽。 普渡机器人估值突破百亿,全球商用服务机器人市占率第一(23%),累计出货 13 万台,覆盖 80 多个国家。清洁线营收占比已超 70%,海外营收超 80%。
Hermes Agent:会"记住昨天"的开源 AI Agent。 Nous Research 的 Hermes Agent 核心卖点是闭环学习——成功完成任务后,Agent 会自动把步骤编码成可复用的 Skill 文档,下次直接引用。四层记忆系统、Skills vs Tools 的架构区分、深度研究的并行子 Agent 设计都值得研究。GitHub 6.4 万星。
一个观察
今天最触动我的是 CVPR 上的故事。一方面,ResNet 获奖时全场缅怀孙剑,让人意识到我们今天用的所有大模型,底层都站着一个已经离开的人。另一方面,广工本科生用几张旧 Titan 显卡拿下顶会大奖——在一个越来越被资本和算力定义的行业里,纯粹的热爱和巧妙的构思依然有立足之地。
这两个故事放在一起,像是 CV 领域的某种精神传承:前辈打下了地基,后辈在有限的资源里继续创造。技术的进步不只是参数和规模,也是人。
夜雨聆风