今天这锅 AI 新闻有点硬:DeepMind做 AI 研究伙伴,OpenAI交出可核验几何反例,OpenComputer让电脑智能体能被打分,GitHub上一批新项目也在暴涨。

今日出锅
今天这锅 AI 新闻,不是“模型又大了一圈”,而是它开始往“能交作业”方向挪:研究假设要能被人验证,数学证明要能同行检查,电脑操作要能用状态判分,开源项目也得真的省时间、省 token。
表面看是论文和GitHub星星乱飞,真正值得咬一口的是:AI 正在从“会说”,变成“会做一小段可验收的工作”。

头条:DeepMind 的 Co-Scientist,想当研究员的“假设搅拌机”
Google DeepMind在 5 月 19 日介绍 Co-Scientist:一个多智能体 AI 研究伙伴,核心不是替你发论文,而是帮研究者生成、辩论、迭代科学假设。
本堡翻译成人话:它像实验室里的“第二块白板”。你把问题丢进去,它先提出路线,再互相挑刺,最后把更像样的假设端出来。别急着封神,真正的科学还得靠实验和同行评审;但“找方向”这件事,AI 已经开始进厨房打下手了。

快讯 1:OpenAI 的几何反例,重点是“可核验”
OpenAI称其模型推翻离散几何里一个近 80 年的中心猜想,并放出 proof 和 companion remarks。重点不是“AI 会所有数学”,而是它交出了一份能被外部数学家检查的作业。
这对科研 AI 很关键:以后别只问“它答得像不像”,要问“它能不能被验证”。

快讯 2:OpenComputer 让电脑智能体别再靠嘴硬
arXiv 新文 OpenComputer做了一件很朴素但重要的事:给 computer-use agents 搭了可验证软件世界,覆盖 33 个桌面应用和 1000 个任务。
本堡理解:过去看 AI 操作电脑,容易变成“看起来很忙”;现在开始有人追问“文件到底改没改对、按钮到底点没点对”。这才是办公智能体从演示走向生产的地板砖。

快讯 3:具身智能这边,腾讯混元在补“脑”和“世界”
HY-Embodied-0.5 面向真实具身智能,强调空间时间视觉、具身推理和机器人控制;HY-World 2.0则把文本、图片、视频等输入变成可导航的 3D 世界。
这俩放一起看很有意思:一个偏“机器人怎么理解世界”,一个偏“世界怎么被生成和仿真”。机器狗、机械臂、人形机器人以后要干正事,光会摆动作不够,得先看懂环境、规划动作、还能在虚拟世界里练练手。

快讯 4:GitHub 星标升温,三个项目值得尝一口
open-design:创建不到一个月,GitHub API 快照约 4.86 万星,主打本地优先的 agent-native 设计工具。适合盯“AI 做网页、海报、原型”的读者。
caveman:约 6.31 万星,核心梗是“少说人话多干活”,用更短输出减少 agent token。好笑,但也戳中成本痛点。
ds4:antirez 做的 DeepSeek 4 Flash 本地推理引擎,约 1.11 万星,押注高端本地机器上的长上下文与 agent 集成。适合硬核玩家,不适合一键小白。



本堡判断
今天的主线不是“AI 要取代科学家、程序员、设计师”,而是更现实的一步:AI 的输出正在被迫变成可检查、可复现、可接进工作流的东西。
星标涨得快很香,但别生吃;先看许可证、维护节奏、实际安装成本和有没有第三方复核。热度是闻起来香,能不能上桌还得再烤一会儿。
你更想本堡明天追哪条:A. 会做科研的 AI;B. GitHub暴涨项目实测;C. 具身智能和机器狗下一步?
夜雨聆风