AI开始交研究作业了:论文能验,开源能上手

今天这锅 AI 新闻有点硬：DeepMind做 AI 研究伙伴，OpenAI交出可核验几何反例，OpenComputer让电脑智能体能被打分，GitHub上一批新项目也在暴涨。

今日出锅

今天这锅 AI 新闻，不是“模型又大了一圈”，而是它开始往“能交作业”方向挪：研究假设要能被人验证，数学证明要能同行检查，电脑操作要能用状态判分，开源项目也得真的省时间、省 token。

表面看是论文和GitHub星星乱飞，真正值得咬一口的是：AI 正在从“会说”，变成“会做一小段可验收的工作”。

头条：DeepMind 的 Co-Scientist，想当研究员的“假设搅拌机”

Google DeepMind在 5 月 19 日介绍 Co-Scientist：一个多智能体 AI 研究伙伴，核心不是替你发论文，而是帮研究者生成、辩论、迭代科学假设。

本堡翻译成人话：它像实验室里的“第二块白板”。你把问题丢进去，它先提出路线，再互相挑刺，最后把更像样的假设端出来。别急着封神，真正的科学还得靠实验和同行评审；但“找方向”这件事，AI 已经开始进厨房打下手了。

快讯 1：OpenAI 的几何反例，重点是“可核验”

OpenAI称其模型推翻离散几何里一个近 80 年的中心猜想，并放出 proof 和 companion remarks。重点不是“AI 会所有数学”，而是它交出了一份能被外部数学家检查的作业。

这对科研 AI 很关键：以后别只问“它答得像不像”，要问“它能不能被验证”。

快讯 2：OpenComputer 让电脑智能体别再靠嘴硬

arXiv 新文 OpenComputer做了一件很朴素但重要的事：给 computer-use agents 搭了可验证软件世界，覆盖 33 个桌面应用和 1000 个任务。

本堡理解：过去看 AI 操作电脑，容易变成“看起来很忙”；现在开始有人追问“文件到底改没改对、按钮到底点没点对”。这才是办公智能体从演示走向生产的地板砖。

快讯 3：具身智能这边，腾讯混元在补“脑”和“世界”

HY-Embodied-0.5 面向真实具身智能，强调空间时间视觉、具身推理和机器人控制；HY-World 2.0则把文本、图片、视频等输入变成可导航的 3D 世界。

这俩放一起看很有意思：一个偏“机器人怎么理解世界”，一个偏“世界怎么被生成和仿真”。机器狗、机械臂、人形机器人以后要干正事，光会摆动作不够，得先看懂环境、规划动作、还能在虚拟世界里练练手。

快讯 4：GitHub 星标升温，三个项目值得尝一口

open-design：创建不到一个月，GitHub API 快照约 4.86 万星，主打本地优先的 agent-native 设计工具。适合盯“AI 做网页、海报、原型”的读者。

caveman：约 6.31 万星，核心梗是“少说人话多干活”，用更短输出减少 agent token。好笑，但也戳中成本痛点。

ds4：antirez 做的 DeepSeek 4 Flash 本地推理引擎，约 1.11 万星，押注高端本地机器上的长上下文与 agent 集成。适合硬核玩家，不适合一键小白。

本堡判断

今天的主线不是“AI 要取代科学家、程序员、设计师”，而是更现实的一步：AI 的输出正在被迫变成可检查、可复现、可接进工作流的东西。

星标涨得快很香，但别生吃；先看许可证、维护节奏、实际安装成本和有没有第三方复核。热度是闻起来香，能不能上桌还得再烤一会儿。

你更想本堡明天追哪条：A. 会做科研的 AI；B. GitHub暴涨项目实测；C. 具身智能和机器狗下一步？