Google DeepMind 刚刚把 AI 在编程上的策略应用到了数学领域:不要直接让模型给出答案,而是给一整个代理团队一个协作工作空间。这家公司的 AI 数学协作系统刚刚在一个专门用来“难倒 AI 数十年”的基准测试上创下新纪录,甚至有一位教授利用系统某个被审稿代理否决掉的证明中隐藏的策略,解决了一个尚未被攻克的问题。
在今天的 AI 速览中:
Google DeepMind 的 AI 数学协作系统
使用 Codex 自动化任何手动任务
AI 从 NASA 数据中发现 100 多颗新系外行星
新 AI 工具等更多内容
🧮 Google DeepMind 的 AI 数学协作系统

图片来源:Pushmeet Kohli(X 平台 @pushmeet)
Google DeepMind 刚刚发布了一篇关于其 AI 数学协作系统的论文。这是一套基于 Gemini 3.1 的代理式系统,旨在帮助数学家解决尚未攻克的问题,并在研究级数学问题基准测试中创下新高。
DeepMind 将该工具设计成类似 Claude Code 这类 AI 编程环境,把代理团队与内置审查循环引入数学研究。
一个协调代理会把研究任务拆分成并行工作流,每条工作流下又有子代理负责写代码、检索文献以及尝试证明。
牛津大学的 Marc Lackenby 在系统某个被拒绝的输出中发现了一个“非常、非常聪明的证明策略”,从而解决了 Kourovka Notebook 中的一个公开问题。
在 Epoch AI 的 FrontierMath Tier 4 测试中,该系统以 48% 登顶排行榜,成绩超过 Gemini 3.1 Pro 原始分数 19% 的两倍以上。
随着前沿模型的进步,AI 已经推动数学发现数量大幅增长,而类似编程领域的代理式工作流,现在也正在让 AI 系统进一步突破。不过,正如 Lackenby 的发现所展示的,未来依然属于那种帮助顶尖人才加速研究,而不是取代他们的 AI。
✅ 使用 Codex 自动化任何手动任务
速览:在本指南中,你将学习如何利用 Mac 或 Windows 上的 Computer Use 功能,让 Codex 自动点击和处理各种烦人的重复工作。
步骤:
打开 Codex,进入 Plugins,找到并启用 Computer Use 插件,然后开始一个新任务
打开权限菜单,将默认权限切换为 Full access,然后确认所有提示,并给 Codex 一个真实任务
示例:“打开 Chrome 并调试我正在开发的网页 UI:http://localhost:3000/。点击操作并复现我描述的 bug,然后告诉我你认为问题原因是什么。如果不确定,在修改前先询问我”
专业提示:Codex 也可以自动化本地应用中的重复工作流——例如 Photoshop 导出、Adobe Premiere 清理、文件重命名或其他任何工具。
🪐 AI 从 NASA 数据中发现 100 多颗新系外行星

图片来源:NASA
华威大学天文学家利用名为 RAVEN 的 AI 系统,从 NASA TESS 四年的数据中确认了超过 100 颗系外行星。该系统扫描了 220 万颗恒星,并额外发现了 2000 多个潜在候选目标。
RAVEN 能一次性完成探测、筛查和确认工作,并基于模拟行星和误报信号进行训练,从而筛选真实发现。
这些发现包括此前从未被发现的 31 颗系外行星,以及一些绕恒星公转周期不足一天的奇特星球。
数百颗系外行星被发现在“海王星沙漠”区域——这是一个距离恒星极近、理论上类似海王星大小的行星无法存活的区域。
该系统在测量不同类型行星普遍程度方面,精度达到此前系统的 10 倍,而提升完全来自更聪明的 AI,而不是新硬件。
到目前为止,人类只确认了几千颗系外行星,而理论上它们可能有数万亿颗。AI 与技术进步将大幅改写这个数字——而从 RAVEN 的成果来看,仅仅通过升级模型并将 AI 整合进现有数据,就能够挖掘出隐藏在我们已有数据中的宇宙知识。
🛠️ 热门 AI 工具
💻 Chrome 版 Codex —— OpenAI 推出的浏览器代理式任务扩展
🧠 ERNIE 5.1 —— 百度新基础模型,具备强大的搜索能力
🖨️ Printing Press —— 带有 30+ 预构建代理原生工具的 CLI 工厂
📰 今日 AI 其他动态
Google 的 Isomorphic Labs 据称正在融资超过 20 亿美元,以扩展其 Drug Design Engine。该公司表示,它在某些任务上明显优于 AlphaFold 3。
希腊正提议将 AI 保护写入宪法,要求该技术必须服务于个人自由,总理 Mitsotakis 提到了 AI 对民主带来的威胁。
百度发布了 ERNIE 5.1,在 Arena 搜索排行榜中排名第 4,并声称其训练成本仅为竞争对手模型的 6%。
OpenRouter 推出了 Pareto Code,这是一个免费路由层,会自动选择达到用户设定质量标准下最便宜的编程 AI,并随着新模型提升动态调整价格。
软银集团旗下电信部门启动电池业务,计划建设大规模电池与储能系统,以满足正在开发中的数据中心电力需求。
消息来源:Rundown AI
夜雨聆风