每日AI热文早播 | 2026.05.26
今日共 9 篇热门AI资讯,涵盖最新技术动态与行业趋势。
1. 30天烧掉60万亿,扎克伯格没进前250:大厂AI沦为KPI游戏 [2026-05-25]

硅谷大厂正陷入一场前所未有的荒诞游戏:疯狂刷AI token。在这场被称为「tokenmaxxing」的浪潮中,亚马逊给员工配备的AI工具MeshClaw不仅是得力助手,更成了一张通往安全的船票。亚马逊设定了内部目标——超过80%的开发者每周必须使用AI工具,并配套上线了内部排行榜,实时追踪每位员工的token消耗量。这本是一项推动AI普及的好政策,却在互联网OKR体系下迅速变质。
员工们心照不宣地用MeshClad跑那些根本没必要的任务,只为让榜单上的数字好看一点。亚马逊CEO Andy Jassy的备忘录被员工读出了另一层意思:当「拥抱AI」与「产生高影响力」直接挂钩,当企业员工规模下降的威胁悬在头顶,每一个普通员工都被迫陷入token焦虑。
然而真正的问题在于,Meta内部排行榜「Claudeonomics」过去30天烧掉了60万亿token,扎克伯格本人都没排进前250,CTO Andrew Bosworth却公开鼓励员工继续刷。这不是个别现象,企业AI平台Writer的CEO May Habib坦言员工会用公司平台做私人项目,token是可以被「刷」的指标,但她仍然坚持推动。
排行榜上的月度冠军消耗接近110亿token,亚军超过60亿。红杉资本合伙人Sonya Huang更是直言:「我们都应该tokenmaxxing。」这揭示了争论的本质:对Writer这样的几十人初创,CEO盯榜是文化信号;但对亚马逊这样数十万员工的企业,游戏的规模完全不同,副作用也完全不可控。
Jellyfish对12000名开发者、200家企业的Q1 2026数据揭示了冷酷真相——最高用量开发者每个PR消耗token是中位数的10倍,但PR吞吐量只达到约2倍。烧了10倍的油,只跑了2倍的路。每条PR的token成本从最低用量层的0.28美元飙升到最高用量层的89.32美元,成本相差近320倍。Faros.
ai的数据补上了故事的另一半:AI工具让任务完成量上升34%,完整功能模块交付量上升66%,但同期每位开发者的bug数量增加了54%,代码审查时间升至约5倍,代码返工率在高AI采用环境下上升了861%。这就是经济学里著名的Goodhart定律在现实中的样本:当一个衡量指标变成了目标,它就不再是可靠的衡量指标。当token消耗量变成KPI的那一刻,它就失去了作为效率代理指标的意义。
更值得深思的是,亚马逊、微软、谷歌、Meta四家超大规模云厂商2026年合并资本开支已经逼近7000亿美元,部分华尔街机构预测2027年将突破1万亿美元。Anthropic宣布扩大与亚马逊的合作,未来十年向AWS技术投入超过1000亿美元。亚马逊既是Anthropic的最大投资者,也是其最重要的云基础设施提供商,还是Claude最大的企业分发渠道之一。
员工刷的每一个token,都在客观上成为「AI基建投资物有所值」的佐证。在这场游戏中,没有人能置身事外——从被迫刷榜的员工,到推波助澜的CEO,再到被资本裹挟的整个行业。
2. Claude不到4%,全军覆没!一场大考撕碎Agent「全自动办公」幻想 [2026-05-25]

Computer-Use Agent的「奇点」没有到来,冷水先泼下来了。UniPart AI发布的SaaS-Bench测试,以残酷的方式证明:当前所有AI Agent在真实工作流中近乎全军覆没。这不是传统的仿真环境简单任务评测,而是直接把23个真实开源SaaS系统通过Docker本地部署,让Agent在完整前后端逻辑、数据库状态和业务约束中干活。
106个精心构建的任务覆盖软件研发、业务财务、医疗管理、团队协作、农业供应链、独立媒体六大领域,93.4%跨越至少两个应用,53个任务涉及三个应用,97.3%的文本任务操作步数超过100步,最长轨迹达300+步。这才是真实办公的样子——一个医疗管理员写完SOAP病历后要填病例上报再生成正式文档,一个财务要经历报销申请审批打款记账的完整链路。结果极度残酷:Claude Opus 4.
7检查点分数43.9%,但端到端完全通过分数只有3.8%——106个任务,只完整通过了4个。Kimi K2.5和Gemini 3.1 Pro完全通过分数为零,一个任务都没走完。多跑几次能救吗?把每个模型在同一任务上独立跑3次,对一次就算通过,pass@3相比pass@1整体提升约8个百分点。Sonnet 4.6在多模态任务上从33.9%跳到52.1%,它并非完全不行,而是执行极不稳定。
这不是环境随机性,每次运行的初始状态完全相同,这是路径依赖——模型在某个决策点的微小差异,会导致后续轨迹完全分叉。三个结构维度全部单调递减:跨应用数从1到4,平均分从53%降至20%;操作步长增加,任务轨迹越长,得分显著越低;检查点个数从≤6到≥18,平均分从65%降至27%。SaaS-Bench真正有价值的是暴露了四种致命失败模式。
第一是任务越长越做不对:即使每个检查点通过率高达95%,12个检查点的全部通过概率也只有54%,而平均检查点数远超12,所有模型都呈现通过率随任务推进呈下降趋势,没有一个模型能在后半段维持住前期表现。
第二是一步错步步错:任务要求创建公司客户「Arcturus Digital」,Agent同时填了联系人姓名和公司名,触发了个人客户逻辑,实际创建的是个人客户Elena Vasquez,此后的10张发票、付款记录、账户对账全部挂在错误实体下,核心检查点权重仅3%,却导致了下游30%的权重损失。第三是做完不检查自以为对了:Claude Opus 4.
6在Step 124识别出日期错误并执行了修改,但没有回到页面复查,直接推进后续子任务,Step 210提交时汇报写的是「账单日期已修复」,但页面上实际日期仍是03-19。Agent在意图层面认为成功,验证器在意图层面发现失败,两者之间的断层是系统性的。当前CUA框架缺少「严谨的反思闭环」,Agent是个不会检查自己作业的学生。第四是同一张考卷成绩忽高忽低:Claude Sonnet 4.
6在同一任务的三次独立运行中,分数范围从0.00到0.68,这是路径依赖让Agent在长程任务中的执行变成了赌博。SaaS-Bench撕碎了一个幻觉:Agent的Benchmark成绩和真实工作能力之间存在巨大的鸿沟。四种结构性失败模式指向同一个底层事实:当前Agent缺少对持久状态的有效推理能力,缺少操作后的闭环验证机制,缺少从错误中恢复的能力。
这些不是靠模型变大或加几个工程模块就能解决的问题,它们指向的是当前Agent范式更深层的局限:在长程任务中,模型缺少对全局状态的持续感知,无法像人一样「心里有数」。这不只是技术债,而是当前范式的天花板。未来的方向正在逐渐清晰:今天的SaaS是给人设计的——菜单、按钮、表单,都在服务人类的眼睛和手指。但当Agent成为主要用户,这些界面就变成了累赘。
未来不是让Agent学会操作人类的软件,而是软件本身要为Agent重新设计。
3. 人类56年解不出,谷歌AI一夜连破9道世纪难题! [2026-05-25]

数学界这个月彻底疯了。前脚OpenAI刚把Erdős 80年猜想推翻,数学家们的惊呼声还没落地,紧接着Google DeepMind发布了全新AI数学智能体AlphaProof Nexus,一出手就干掉了9道悬而未决几十年的Erdős开放问题,其中最古老的那个悬了整整56年。更可怕的是,每道题花费的算力成本只有几百美元,而全部证明都经过Lean编译器的形式化验证,不存在幻觉空间。
编译器通过,证明就是对的。AlphaProof Nexus和2024年拿下IMO银牌的初代AlphaProof完全不同,初代只有强化学习树搜索,Nexus把大语言模型、AlphaProof和进化算法三合一,直接瞄准了人类数学家啃不动的研究级难题。这套系统的架构分为四个层级:Agent A是多个独立的证明子智能体并行工作,每个子智能体与Gemini 3.
1 Pro进行多轮对话,通过搜索替换工具修改Lean代码,编译器实时反馈错误信息;Agent B在A的基础上加入AlphaProof作为工具,当子智能体在某个子目标上卡住时可以调用AlphaProof进行强化学习驱动的树搜索;Agent C引入进化算法,多个子智能体不再独立工作,而是共享一个种群数据库,每个证明草稿会被LLM评审员打分,高分草稿被优先采样、变异、进化;
Agent D集大成者,进化算法加AlphaProof加Gemini 3.1 Pro协同作战,是DeepMind用来大规模扫荡Erdős问题的主力武器。DeepMind将完整版Agent D投放到353道已形式化的Erdős问题上,每道题最多允许3000轮迭代,最终9道问题被攻克。
其中Erdős #12悬置了56年,AI用中国剩余定理和三项等差数列回避集构建了精心设计的区块,同时满足密度条件和整除约束。Erdős #125关于三进制和四进制下只用数字0和1的整数集和集的下密度问题,AI证明了答案是否定的,利用3的m次方和4的k次方的丢番图逼近性质,让密度以0.99的比率逐步衰减到零。
Erdős #138关于van der Waerden数的变体问题,AI给出了极其优雅的证明核心是贪心染色扩展。最出人意料的结论是,最简单的Agent A也能解决全部9道问题。Agent A没有进化算法没有AlphaProof,只有多个独立的LLM子智能体和Lean编译器的反馈循环,在大多数问题上和Agent B的表现几乎相同。
相比之下Agent D的优势主要体现在最困难的问题上,能以2到5倍的成本优势完成证明。DeepMind将基础Agent的成功归因于两个因素:LLM自身能力的飙升,以及编译器反馈在锚定LLM推理方面的强大作用。随着基础模型越来越强,复杂的系统工程可能逐渐让位于简单的智能体循环。
最便宜的一道题中位成本仅5到7美元,最贵的也不过200到400美元,但前提是用对了模型,单独运行AlphaProof或使用较小模型,9道题一道都解不出来。2026年5月,AI在数学领域的造诣几乎同时达到了研究级水平。OpenAI走的是自然语言路线,通用推理模型直接输出证明,验证需要人类顶级专家逐行审查。
DeepMind走的是形式化验证路线,AI用Lean语言写证明代码,编译器自动检查每一步推理,任何一步出现逻辑断裂编译器直接报错。DeepMind的数学家合作者发现了一个意料之外的收获——即使智能体无法证明目标定理,它生成的证明尝试也加深了他们对问题的理解,因为草稿是形式化的,专家可以直接聚焦于未解决的子目标,而不需要重新验证整个论证链。AI不只是在解题,它正在改变数学家思考问题的方式。
如今的未来图景已经浮现:AI先用自然语言探索证明思路,再用形式化系统逐步固化和验证,人类数学家的角色从「亲手推导」转向「提出问题、审查方向、提炼洞见」。几百美元算力,几十小时运行,56年悬案告破,编译器给出铁证。保罗·埃尔德什生前留下了1217道数学难题悬赏后人求解,他大概从未想过有一天来领赏的不是人类。
4. GPT-5.6泄露了! [2026-05-25]

全网都在盼的OpenAI新模型GPT-5.6终于要来了,距离GPT-5.5发布仅仅过去三周,整个AI圈开始疯转这个消息。多名前开发者在OpenAI的Codex后台日志中赫然发现了一个尚未公布的神秘模型gpt-5.6,内部开发代号为iris-alpha。如果三周前的GPT-5.5是OpenAI在编程领域的一大进步,那么这次代号为iris-alpha的GPT-5.6展示出的是一场强大的暴力美学升级。
内部代号曝光、150万上下文窗口实测跑通、零指令生成极简神级UI,显然我们以为要等上大半年的GPT-5.6以及传说中的GPT-5.6 Pro即将在6月空降。更可怕的是这不仅仅是OpenAI一家在秀肌肉,Anthropic的Sonnet 4.8与Claude Mythos 1、谷歌的Gemini 3.5 Pro甚至马斯克的Grok 5全都在暗中蓄力,剑指6月。
这不再是单纯的大模型迭代,这是2026年AI领域最激烈的一场军备竞赛。GPT-5.6在前端的突破简直是彻头彻尾的质变。长期以来AI生成代码一直存在一个致命的痛点Slop即泥浆垃圾代码,大模型生成的后端逻辑往往非常出色,但一旦让它生成前端UI出来的效果往往一言难尽——充斥着繁杂臃肿的CSS、不协调的色彩搭配、公式化的AI味网格等等。但这一切在GPT-5.6面前被终结了。
科技博主Leo晒出的截图中GPT-5.6展现了被开发者称为封神的能力,在完全没有给出详细prompt进行UI引导的默认状态下,GPT-5.
6自主生成了一款名为Lumen Notes的极简主义笔记应用程序,展现出了极其高阶的设计审美:成熟的网格布局让模块之间间距控制达到像素级完美,克制的色彩哲学放弃了早期AI喜欢用的高饱和度颜色采用淡紫色调关键组件搭配,字体大小粗细的层次感极强导航设计直观到不需要任何说明书。仅仅在10天前Leo还在吐槽GPT-5.6的前端生成效果极差,仅仅一周之隔效果就发生了天翻地覆的变化。
这种颠覆性的UI去Slop化效果说明OpenAI正在集中算力定向爆破前端代码生成的短板,显然他们正集中精准爆破被长期抱怨的一痛点。GPT-5.6的身影第一次出现时,知名开发者Haider在日常审查Codex的路由日志时敏锐地捕捉到在满屏指向gpt-5.5的调用记录中赫然出现了一条明确映射为gpt-5.6的条目。
到了5月第二周风向彻底变了,多名嗅觉灵敏的开发者通过ChatGPT Pro的OAuth认证在Codex环境中成功调用了尚未公布的GPT-5.6模型,不仅跑通了探针测试还显示GPT-5.6的上下文窗口达到了惊人的150万tokens。开发者实测证实当输入达到90万tokens时模型依然对答如流甚至突破105万的请求也能被完美接住。Polymarket上GPT-5.
6在6月30日前发布的概率已经飙升至85%以上。GPT-5.6真正让人胆寒的内功是它在多步推理和智能体工作流上的升级,一位接近OpenAI内部的研究人员泄露了一条重要信息为近期一项重大数学突破提供支持的那个底层模型目前在OpenAI内部被广泛用作日常调试和技术工作的主力驱动。
业内资深人士评价版本号并不重要重要的是OpenAI显然在内部将其作为日常调试工具使用,这通常是最明确的信号,当构建AI的工程师们都开始信任它用于实际研发时你就知道它的能力有了显著提升。OpenAI的发布周期正在恐怖地缩短,从GPT-3到GPT-4我们等了将近三年,从GPT-4到GPT-5我们等了一年多,而现在OpenAI将模型的主力版本迭代周期硬生生压缩到了30到45天。
三款最前沿的基座模型将在同一个月内发布,如果你的智能体底层框架被硬编码死死绑定在单一供应商身上,那么6月份你会感受到什么叫痛不欲生。这个6月是真正的一场大模型盛宴。
5. Claude「永久大脑」,真的来了! [2026-05-25]

Claude长出永久记忆了,就在今天著名AI追踪平台TestingCatalog爆出猛料,Anthropic正为Claude测试一套全新的双模记忆系统,一边是沿用至今的经典记忆,一边是全新的Memory Files,正式上线之后人们可以在两者之间自由切换。这标志着Claude记忆能力自上线以来将迎来最大规模最彻底的一次记忆架构大翻新。
伴随记忆功能的全面升级,Dreams预览版终于惊艳亮相,随之登场的还有一个终极Agent平台Claude Conway,7x24小时永不下线。Memory Files提供了持久的结构化记忆,Dreams则确保这些记忆历久弥新井然有序,这两大核心能力和融合为Conway构筑了最坚实的底层基座。这一次记忆机制的重构让Claude在持久记忆的生态竞争中站上了全新的高度。
目前Claude经典记忆模式的本质就是一张不断滚动的便签纸,Claude把它了解到的用户信息全部压缩进一条单一的摘要里,问题显而易见信息量一大这条摘要就开始溢出,旧的被新的覆盖重要的被琐碎的淹没,Claude记住了你昨天点的咖啡口味却忘了你上个月花三个小时跟它讨论的产品架构。
而即将到来的Memory Files是一次彻底的范式转换,简单来说Anthropic给Claude造了一个内置的个人Wiki,Claude在跟你聊天的过程中会根据不同的话题项目或上下文自动编写并组织成结构化的文档,当未来的对话涉及相关主题时它不会把所有记忆一股脑塞进上下文窗口,而是选择性地读取对应的文件。
这种架构带来了颠覆性的优势,第一容量天花板被彻底打破,基于文件系统的记忆管理理论上可以无限扩展,不再受限于单一摘要的长度瓶颈。第二精准度指数级提升,聊代码时只调取技术文档,聊旅行时只调取出行偏好,不再是全量记忆的暴力灌入而是按需检索的精确投喂。第三用户拿回了控制权,你可以像编辑Wiki词条一样随时浏览修改删除Claude的任何一条记忆文件,不想让它记住某件事直接删掉那个文件就行。
如果说文件记忆是Claude的海马体,那Dreams就是它的REM睡眠,早在月初Code with Claude旧金山开发者大会上Anthropic推出了这个让全场开发者震撼的功能,灵感直接来自人类神经科学中的REM睡眠。
人类在快速眼动睡眠阶段大脑并没有闲着,它在回放白天的经历强化重要的记忆连接丢弃无用的噪声信息并将短期记忆整合为长期记忆,不经历REM睡眠的人记忆力会显著下降,Anthropic把同样的逻辑搬到了Claude身上。
当一个Claude智能体在两次工作会话之间闲下来时,Dreams功能会自动启动,对积累的记忆文件进行一轮深度整合,合并重复项把分散在不同文件里的同一话题信息归拢到一起,替换过时条目解决逻辑矛盾挖掘隐藏模式。Claude白天干活晚上做梦复盘,第二天醒来直接顿悟。
目前Dreams功能已经在Claude Code里以Auto Dream的形式率先落地,触发条件是至少累积5次对话或者距离上次整合超过24小时,也可以手动输入/dream来触发。Netflix、Rakuten、Wisedocs等首批接入的企业已经交出了一份极其亮眼的答卷,首次处理错误率暴降97%,文档验证提速30%。
文件记忆和Dreams的推出几乎可以确认是在为Anthropic酝酿中的下一代杀手级产品Conway铺路,3月底Anthropic意外泄露的51.2万行Claude Code源码首次揭开了Conway的面纱,紧接着TestingCatalog证实了Conway的存在一个永不下线的AI智能体平台。
它不是更智能的聊天窗口而是一个完全不同品类的产品,当前所有的AI助手包括Claude、ChatGPT、Gemini都是被动式的你输入提示词它回复对话结束,而Conway的诞生就是要彻底颠覆这个范式。它设计为常驻后台运行,能够监听外部事件主动触发任务通过Webhook接收信号操控浏览器运行Claude Code,甚至支持一种叫CNW ZIP的自定义扩展包格式。
你不在的时候Conway在,这和OpenClaw直接对标但Conway是Anthropic原生的直接跑在Claude上面安全性和整合度完全不在一个量级。
Anthropic正在下一盘大棋,一个永不下线的AI智能体最需要的就是记忆,不是,一条随时被覆盖的滚动摘要,而是一套可以无限扩展按需检索自动维护的持久记忆系统,文件记忆提供了存储架构,Dreams提供了维护机制,这两块拼图拼在一起恰好就是Conway运行所需要的基础设施。2026年AI记忆已经成为三大巨头竞争的核心战场,ChatGPT走的是个人助理路线,GPT-5.
5 Instant发布当天更新了Memory Sources功能,把记忆来源拆分为保存记忆、聊天历史、自定义指令、文件库甚至Gmail邮件。Gemini走的是谷歌生态路线,凭借与Gmail、Drive、Calendar的深度打通,Gemini的记忆不是来自对话而是来自个人的真实生活数据。
Claude走的是文件系统加自主进化路线,Memory Files提供结构化存储,Dreams提供自动整合,Conway提供永不下班的运行时,三者叠加形成了一个从记忆到反思再到行动的完整闭环。而在通往ASI的路上,持久记忆可能不是充分条件,但几乎一定是必要条件。
Dario Amodei在多次公开演讲中表达过一个核心判断,ASI不会是某一次突破的产物,而是一系列能力模块逐渐拼合的结果,推理能力、工具使用、代码执行、多模态感知,每一块拼图都在加速就位,而记忆可能是其中最被低估的那一块。
6. 胜率直逼人类大师!这套Agent揭开中国AI「玄学真相」 [2026-05-25]

Tianfu Agent项目的诞生,源于一个看似不可能的任务:让AI大模型通过中国传统术数专业考试。术数大赛(HKJFMA主办)吸引了3069名选手参与,其官方题库Mingli-Bench对主流大模型展开评测时,结果令人震惊——Claude、GPT等主流模型准确率仅为23%到40%之间,与四选一选择题25%的随机猜测线几乎无异。然而Tianfu Agent却一举将截尾准确率提升至50%,逼近本届赛事人类Top20选手53.5%的平均水平。这一突破的关键在于,该研究团队没有试图让模型「记住」繁杂的术数规则,而是构建了一整套针对中国传统术数领域的harness工程系统。200多个原子工具、3大流派规则函数库、多Sub-Agent协作机制,构成了一套完整的技术架构。
多Sub-Agent协作的渐进式发现策略是系统的核心创新之一。多个Sub-Agent各自维护独立的工具集和上下文,根据环境反馈逐步展开推理。这种设计灵感来源于Coding Agent的成功经验——Claude Code、Cursor等工具在复杂工程任务中表现出色,并非因为模型本身变强,而是被放进了领域专用的工具环境。然而术数领域的挑战远比编程更复杂:刑冲查询、飞宫路径等规则涉及大量数据逻辑运算,规则需要经验选择而非越多越好,且缺乏「单元测试」等辅助验证手段,长链路推理极易积累偏差。Tianfu Agent通过这套机制,有效应对了垂直领域Agent开发中的典型困境。
四级可见性控制是解决200+工具管理难题的关键方案。研究团队按「LLM可理解性」和「可穷举性」两个维度,将工具分成四级:自动注入型处理十神、星耀等零歧义概念;按需调用型处理生克关系、飞宫计算等语义明确的场景;转译调用型针对易产生歧义的专业术语通过预设翻译层转换;触发注入型仅限特定Sub-Agent调用并配备专属背景知识。这套机制的核心是动态控制工具的可见范围——不同推理阶段、不同Sub-Agent看到的工具集不同,避免选项过载导致的选择退化。
规则封装和不确定性量化是另外两项核心创新。把每一条复杂规则封装成带元数据的可调用函数,人类专家预先标注适用场景、时间跨度、事件类型、优先级,输入盘面状态返回结论和置信度——这一步等于把LLM从「记规则的考生」变成「调规则的工程师」。三层不确定性量化机制则在缺乏自动验证手段的领域发挥作用:工具输出层提供算法层面的确定性评估;Sub-Agent层由LLM自评本次推理结论中每个观点的显著性;多流派合参层通过人工经验置信度加权调和矛盾结论。这套harness的设计哲学证明:在足够结构化的垂直领域,工具化范式不仅属于编程,在规则密集且语料稀缺的领域收益最大。
7. 华人数学家封神!50年数论难题一朝破解 [2026-05-25]

2026年5月,数学界迎来了一场迟来半个世纪的胜利。华人数学家张欣宣布攻克Zaremba猜想,这一困扰数论界已久的难题终于被画上句号。张欣现任香港大学数学系助理教授,博士师从Alex Kontorovich,于2014年获石溪大学数学博士学位。他的导师Kontorovich正是连分数领域的顶级专家,曾与菲尔兹奖得主让·布尔甘合作,在2014年取得Zaremba猜想的里程碑式部分进展,证明了猜想对「几乎所有」正整数成立。然而「几乎所有」不是「所有」——从99%到100%,往往比从0到99%更难。这道缝隙,成了后继者们的梦魇。
要理解这个猜想,需要进入数字的「显微镜」下——连分数。任何有理数p/q都可以展开成叠罗汉式的结构,这些展开式中的每一个数字都称之为「部分商」。1971年,波兰数学家Zaremba提出的猜想声称:对于任何正整数q,都存在一个与之互素的a,使得a/q的连分数展开中所有部分商不超过某个固定常数A。这意味着无论分母多大,总能找到分子使展开式所有数字锁死在极小的常数之下。满足这一猜想的数字是数学世界里的「黄金分割点」,能生成极其均匀的分布,在数值积分和伪随机数生成领域掌握着通往「绝对精度」的钥匙。该猜想之所以50多年无法攻克,是因为它将数论中最刁钻的三种结构缠绕在一起:连分数的组合爆炸、丢番图逼近的精度要求、以及筛法的极限边界。
张欣的证明是一场精心准备的战争。他花了数年时间积累基础设施建设,等待一个关键拼图到位。几周前,俄罗斯数学家Ilya Shkredov利用全新的群论工具攻克了素数和素数幂的情况,为张欣击穿了此前无法逾越的技术瓶颈。施克雷多夫的方法虽然精妙,却在面对复杂合数时力不从心——就像占领了所有制高点,却无法进入合数构成的迷宫中心。张欣敏锐地意识到,施克雷多夫留下的「合数真空」恰好可以被他手中关于群扩张的底层工具完美填充。他将极其复杂的群论重型武器精准嵌入Zaremba猜想证明框架,证明一气呵成。从特定序列到全体整数,最后的天堑瞬间消失。
这个故事最值得讲的,不是「天才灵光一闪」,而是现代数学真正的工作方式:不是一个人关在阁楼里苦想十年,而是一个全球知识网络中的「准备+机遇」模型。A在山这一侧挖了十年隧道,差最后三米打不穿;B在另一座山上炸了一个口子,碎石滚下来,正好帮A凿开最后那堵墙。张欣准备了百页的弹药,施克雷多夫递来了引信,孔托罗维奇看着自己的学生走完了自己没能走完的路。这不仅是技术的胜利,更是一次浪漫的传承——作为Kontorovich的前学生,张欣亲手为导师十多年前开启的远征画上了完美句号。数学家不接受「几乎」,那是给物理学家的仁慈。张欣用最硬的技术,完成了最绝对的任务。
8. 新智元ALL in ASI英雄帖 [2026-05-25]

2026年,ASI奇点之年的号角已经吹响。全球AI竞赛进入决赛圈,AI正以指数级速度重塑世界,每天都有大事发生,要覆盖的赛道、要打的仗也在飙升。正是在这一关键历史节点,新智元正式发出ALL in ASI英雄帖,招募两个核心战位——ASI架构师与ASI主笔,工作地点位于北京海淀上地中关村软件园,年薪50-70万。新智元不是一家普通的科技媒体,而是ASI超级智能时代的信息枢纽——全球AI竞赛的中文第一现场。从AlphaGo到GPT,从大模型到ASI,过去十一年人工智能每一个关键节点都在现场见证。微信公众号、微博、知乎、百度百家号等平台产业链用户370万+,全矩阵平台流量连年过亿,已形成强大的内容影响力。
ASI架构师的核心使命是成为AI算法与工程能力的天花板。工程落地方面,需要把前沿模型的能力封装成团队能直接用的Agent、Skills或工具,真正落到生产场景当中,把工程交付效率拉到极致。技术嗅觉方面,全球AI工程领域每天都有新模型、新框架、新协议,需要在第一时间判断哪个值得接入工作流,哪个不值得跟。岗位要求有丰富的AI Coding经验,熟练使用Claude Code、Codex、Hermes等工具,精通Agent、Skills的设计方法论,并有真实落地经验;熟练使用Claude、GPT、Gemini等主流大模型,理解模型能力边界与工程约束;能独立完成从需求拆解、智能体架构设计到上线交付的全流程。加分项包括有飞书CLI、自动化流程、Agent开发经验,有Computer Use、Browser Use等前沿Agent能力的实操经验,有大模型成本优化经验。
ASI主笔的核心使命是成为内容质量的天花板。选题嗅觉方面,全球AI领域每天发生几百件事,需要迅速判断哪个是今天的头条。深度撰稿方面,负责头条级深度报道,技术解读、产业分析、人物特稿都要能写到行业顶级水准。10万+制造机方面,需要理解推荐算法、读者心理及传播节奏,有稳定的爆款产出能力。岗位要求3年以上科技/AI领域深度写作经验,能独立完成从选题判断到终稿交付的全流程,日均产出至少2篇稿件,能快速消化英文原文资料,对全球AI产业格局有系统性认知。新智元能提供的不仅是顶配AI工具和真实的370万+用户舞台,更重要的是站在全球AI竞赛最前沿的罕见成长曲线——在这里待一年,相当于在别处待几年,因为这里的时钟是按ASI的速度走的。
这支团队要找的不是旁观者,而是和他们一起把ASI时代的中文第一现场做成全球标杆的同行者。对ASI有信仰、有使命感、热爱技术且擅长内容创作——如果看到这里仍然心潮澎湃,那这封英雄帖就是写给你的。新天终启,万象智生,All in ASI。
9. 刚刚,Ilya又发神图「思考者」!AI芯片海洋上在想啥? [2026-05-25]

2026年5月,AI圈最神秘的精神领袖Ilya Sutskever在消失许久后,突然在Instagram上传了一幅画作,画面里罗丹的「思考者」踩在悬崖边缘,凝视脚下一片由紫色晶体管和数字电路编织成的微观宇宙。这片海洋的学名叫Die Shot——芯片的显微剖面图,纯粹由硅片组成的晶体管丛林。右下角,黑色笔迹签着:IS 2026。就这样,硅谷炸了。「什么都没说,却什么都说了」——这是人们对这幅画的第一反应。「IS」是他的名字缩写,还是另有所指?那个踩在芯片上沉思的人,是不是在暗示他手里攥着什么?这种无声的引爆,Ilya不是第一次玩。很多人不知道,OpenAI那个沿用多年的三朵花Logo,最初就是他在走廊墙上随手涂鸦的,那个不起眼的草稿后来变成了估值最高的AI公司的门面。如今他用同样的方式,把一个古老的人类哲学符号死死按在了冷冰冰的半导体基板上。有人说这是他在找某种神圣感,也有人说这是他对「堆算力就能堆出智能」这条老路的无声嘲讽。
几乎在同一周里,OpenAI连续扔出了三枚炸弹,每一枚都震动了业界。首先是数学领域的突破——OpenAI公布称,其内部通用推理模型找出了一整族新的几何构造,推翻了关于「平面单位距离问题」的长期猜想,证明已由外部数学家检查,甚至刷新了菲尔兹奖得主Tim Gowers对AI的认知。其次是Codex的重大升级——Mac端加入Appshots,用户只需按下Command-Command,就能把当前应用窗口直接交给Codex线程,它拿到的不只是截图,还有窗口里的文本甚至屏幕外不可见的内容。Codex现已可以在Mac锁屏状态下继续调用应用,真正从「代码助手」向「驻场工程师」演进。第三枚炸弹最为重磅——据多家媒体报道,OpenAI正在与Goldman Sachs、Morgan Stanley等投行合作,准备秘密提交IPO招股文件,目标是在今年秋天公开上市。
这三件事放在一起,意味就完全不同了。这才是最新一轮OpenAI式狂欢的核心:一边在数学前沿撕开口子,一边让AI接管程序员的电脑,一边把自己推向可能是AI史上重磅的上市窗口。三件事加在一起指向同一个问题:那道门,是不是真的快开了?一幅随手画的素描背后,是Die Shot里沉默的晶体管基座——人类智慧与硅基世界的分界线正变得越来越模糊。Ilya押注的不是某个功能,而是一种范式跃迁。而OpenAI内部那句「Feel the AGI」,是研究一线最真实的信号——不是营销,是憋不住了。这幅画的流传让人们意识到,AGI不再是远处的口号,而是正在同时改写科学、软件和资本市场的现实变量。我们这代人,大概率会亲眼看到答案。
夜雨聆风