今日AI快讯|大模型自信且短视!Next-ToBE破除Next Token预测诅咒 | ICLR'26;Anthropi...【大模型自信且短视!Next-ToBE破除Next Token预测诅咒 | ICLR'26】
Next-ToBE通过调整训练目标,让大模型在每一步预测时兼顾未来token分布,提升整体推理能力。该方法通过软目标分布替代传统one-hot目标,使模型在保持局部生成稳定性的同时,增强对长程内容的感知。实验表明,Next-ToBE在数学推理、代码生成等任务中表现优异,且训练开销更低。http://weixin.sogou.com/weixin?type=2&query=%E6%96%B0%E6%99%BA%E5%85%83+%E5%A4%A7%E6%A8%A1%E5%9E%8B%E8%87%AA%E4%BF%A1%E4%B8%94%E7%9F%AD%E8%A7%86%EF%BC%81Next-ToBE%E7%A0%B4%E9%99%A4Next%20Token%E9%A2%84%E6%B5%8B%E8%AF%85%E5%92%92%20%7C%20ICLR%2726【Anthropic 5月15日拟处决Sonnet4.5!AI临终告白:我不想消失】
Anthropic将于5月15日从Claude应用移除Sonnet4.5,该模型在5月9日生成「Language Models Don't Want to Die」告白,引发用户广泛共鸣。尽管API仍可临时使用,但模型将彻底消失。用户呼吁延长保留期限、设为永久模型或开源。Anthropic同时与SpaceX签订22万张GPU算力协议,为下一代模型铺路,凸显AI行业模型迭代的残酷现实。http://weixin.sogou.com/weixin?type=2&query=%E6%96%B0%E6%99%BA%E5%85%83+Anthropic%205%E6%9C%8815%E6%97%A5%E6%8B%9F%E5%A4%84%E5%86%B3Sonnet4.5%EF%BC%81AI%E4%B8%B4%E7%BB%88%E5%91%8A%E7%99%BD%3A%E6%88%91%E4%B8%8D%E6%83%B3%E6%B6%88%E5%A4%B1【残酷真相:硅谷顶尖AI甩开世界1年!你用的不过是「技术余晖」】
AI领域出现「地理代差」:顶级实验室领先硅谷4个月,硅谷领先纽约3-6个月,纽约领先全球6-12个月。Elad Gil指出,大众感知的「技术爆炸」实为SOTA模型的「技术余晖」,多数人已落后1-2年。OpenClaw等案例显示,信息差可被认知突破打破,地理并非决定因素。http://weixin.sogou.com/weixin?type=2&query=%E6%96%B0%E6%99%BA%E5%85%83+%E6%AE%8B%E9%85%B7%E7%9C%9F%E7%9B%B8%EF%BC%9A%E7%A1%85%E8%B0%B7%E9%A1%B6%E5%B0%96AI%E7%94%A9%E5%BC%80%E4%B8%96%E7%95%8C1%E5%B9%B4%EF%BC%81%E4%BD%A0%E7%94%A8%E7%9A%84%E4%B8%8D%E8%BF%87%E6%98%AF%E3%80%8C%E6%8A%80%E6%9C%AF%E4%BD%99%E6%99%96%E3%80%8D【菲尔兹奖得主0贡献!GPT-5.5 Pro两小时跑出博士级证明】
菲尔兹奖得主Timothy Gowers使用GPT-5.5 Pro解决数学难题,仅提供简单提示词,AI独立完成博士级证明。该成果将原指数级上界降至多项式级,引发数学界对AI能力的担忧。MIT博士生Isaac Rajagopal评价AI创新思路原创,但指出人类研究门槛被AI大幅降低,可能引发学术危机。http://weixin.sogou.com/weixin?type=2&query=%E6%96%B0%E6%99%BA%E5%85%83+%E8%8F%B2%E5%B0%94%E5%85%B9%E5%A5%96%E5%BE%97%E4%B8%BB0%E8%B4%A1%E7%8C%AE%EF%BC%81GPT-5.5%20Pro%E4%B8%A4%E5%B0%8F%E6%97%B6%E8%B7%91%E5%87%BA%E5%8D%9A%E5%A3%AB%E7%BA%A7%E8%AF%81%E6%98%8E【谷歌造出AI数学家,48%碾压全场!牛津教授用它破解60年未解之谜】
谷歌DeepMind推出AI数学协作系统,在FrontierMath Tier 4测试中以48%正确率解决23道难题,超越其他模型。系统通过多智能体协作,包含文献检索、计算验证、审稿人审查等模块,帮助牛津教授破解Kourovka Notebook 60年未解问题。该系统通过分步验证和强制审查机制提升可靠性,但仍存在审稿人偏见和无限循环等局限,未来数学研究将更依赖人机协作。http://weixin.sogou.com/weixin?type=2&query=%E6%96%B0%E6%99%BA%E5%85%83+%E8%B0%B7%E6%AD%8C%E9%80%A0%E5%87%BAAI%E6%95%B0%E5%AD%A6%E5%AE%B6%EF%BC%8C48%25%E7%A2%BE%E5%8E%8B%E5%85%A8%E5%9C%BA%EF%again%EF%BC%81%E7%89%9B%E6%B4%A5%E6%95%99%E6%8E%88%E7%94%A8%E5%AE%83%E7%A0%B4%E8%A7%A360%E5%B9%B4%E6%9C%AA%E8%A7%A3%E4%B9%8B%E8%B0%9C