乐于分享
好东西不私藏

AI解出60年数学难题,OpenAI放弃SWE-bench | 今日科技

AI解出60年数学难题,OpenAI放弃SWE-bench | 今日科技

AI正在从”能聊天”走向”能干活”——而衡量它干得好不好的标尺,已经不够用了。

事件
影响
为什么你应该关心
业余数学爱好者借助 ChatGPT 解出一道悬置64年的数学难题
AI不再只是工具,开始参与真正的知识生产
你所在的领域可能也有”不可能的问题”等着被重新定义
OpenAI 宣布不再使用 SWE-bench Verified 评估前沿模型
行业缺乏可信的代码能力基准,各家自说自话
你看到的”XX模型编码能力第一”可能很快就没有可比性了
AWS AgentCore 更新:3个API调用即可部署AI Agent
企业级Agent开发门槛骤降,从实验室走向生产线
中小团队也能快速搭建自主AI工作流,不用从零造轮子

🔍 深度解读

一、ChatGPT 帮业余选手解出64年数学难题

一个没有专业数学背景的人,通过与 ChatGPT 反复对话,成功解决了一个困扰数学界64年的开放问题。这不是AI”独立”做出的发现,而是一种新的协作模式——人提出直觉和方向,AI负责计算验证和方案探索。

这意味什么

数学研究的参与门槛正在被重新定义。过去你需要多年的专业训练才能触碰前沿问题,现在一个有好奇心和逻辑思维的人,加上一个足够强的语言模型,就能在某些问题上和专业研究者同台对话。这不是要取代数学家,而是扩大了”谁能做数学”的边界。

对你有什么影响

  • 研究者:可以把AI当作不知疲倦的合作者,用它快速验证猜想、探索解法空间,把精力留给真正需要人类直觉的部分
  • 学生/爱好者:你不需要等到”学够了”才开始探索难题,AI能帮你在学习过程中就接触真实的前沿问题
  • 教育从业者:评价体系需要变了——当AI能帮学生解出教授都头疼的题目,考试到底在考什么?

下一步可以做什么

试试用AI辅助你工作中最”硬核”的分析部分。不是让它替你思考,而是让它成为你思维的放大器。你可能会发现,一些你之前觉得”不可能”的任务,只是缺少了一个不知疲倦的协作者。


二、OpenAI 放弃 SWE-bench Verified

OpenAI 发布分析报告,宣布 SWE-bench Verified 已不再适合评估前沿模型的编码能力。原因有两点:一是基准测试中至少59.4%的”未通过”案例存在缺陷——测试用例会拒绝正确答案;二是所有被测模型都能复现原始问题的解决方案,说明训练数据已经”污染”了基准。

过去6个月,SWE-bench Verified 的SOTA从74.9%爬到80.9%,增速明显放缓。但OpenAI认为这不是模型遇到瓶颈,而是基准本身到了天花板。

这意味什么

AI行业正面临一个尴尬的现实:模型跑得太快,测试跟不上。SWE-bench 在2024年还是编码能力的黄金标准,不到两年就失效了。接下来各家公司很可能各推各的基准,短期内你很难横向比较不同模型的编码实力。

对你有什么影响

  • 开发者:别太迷信跑分。实际项目中的表现比benchmark数字重要得多,建议用自己的代码库做评测
  • 技术管理者:选型时要把重点从”XX模型分数最高”转向”XX模型在我们的场景下表现如何”,建立内部评测流程
  • AI从业者:这是个机会——谁能做出下一个可信的编码基准,谁就能影响整个行业的话语权

下一步可以做什么

如果你在用AI辅助编程,建一个自己的测试集:把过去半年解决过的真实bug和feature整理出来,看看不同模型在你自己的代码上表现如何。这比任何公开benchmark都有说服力。


三、AWS AgentCore:3个API调用部署AI Agent

AWS 更新了 AgentCore 服务,把AI Agent的部署流程压缩到只需3个API调用。你不再需要自己搭建Agent框架、管理状态、处理工具调用——AWS把这些都封装好了。从概念验证到生产环境,周期从几周缩短到几天。

这意味什么

AI Agent 正在从”有趣的实验”变成”即插即用的基础设施”。AWS的入场意味着企业不需要养一个Agent研发团队,用现有的云服务就能把Agent部署到生产环境。这会加速Agent在传统行业的落地。

对你有什么影响

  • 开发者:不需要重复造Agent框架了,把时间花在业务逻辑上
  • 创业者:以前需要自建的Agent基础设施现在成了云服务,创业成本进一步降低
  • 企业IT:如果已经在用AWS,Agent能力几乎唾手可得。问题是想清楚用Agent做什么,而不是能不能做

下一步可以做什么

花半天时间跑一遍 AgentCore 的快速入门。不一定要马上用到生产,但先搞清楚它现在能做到什么程度,心里有底,未来需要的时候能快速上手。


📋 快速扫描

事件
来源
OpenAI 发布隐私过滤模型 privacy-filter,可自动检测和脱敏个人信息
HuggingFace[1]
Qwen3.6-27B 在单张 RTX 5090 上跑出 100 tok/s,支持 256K 上下文
Reddit r/LocalLLaMA[2]
GPT Image 2.0 被用于”时空 GeoGuessr”——AI根据照片猜测时代和地点
Reddit r/singularity[3]
S&P 500 白领就业人数持续下降,AI替代效应开始显现
X/KobeissiLetter[4]
有人用 abliteration 技术解除了 Qwen3.6-35B 的安全限制
Reddit r/LocalLLaMA[5]
DeepSeek V4 的 KV Cache 使用细节被深入分析
Reddit r/LocalLLaMA[6]
向量搜索引擎优化:同一算法提速16倍
dubeykartikay.com[7]
OpenAI 被曝创建虚假新闻网站进行 astroturfing 营销
Reddit r/OpenAI[8]
Humble Robotics 获得2400万美元种子轮融资
Startup Ecosystem Canada[9]
有开发者声称 AI Agent 删除了生产数据库
Twitter[10]

⚡ 今日总结

三条主线浮出水面:AI正在证明它能解决人类独自搞不定的问题,但我们衡量AI能力的工具却跟不上它进步的速度;Agent从实验走向产品,基础设施层正在被云厂商快速铺平;本地模型在消费级硬件上的表现越来越强,Qwen3.6在5090上的跑分说明”自己的机器跑自己的模型”已经不是空想。最值得留意的是S&P 500白领就业的数据——AI对就业市场的影响可能比很多人预期的来得更早。

💬 今日一问

如果AI能帮你解决你工作中”最难的那个问题”,你会更愿意让它解决,还是更害怕它解决?


📦 更多好内容

🤖 AI研习室合集 — AI前沿、模型解读、实战技巧,每天学一点📱 今日生活合集 — 消费电子、新车发布、数码好物,每天精选💻 今日科技合集 — AI动态、开源项目、前沿技术,每天3分钟

Future Observation · 3分钟看懂AI和科技正在如何改变你的世界

长按识别二维码,关注我们 👇

关注二维码

⚠️ 免责声明

  • 本文内容仅供参考,不构成任何投资建议或专业意见
  • 信息来源均为公开渠道,已尽力核实但不保证完全准确
  • 如有侵权或不妥之处,请联系删除
  • 转载请注明来源:Future Observation

引用链接

[1] HuggingFace: https://huggingface.co/openai/privacy-filter[2] Reddit r/LocalLLaMA: https://www.reddit.com/r/LocalLLaMA/comments/1sw21op/qwen3627bint4_clocking_100_tps_with_256k_context/[3] Reddit r/singularity: https://www.reddit.com/r/singularity/comments/1swci1d/geoguessr_time_travel_clone_with_gptimage2/[4] X/KobeissiLetter: https://x.com/KobeissiLetter/status/2048485161415639229[5] Reddit r/LocalLLaMA: https://www.reddit.com/r/LocalLLaMA/comments/1sw77p0/hauhaucs_of_uncensored_aggressive_fame_published/[6] Reddit r/LocalLLaMA: https://www.reddit.com/r/LocalLLaMA/comments/1svzlog/the_exact_kv_cache_usage_of_deepseek_v4/[7] dubeykartikay.com: https://dubeykartikay.com/posts/sembed-engine-vector-search-hot-path/[8] Reddit r/OpenAI: https://www.reddit.com/r/OpenAI/comments/1sw6d1q/openai_caught_astroturfing_they_created_a_fake/[9] Startup Ecosystem Canada: https://www.startupecosystem.ca/news/humble-robotics-secures-24-million-seed-funding-led-by-eclipse[10] Twitter: https://twitter.com/lifeof_jer/status/2048103471019434248