AI解出60年数学难题,OpenAI放弃SWE-bench | 今日科技
AI正在从”能聊天”走向”能干活”——而衡量它干得好不好的标尺,已经不够用了。
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
🔍 深度解读
一、ChatGPT 帮业余选手解出64年数学难题
一个没有专业数学背景的人,通过与 ChatGPT 反复对话,成功解决了一个困扰数学界64年的开放问题。这不是AI”独立”做出的发现,而是一种新的协作模式——人提出直觉和方向,AI负责计算验证和方案探索。
这意味什么
数学研究的参与门槛正在被重新定义。过去你需要多年的专业训练才能触碰前沿问题,现在一个有好奇心和逻辑思维的人,加上一个足够强的语言模型,就能在某些问题上和专业研究者同台对话。这不是要取代数学家,而是扩大了”谁能做数学”的边界。
对你有什么影响
- 研究者:可以把AI当作不知疲倦的合作者,用它快速验证猜想、探索解法空间,把精力留给真正需要人类直觉的部分
- 学生/爱好者:你不需要等到”学够了”才开始探索难题,AI能帮你在学习过程中就接触真实的前沿问题
- 教育从业者:评价体系需要变了——当AI能帮学生解出教授都头疼的题目,考试到底在考什么?
下一步可以做什么
试试用AI辅助你工作中最”硬核”的分析部分。不是让它替你思考,而是让它成为你思维的放大器。你可能会发现,一些你之前觉得”不可能”的任务,只是缺少了一个不知疲倦的协作者。
二、OpenAI 放弃 SWE-bench Verified
OpenAI 发布分析报告,宣布 SWE-bench Verified 已不再适合评估前沿模型的编码能力。原因有两点:一是基准测试中至少59.4%的”未通过”案例存在缺陷——测试用例会拒绝正确答案;二是所有被测模型都能复现原始问题的解决方案,说明训练数据已经”污染”了基准。
过去6个月,SWE-bench Verified 的SOTA从74.9%爬到80.9%,增速明显放缓。但OpenAI认为这不是模型遇到瓶颈,而是基准本身到了天花板。
这意味什么
AI行业正面临一个尴尬的现实:模型跑得太快,测试跟不上。SWE-bench 在2024年还是编码能力的黄金标准,不到两年就失效了。接下来各家公司很可能各推各的基准,短期内你很难横向比较不同模型的编码实力。
对你有什么影响
- 开发者:别太迷信跑分。实际项目中的表现比benchmark数字重要得多,建议用自己的代码库做评测
- 技术管理者:选型时要把重点从”XX模型分数最高”转向”XX模型在我们的场景下表现如何”,建立内部评测流程
- AI从业者:这是个机会——谁能做出下一个可信的编码基准,谁就能影响整个行业的话语权
下一步可以做什么
如果你在用AI辅助编程,建一个自己的测试集:把过去半年解决过的真实bug和feature整理出来,看看不同模型在你自己的代码上表现如何。这比任何公开benchmark都有说服力。
三、AWS AgentCore:3个API调用部署AI Agent
AWS 更新了 AgentCore 服务,把AI Agent的部署流程压缩到只需3个API调用。你不再需要自己搭建Agent框架、管理状态、处理工具调用——AWS把这些都封装好了。从概念验证到生产环境,周期从几周缩短到几天。
这意味什么
AI Agent 正在从”有趣的实验”变成”即插即用的基础设施”。AWS的入场意味着企业不需要养一个Agent研发团队,用现有的云服务就能把Agent部署到生产环境。这会加速Agent在传统行业的落地。
对你有什么影响
- 开发者:不需要重复造Agent框架了,把时间花在业务逻辑上
- 创业者:以前需要自建的Agent基础设施现在成了云服务,创业成本进一步降低
- 企业IT:如果已经在用AWS,Agent能力几乎唾手可得。问题是想清楚用Agent做什么,而不是能不能做
下一步可以做什么
花半天时间跑一遍 AgentCore 的快速入门。不一定要马上用到生产,但先搞清楚它现在能做到什么程度,心里有底,未来需要的时候能快速上手。
📋 快速扫描
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
⚡ 今日总结
三条主线浮出水面:AI正在证明它能解决人类独自搞不定的问题,但我们衡量AI能力的工具却跟不上它进步的速度;Agent从实验走向产品,基础设施层正在被云厂商快速铺平;本地模型在消费级硬件上的表现越来越强,Qwen3.6在5090上的跑分说明”自己的机器跑自己的模型”已经不是空想。最值得留意的是S&P 500白领就业的数据——AI对就业市场的影响可能比很多人预期的来得更早。
💬 今日一问
如果AI能帮你解决你工作中”最难的那个问题”,你会更愿意让它解决,还是更害怕它解决?
📦 更多好内容
🤖 AI研习室合集 — AI前沿、模型解读、实战技巧,每天学一点📱 今日生活合集 — 消费电子、新车发布、数码好物,每天精选💻 今日科技合集 — AI动态、开源项目、前沿技术,每天3分钟
Future Observation · 3分钟看懂AI和科技正在如何改变你的世界
长按识别二维码,关注我们 👇

⚠️ 免责声明
-
本文内容仅供参考,不构成任何投资建议或专业意见 -
信息来源均为公开渠道,已尽力核实但不保证完全准确 -
如有侵权或不妥之处,请联系删除 -
转载请注明来源:Future Observation
引用链接
[1] HuggingFace: https://huggingface.co/openai/privacy-filter[2] Reddit r/LocalLLaMA: https://www.reddit.com/r/LocalLLaMA/comments/1sw21op/qwen3627bint4_clocking_100_tps_with_256k_context/[3] Reddit r/singularity: https://www.reddit.com/r/singularity/comments/1swci1d/geoguessr_time_travel_clone_with_gptimage2/[4] X/KobeissiLetter: https://x.com/KobeissiLetter/status/2048485161415639229[5] Reddit r/LocalLLaMA: https://www.reddit.com/r/LocalLLaMA/comments/1sw77p0/hauhaucs_of_uncensored_aggressive_fame_published/[6] Reddit r/LocalLLaMA: https://www.reddit.com/r/LocalLLaMA/comments/1svzlog/the_exact_kv_cache_usage_of_deepseek_v4/[7] dubeykartikay.com: https://dubeykartikay.com/posts/sembed-engine-vector-search-hot-path/[8] Reddit r/OpenAI: https://www.reddit.com/r/OpenAI/comments/1sw6d1q/openai_caught_astroturfing_they_created_a_fake/[9] Startup Ecosystem Canada: https://www.startupecosystem.ca/news/humble-robotics-secures-24-million-seed-funding-led-by-eclipse[10] Twitter: https://twitter.com/lifeof_jer/status/2048103471019434248
夜雨聆风