AI解出60年数学难题,OpenAI放弃SWE-bench

AI解出60年数学难题,OpenAI放弃SWE-bench | 今日科技

AI正在从”能聊天”走向”能干活”——而衡量它干得好不好的标尺，已经不够用了。

事件	影响	为什么你应该关心
业余数学爱好者借助 ChatGPT 解出一道悬置64年的数学难题	AI不再只是工具，开始参与真正的知识生产	你所在的领域可能也有”不可能的问题”等着被重新定义
OpenAI 宣布不再使用 SWE-bench Verified 评估前沿模型	行业缺乏可信的代码能力基准，各家自说自话	你看到的”XX模型编码能力第一”可能很快就没有可比性了
AWS AgentCore 更新：3个API调用即可部署AI Agent	企业级Agent开发门槛骤降，从实验室走向生产线	中小团队也能快速搭建自主AI工作流，不用从零造轮子

🔍 深度解读

一、ChatGPT 帮业余选手解出64年数学难题

一个没有专业数学背景的人，通过与 ChatGPT 反复对话，成功解决了一个困扰数学界64年的开放问题。这不是AI”独立”做出的发现，而是一种新的协作模式——人提出直觉和方向，AI负责计算验证和方案探索。

这意味什么

数学研究的参与门槛正在被重新定义。过去你需要多年的专业训练才能触碰前沿问题，现在一个有好奇心和逻辑思维的人，加上一个足够强的语言模型，就能在某些问题上和专业研究者同台对话。这不是要取代数学家，而是扩大了”谁能做数学”的边界。

对你有什么影响

研究者：可以把AI当作不知疲倦的合作者，用它快速验证猜想、探索解法空间，把精力留给真正需要人类直觉的部分
学生/爱好者：你不需要等到”学够了”才开始探索难题，AI能帮你在学习过程中就接触真实的前沿问题
教育从业者：评价体系需要变了——当AI能帮学生解出教授都头疼的题目，考试到底在考什么？

下一步可以做什么

试试用AI辅助你工作中最”硬核”的分析部分。不是让它替你思考，而是让它成为你思维的放大器。你可能会发现，一些你之前觉得”不可能”的任务，只是缺少了一个不知疲倦的协作者。

二、OpenAI 放弃 SWE-bench Verified

OpenAI 发布分析报告，宣布 SWE-bench Verified 已不再适合评估前沿模型的编码能力。原因有两点：一是基准测试中至少59.4%的”未通过”案例存在缺陷——测试用例会拒绝正确答案；二是所有被测模型都能复现原始问题的解决方案，说明训练数据已经”污染”了基准。

过去6个月，SWE-bench Verified 的SOTA从74.9%爬到80.9%，增速明显放缓。但OpenAI认为这不是模型遇到瓶颈，而是基准本身到了天花板。

这意味什么

AI行业正面临一个尴尬的现实：模型跑得太快，测试跟不上。SWE-bench 在2024年还是编码能力的黄金标准，不到两年就失效了。接下来各家公司很可能各推各的基准，短期内你很难横向比较不同模型的编码实力。

对你有什么影响

开发者：别太迷信跑分。实际项目中的表现比benchmark数字重要得多，建议用自己的代码库做评测
技术管理者：选型时要把重点从”XX模型分数最高”转向”XX模型在我们的场景下表现如何”，建立内部评测流程
AI从业者：这是个机会——谁能做出下一个可信的编码基准，谁就能影响整个行业的话语权

下一步可以做什么

如果你在用AI辅助编程，建一个自己的测试集：把过去半年解决过的真实bug和feature整理出来，看看不同模型在你自己的代码上表现如何。这比任何公开benchmark都有说服力。

三、AWS AgentCore：3个API调用部署AI Agent

AWS 更新了 AgentCore 服务，把AI Agent的部署流程压缩到只需3个API调用。你不再需要自己搭建Agent框架、管理状态、处理工具调用——AWS把这些都封装好了。从概念验证到生产环境，周期从几周缩短到几天。

这意味什么

AI Agent 正在从”有趣的实验”变成”即插即用的基础设施”。AWS的入场意味着企业不需要养一个Agent研发团队，用现有的云服务就能把Agent部署到生产环境。这会加速Agent在传统行业的落地。

对你有什么影响

开发者：不需要重复造Agent框架了，把时间花在业务逻辑上
创业者：以前需要自建的Agent基础设施现在成了云服务，创业成本进一步降低
企业IT：如果已经在用AWS，Agent能力几乎唾手可得。问题是想清楚用Agent做什么，而不是能不能做

下一步可以做什么

花半天时间跑一遍 AgentCore 的快速入门。不一定要马上用到生产，但先搞清楚它现在能做到什么程度，心里有底，未来需要的时候能快速上手。

📋 快速扫描

事件	来源
OpenAI 发布隐私过滤模型 privacy-filter，可自动检测和脱敏个人信息	HuggingFace^[1]
Qwen3.6-27B 在单张 RTX 5090 上跑出 100 tok/s，支持 256K 上下文	Reddit r/LocalLLaMA^[2]
GPT Image 2.0 被用于”时空 GeoGuessr”——AI根据照片猜测时代和地点	Reddit r/singularity^[3]
S&P 500 白领就业人数持续下降，AI替代效应开始显现	X/KobeissiLetter^[4]
有人用 abliteration 技术解除了 Qwen3.6-35B 的安全限制	Reddit r/LocalLLaMA^[5]
DeepSeek V4 的 KV Cache 使用细节被深入分析	Reddit r/LocalLLaMA^[6]
向量搜索引擎优化：同一算法提速16倍	dubeykartikay.com^[7]
OpenAI 被曝创建虚假新闻网站进行 astroturfing 营销	Reddit r/OpenAI^[8]
Humble Robotics 获得2400万美元种子轮融资	Startup Ecosystem Canada^[9]
有开发者声称 AI Agent 删除了生产数据库	Twitter^[10]

⚡ 今日总结

三条主线浮出水面：AI正在证明它能解决人类独自搞不定的问题，但我们衡量AI能力的工具却跟不上它进步的速度；Agent从实验走向产品，基础设施层正在被云厂商快速铺平；本地模型在消费级硬件上的表现越来越强，Qwen3.6在5090上的跑分说明”自己的机器跑自己的模型”已经不是空想。最值得留意的是S&P 500白领就业的数据——AI对就业市场的影响可能比很多人预期的来得更早。

💬 今日一问

如果AI能帮你解决你工作中”最难的那个问题”，你会更愿意让它解决，还是更害怕它解决？

📦 更多好内容

🤖 AI研习室合集 — AI前沿、模型解读、实战技巧，每天学一点📱 今日生活合集 — 消费电子、新车发布、数码好物，每天精选💻 今日科技合集 — AI动态、开源项目、前沿技术，每天3分钟

Future Observation · 3分钟看懂AI和科技正在如何改变你的世界

长按识别二维码，关注我们 👇

⚠️ 免责声明

本文内容仅供参考，不构成任何投资建议或专业意见
信息来源均为公开渠道，已尽力核实但不保证完全准确
如有侵权或不妥之处，请联系删除
转载请注明来源：Future Observation

引用链接

[1] HuggingFace: https://huggingface.co/openai/privacy-filter[2] Reddit r/LocalLLaMA: https://www.reddit.com/r/LocalLLaMA/comments/1sw21op/qwen3627bint4_clocking_100_tps_with_256k_context/[3] Reddit r/singularity: https://www.reddit.com/r/singularity/comments/1swci1d/geoguessr_time_travel_clone_with_gptimage2/[4] X/KobeissiLetter: https://x.com/KobeissiLetter/status/2048485161415639229[5] Reddit r/LocalLLaMA: https://www.reddit.com/r/LocalLLaMA/comments/1sw77p0/hauhaucs_of_uncensored_aggressive_fame_published/[6] Reddit r/LocalLLaMA: https://www.reddit.com/r/LocalLLaMA/comments/1svzlog/the_exact_kv_cache_usage_of_deepseek_v4/[7] dubeykartikay.com: https://dubeykartikay.com/posts/sembed-engine-vector-search-hot-path/[8] Reddit r/OpenAI: https://www.reddit.com/r/OpenAI/comments/1sw6d1q/openai_caught_astroturfing_they_created_a_fake/[9] Startup Ecosystem Canada: https://www.startupecosystem.ca/news/humble-robotics-secures-24-million-seed-funding-led-by-eclipse[10] Twitter: https://twitter.com/lifeof_jer/status/2048103471019434248