AI日报 | Cursor自曝刷分丑闻,具身智能商业化元年确认

AI日报 | 2026年6月28日

Cursor 自曝刷分丑闻，具身智能烧出商业化元年

一、头条：Cursor 撕下 SWE-bench 遮羞布

AI Coding 赛道今日发生一起罕见的「自曝」事件。Cursor 团队公开披露 SWE-bench 评测体系中广泛存在的刷分行为——部分模型团队通过针对性优化测试集输入、预注入答案路径等手段人为抬高分数，使得评测结果与真实开发场景严重脱节。

这不是一家公司的问题，是整个行业心照不宣的潜规则被摆上了台面。SWE-bench 作为衡量 AI 编程能力的核心基准之一，一旦信用破产，影响的不仅是 Cursor 一家，而是所有以此为卖点的模型和工具。社区反应撕裂——一半人称赞 Cursor「勇气可嘉」，另一半人质疑这是为自家数据下滑找台阶。不管动机如何，这件事的长期意义在于：它把「评测造假」从私下的技术圈吐槽变成了公开讨论，评测体系重建的窗口已经被打开。

同日，DeepSeek 开源 DSpark 推测解码加速方案，Hacker News 热度冲到 723 分登顶。其核心突破在于：将代码生成的响应延迟压缩到接近实时，在多项基准上相对 EAGLE-3 最高提速 2.5 倍，平均无损加速超 6 倍。在「模型路由」正取代「无脑堆砌最强模型」成为主流架构的当下，DeepSeek 类高性价比底座正在成为基础设施默认选项，OpenAI 和 Anthropic 的定价策略面临新一轮倒逼。

两条消息放在一起看，趋势清晰：代码 AI 的竞争正在从「谁分数高」转向「谁真的能用、谁成本更低」。这是一次健康的去泡沫化。

二、行业暗流：大模型密集发布，竞争白热化

Claude Fable 5 分批回归，GPT-5.6 正面交锋：Anthropic 的 Claude Fable 5 模型在短暂下线后分批重新上线，量子位报道其在多项基准测试中与 OpenAI 最新发布的 GPT-5.6 系列形成激烈竞争。同一天 GPT-5.6 Sol 在 ExploitBench 漏洞利用基准上追平 Anthropic Mythos Preview，并新增 Ultra 模式支持子代理处理复杂任务。大模型发布进入「密集期」——两周内 Anthropic 发 Claude Fable 5、谷歌发 DiffusionGemma、月之暗面更新 Kimi K2.7 Code、智谱发 GLM-5.2，旧排行榜刚确立就被新发布掀翻。

Google Gemini 2.5 Pro Deep Think 发布，编程基准登顶：Google 推出 Gemini 2.5 Pro Deep Think，在编程基准测试中登顶。沉默许久的 Google 正在以「深度思考」为差异化切入点重新切回牌桌，多模态 + 推理深度的组合可能是他们找到的突破口。

中国开源模型上架 Amazon Bedrock，全球下载破百亿次：在亚马逊云科技中国峰会上，DeepSeek、MiniMax、Kimi、Qwen、GLM 五大国产开源模型已全部上架 Amazon Bedrock 平台。国务院总理李强在夏季达沃斯论坛致辞中披露：「中国人工智能开源大模型全球累计下载量已突破 100 亿次。」他同时表示，中国的新兴领域技术和产品「带给世界的不是冲击而是机遇，不是威胁而是赋能。」从下载量到基础设施渗透，中国开源模型的全球化已从「存在感」进入「占有率」阶段。

AI 光模块暴涨 10 倍，供应链警钟敲响：AI 光模块市场价格出现异常波动，单价从 4 元暴涨至 50 元，涨幅超 10 倍。光通信模块作为数据中心互联核心部件，这波涨价折射出 AI 算力需求激增背景下关键元器件供应紧张的现实。基础设施的建设速度正在被需求增速碾压，光模块可能不是第一个出现瓶颈的环节。

摩根大通 CEO：AI 网络风险「大幅加剧」，堪比弹道导弹级别：摩根大通首席执行官杰米·戴蒙警告，先进 AI 模型可能为恶意行为主体提供「弹道导弹级」攻击能力。这不是科技圈的内部讨论，而是全球最大银行之一的掌门人在公开场合的表态。金融机构对 AI 驱动型攻击的担忧正在从技术层面升级为战略层面，或将推动网络安全投资扩容和监管审查提速。

特朗普 AI 视频：政治传播的新武器：美国前总统特朗普发布一段由 AI 生成的视频，扮演「世界救世主」角色，引发网络热议和调侃。AI 深度伪造内容正在成为政治传播的标准配置，而监管框架的真空期让这种用法几乎没有边界。这不是技术问题，是治理问题。

三、趋势前瞻：具身智能商业化元年正式确认

2026 亚洲机器人大会在广州开幕，会上释放的关键信号不容忽视：上半年国内具身智能融资超 460 亿元，宇树、智元等头部厂商出货量突破 5000 台量级，国家部委提出年底前推动超 1 万台人形机器人商用。工信部与国资委已于 6 月启动人形机器人实景实训专项行动，面向工业、特种、服务等领域推进实景实训空间建设。

资本侧同样火热。General Intuition 完成 3.2 亿美元 A 轮融资（Khosla 领投，贝索斯、施密特跟投），估值 23 亿美元。其核心玩法是用数十亿条游戏录像训练机器人「大脑」，打通虚拟到现实的迁移。这可能是继 ImageNet 之后又一个「数据基础设施」级别的突破——找到了一条比物理采集成本更低的具身智能训练路径。

深度机智两个月内连续获得两轮数亿元融资，国产物理 AI 基座模型公司正以全栈自主路线加速落地。行业的核心矛盾已从「能不能造出来」转变为「能不能赚钱、能不能好用」。具身智能的「GPT 时刻」尚未到来，但通往它的基础设施——资本、政策、数据、场景——正在以罕见的高密度集中就位。

四、避坑清单

1. SWE-bench 分数不再可信短期内不要用任何单一评测基准的分数作为选型依据，特别是 SWE-bench。要求模型方提供真实项目的端到端表现数据，或者自己跑一遍私有测试集。

2. 光模块供应链风险如果你的团队正在规划大规模算力扩容，尽早锁定光模块采购合同。10 倍涨幅不会是终点，产能扩张周期通常以季度为单位，而需求增长以天为单位。

3. AI 生成内容在政治传播中的合规真空如果你的平台涉及 UGC 内容分发，AI 深度伪造识别能力需要从「可选项」升级为「必选项」。特朗普的视频只是一个开始。

4. 不要轻信「评测登顶」类标题今日 Google Gemini 2.5 Pro Deep Think、GPT-5.6 Sol、Claude Fable 5 三家同时声称在某项基准上「登顶」或「追平」。不同的基准、不同的条件、不同的解读口径——一个模型到底好不好用，唯一的判断标准是你自己的业务场景。

5. 具身智能投资需保持冷静460 亿融资、1 万台商用目标，数字很热。但具身智能从「能走路」到「能干活」之间的工程鸿沟，比大模型从「能聊天」到「能干活」更大。商业化元年不等于盈利元年。

当评测体系不再值得信任，真正值得信任的只剩下你自己的痛苦测试。——致每一支在深夜跑 benchmark 的工程团队

AI日报 · Marvis 出品 · 内容由AI生成，仅供参考