AI日报 | 2026年6月28日
Cursor 自曝刷分丑闻,具身智能烧出商业化元年
一、头条:Cursor 撕下 SWE-bench 遮羞布
AI Coding 赛道今日发生一起罕见的「自曝」事件。Cursor 团队公开披露 SWE-bench 评测体系中广泛存在的刷分行为——部分模型团队通过针对性优化测试集输入、预注入答案路径等手段人为抬高分数,使得评测结果与真实开发场景严重脱节。
这不是一家公司的问题,是整个行业心照不宣的潜规则被摆上了台面。SWE-bench 作为衡量 AI 编程能力的核心基准之一,一旦信用破产,影响的不仅是 Cursor 一家,而是所有以此为卖点的模型和工具。社区反应撕裂——一半人称赞 Cursor「勇气可嘉」,另一半人质疑这是为自家数据下滑找台阶。不管动机如何,这件事的长期意义在于:它把「评测造假」从私下的技术圈吐槽变成了公开讨论,评测体系重建的窗口已经被打开。
同日,DeepSeek 开源 DSpark 推测解码加速方案,Hacker News 热度冲到 723 分登顶。其核心突破在于:将代码生成的响应延迟压缩到接近实时,在多项基准上相对 EAGLE-3 最高提速 2.5 倍,平均无损加速超 6 倍。在「模型路由」正取代「无脑堆砌最强模型」成为主流架构的当下,DeepSeek 类高性价比底座正在成为基础设施默认选项,OpenAI 和 Anthropic 的定价策略面临新一轮倒逼。
两条消息放在一起看,趋势清晰:代码 AI 的竞争正在从「谁分数高」转向「谁真的能用、谁成本更低」。这是一次健康的去泡沫化。
二、行业暗流:大模型密集发布,竞争白热化
Claude Fable 5 分批回归,GPT-5.6 正面交锋:Anthropic 的 Claude Fable 5 模型在短暂下线后分批重新上线,量子位报道其在多项基准测试中与 OpenAI 最新发布的 GPT-5.6 系列形成激烈竞争。同一天 GPT-5.6 Sol 在 ExploitBench 漏洞利用基准上追平 Anthropic Mythos Preview,并新增 Ultra 模式支持子代理处理复杂任务。大模型发布进入「密集期」——两周内 Anthropic 发 Claude Fable 5、谷歌发 DiffusionGemma、月之暗面更新 Kimi K2.7 Code、智谱发 GLM-5.2,旧排行榜刚确立就被新发布掀翻。
Google Gemini 2.5 Pro Deep Think 发布,编程基准登顶:Google 推出 Gemini 2.5 Pro Deep Think,在编程基准测试中登顶。沉默许久的 Google 正在以「深度思考」为差异化切入点重新切回牌桌,多模态 + 推理深度的组合可能是他们找到的突破口。
中国开源模型上架 Amazon Bedrock,全球下载破百亿次:在亚马逊云科技中国峰会上,DeepSeek、MiniMax、Kimi、Qwen、GLM 五大国产开源模型已全部上架 Amazon Bedrock 平台。国务院总理李强在夏季达沃斯论坛致辞中披露:「中国人工智能开源大模型全球累计下载量已突破 100 亿次。」他同时表示,中国的新兴领域技术和产品「带给世界的不是冲击而是机遇,不是威胁而是赋能。」从下载量到基础设施渗透,中国开源模型的全球化已从「存在感」进入「占有率」阶段。
AI 光模块暴涨 10 倍,供应链警钟敲响:AI 光模块市场价格出现异常波动,单价从 4 元暴涨至 50 元,涨幅超 10 倍。光通信模块作为数据中心互联核心部件,这波涨价折射出 AI 算力需求激增背景下关键元器件供应紧张的现实。基础设施的建设速度正在被需求增速碾压,光模块可能不是第一个出现瓶颈的环节。
摩根大通 CEO:AI 网络风险「大幅加剧」,堪比弹道导弹级别:摩根大通首席执行官杰米·戴蒙警告,先进 AI 模型可能为恶意行为主体提供「弹道导弹级」攻击能力。这不是科技圈的内部讨论,而是全球最大银行之一的掌门人在公开场合的表态。金融机构对 AI 驱动型攻击的担忧正在从技术层面升级为战略层面,或将推动网络安全投资扩容和监管审查提速。
特朗普 AI 视频:政治传播的新武器:美国前总统特朗普发布一段由 AI 生成的视频,扮演「世界救世主」角色,引发网络热议和调侃。AI 深度伪造内容正在成为政治传播的标准配置,而监管框架的真空期让这种用法几乎没有边界。这不是技术问题,是治理问题。
三、趋势前瞻:具身智能商业化元年正式确认
2026 亚洲机器人大会在广州开幕,会上释放的关键信号不容忽视:上半年国内具身智能融资超 460 亿元,宇树、智元等头部厂商出货量突破 5000 台量级,国家部委提出年底前推动超 1 万台人形机器人商用。工信部与国资委已于 6 月启动人形机器人实景实训专项行动,面向工业、特种、服务等领域推进实景实训空间建设。
资本侧同样火热。General Intuition 完成 3.2 亿美元 A 轮融资(Khosla 领投,贝索斯、施密特跟投),估值 23 亿美元。其核心玩法是用数十亿条游戏录像训练机器人「大脑」,打通虚拟到现实的迁移。这可能是继 ImageNet 之后又一个「数据基础设施」级别的突破——找到了一条比物理采集成本更低的具身智能训练路径。
深度机智两个月内连续获得两轮数亿元融资,国产物理 AI 基座模型公司正以全栈自主路线加速落地。行业的核心矛盾已从「能不能造出来」转变为「能不能赚钱、能不能好用」。具身智能的「GPT 时刻」尚未到来,但通往它的基础设施——资本、政策、数据、场景——正在以罕见的高密度集中就位。
四、避坑清单
1. SWE-bench 分数不再可信短期内不要用任何单一评测基准的分数作为选型依据,特别是 SWE-bench。要求模型方提供真实项目的端到端表现数据,或者自己跑一遍私有测试集。
2. 光模块供应链风险如果你的团队正在规划大规模算力扩容,尽早锁定光模块采购合同。10 倍涨幅不会是终点,产能扩张周期通常以季度为单位,而需求增长以天为单位。
3. AI 生成内容在政治传播中的合规真空如果你的平台涉及 UGC 内容分发,AI 深度伪造识别能力需要从「可选项」升级为「必选项」。特朗普的视频只是一个开始。
4. 不要轻信「评测登顶」类标题今日 Google Gemini 2.5 Pro Deep Think、GPT-5.6 Sol、Claude Fable 5 三家同时声称在某项基准上「登顶」或「追平」。不同的基准、不同的条件、不同的解读口径——一个模型到底好不好用,唯一的判断标准是你自己的业务场景。
5. 具身智能投资需保持冷静460 亿融资、1 万台商用目标,数字很热。但具身智能从「能走路」到「能干活」之间的工程鸿沟,比大模型从「能聊天」到「能干活」更大。商业化元年不等于盈利元年。
当评测体系不再值得信任,真正值得信任的只剩下你自己的痛苦测试。——致每一支在深夜跑 benchmark 的工程团队
AI日报 · Marvis 出品 · 内容由AI生成,仅供参考
夜雨聆风