1. 震撼!SWE-Bench作者放大招:顶级AI模型0%完成率
5月8日前后,AI圈被一个benchmark结果"全员打沉默了"。
事件是什么?
SWE-Bench(AI编程能力测试标杆)的创建者,联合Meta FAIR、斯坦福、哈佛等机构,发布了一个全新的、"地狱级"的benchmark,叫ProgramBench。
与以往测试"写个函数"、"修个bug"不同,ProgramBench要求AI根据功能描述和文档,从零开始重新构建一个真实可用的软件系统——比如ffmpeg、SQLite、ripgrep这种级别的项目。
结果是什么?
Claude Opus 4.7、GPT-5.4、GPT-5 mini、Gemini 3.1 Pro、Gemini 3 Flash……
全部0%完成率。
没有一个模型能够真正完整地重建一个软件项目。
为什么这条值得你关注?
因为这揭示了一个被刻意忽略的真相:
"今天的大模型,已经很会写代码了,但依然不会做软件工程。"
你可能在用Copilot、Claude Code、Cursor——它们写函数、写模块确实很猛。但当你需要从零设计一个系统架构、做长期规划、维护一个复杂项目的结构时,AI目前还差得很远。
这个gap,就是接下来18-24个月AI Coding工具竞争的核心战场。
一句话总结: AI写代码很强,但做软件工程还不行——这也许是真正的机会窗口。
参考资料:
2. "小米系"具身智能公司,2个月内再获数亿元融资
5月9日,一条融资消息在机器人圈刷屏:小雨智造完成数亿元B+轮融资。
事件是什么?
小雨智造(通用具身智能科技公司)宣布完成B+轮融资,距离上一轮B轮融资仅过去2个月。本轮由北汽产投、复星锐正和建发新兴三家联合投资,老股东跟投,滴滴和小米联合创始人黎万强继续追加投资。
为什么这条值得你关注?
三个信号:
第一,产业资本在加速入场。 北汽(汽车)、建发(钢铁供应链)这些传统产业的资本,开始认真押注具身智能了。这不是财务投资,是战略押注——他们相信自己所在的产业会被具身智能重塑。
第二,融资节奏极快。 2个月完成两轮融资,说明资本市场对"已经有真实订单和量产能力"的具身智能公司,给的溢价极高。
第三,"一脑多形"架构开始被验证。 小雨智造的核心技术路线是用一套"大脑"控制多种形态的机器人,优先落地工业场景(智能焊接)。这条路如果走通,具身智能的商业闭环会比预期快。
一句话总结: 具身智能不再是"Demo炫技",有真实订单的公司正在被资本疯抢。
参考资料:
3. 全球首创海洋机器人完成数亿元融资,具身智能商业化元年确认
同样在5月9日,另一条融资消息被不少人忽略,但其实信号极强。
事件是什么?
世航智能宣布完成A+和A++两轮融资,金额数亿元人民币。新投资人包括华映资本管理的国家中小企业发展基金、大数长青资本等,金沙江创投、长石资本等老股东追加投资。
他们的产品叫**"虎鲸"海洋机器人**:
为什么这条值得你关注?
因为它的商业化路径非常清晰,而且已经落地:
2026年被业界称为**"具身智能规模化应用元年"**。世航智能的案例证明:具身智能不是在实验室里,而是已经在一些垂直场景开始"赚钱"了。
国家中小企业发展基金入场,这个信号你也值得注意——国家队开始认真布局具身智能产业链了。
一句话总结: 具身智能不再只是人形机器人,垂直场景(海洋、工业、物流)的商业化兑现速度可能更快。
参考资料:
4. 蚂蚁百灵发布万亿级思考模型,国产推理模型新高度
5月9日,蚂蚁百灵大模型发布Ring-2.6-1T,一款万亿级参数的思考模型(Reasoning Model),引发AI圈广泛关注。
事件是什么?
Ring-2.6-1T 的核心特点是可调节推理强度——你可以根据任务难度,选择不同的推理模式:
(3)性能指标(官方披露):
| 87.60 分 | ||
| 95.83 分 | ||
| 88.27 分 |
目前模型已上线 OpenRouter,开放一周免费体验,近期计划开源。
为什么这条值得你关注?
第一,推理模型赛道中国公司开始领跑。 过去大家提起推理模型,第一反应是 OpenAI 的 o 系列、DeepSeek-R1。Ring-2.6-1T 在 PinchBench 上超越国际主流闭源模型,是国产大模型在推理能力维度的一次重要突破。
第二,可调节推理强度是实用化关键。 此前的推理模型有个痛点:做个简单任务也"想半天",Token 消耗极高。蚂蚁这套"可调节强度"设计,让推理模型真正走向日常可用。
第三,即将开源。 如果 Ring-2.6-1T 开源,将直接拉低推理模型的使用门槛——无论你是做研究还是做应用,都值得持续关注。
一句话总结: 国产推理模型正在从"跟跑"转向"并跑",甚至局部"领跑"。
信息来源:
5. DeepSeek估值飙升至450亿美元,国家大基金正洽谈领投
最后一条,关于国产大模型的估值爆发。
事件是什么?
多个信源确认,DeepSeek的估值已经从200亿美元翻倍至450亿美元。国家集成电路产业投资基金("国家大基金")正洽谈领投DeepSeek的首轮融资。
为什么这条值得你关注?
第一,国家资本入场信号极强。 国家大基金如果领投,意味着DeepSeek从"极客实验室"正式升级为"国家战略级AI基础设施"。它会获得充足的算力、数据和政策支持。
第二,国产大模型的估值重估。 从200亿到450亿美元,只用了很短时间。国际市场对中国AI模型的竞争力,正在重新定价。
第三,对你的实际影响。 如果你在用或考虑用国产大模型(DeepSeek、混元、通义等),这条消息意味着:国产模型的"资源天花板"正在被打开,后续迭代速度可能会超出预期。
一句话总结: 国产大模型获得国家资本背书,估值和能力的双向增长周期可能才刚开始。
参考资料:
📊 一张表总结本期核心信号:
| AI编程 | ||
| 具身智能 | ||
| 国产大模型 |
夜雨聆风