一、OpenAI 发布 GPT-5.6 三档模型,编程跑分全面超越 Claude Mythos 5
事件: 6月27日,OpenAI 正式推出 GPT-5.6 系列有限预览版,分 Sol(旗舰)、Terra(通用)、Luna(轻量)三档。旗舰模型 Sol 在 Terminal-Bench 2.1 编程基准上标准模式得分 88.8%,超越 Claude Mythos 5 的 88.0%,Ultra 模式下更是达到 91.9%。Sol 引入了全新的 Max 推理强度和基于子智能体的 Ultra 模式,在网络安全 ExploitBench 上仅用约 1/3 输出 token 即达到 Mythos Preview 水平。受美国政府对华出口管制影响,目前仅向少数「可信合作伙伴」开放。
二、DeepSeek 开源 DSpark 推测解码框架,单用户推理速度最高提升 85%
事件: 6月27日,DeepSeek 正式开源推测解码框架 DSpark 及配套训练框架 DeepSpec,由创始人梁文锋署名、联合北京大学完成,论文同步公开。DSpark 核心技术在于半自回归生成与置信度调度验证——用轻量草稿模型并行生成候选 token,再由目标模型批量校验,对低置信度尾部 token 提前剪枝。对比生产基线 MTP-1,DSpark 在保持整体吞吐不变的前提下,单用户生成速度提升 60%-85%,并有效避免高并发下吞吐率滑坡。这对 AI 编程场景(频繁、低延迟的代码补全与迭代)具有直接加速价值。
三、2026南京软件大会集中发布4项AI核心成果,Focus VLA + BoCoder + Armstrong Pro 齐亮相
事件: 6月26日,2026南京软件大会「AI创新与产业赋能」专场活动以「模力觉醒、码上未来」为主题举办。现场集中发布4项核心成果:
- 中科南京软件技术研究院 Focus VLA 具身智能模型
:可预判机器人动作意图,破解复杂场景下的作业瓶颈; - Zenk 决策智能体
:融合大模型与决策模型,实现可解释可追溯推理; - 江苏博云 BoCoder 编程智能体
:面向工业、金融、政务领域的全栈 AI 编码方案; - 智往未来 Armstrong Pro 具身机器人
:第二代产品已入驻世界500强外企仓库,完成从技术验证到商业落地的关键跨越。
四、吉翼智能首秀:具身智能告别「炫技」时代,三款产品直击真实场景
事件: 6月27日,成立仅10个月的吉翼智能在长春举办「NEXT IS NOW」新品发布会,作为吉林省具身智能「一号工程」首次公开亮相。发布会推出三款产品:工业质检机器人专攻汽车线束质检这一最复杂核心场景;药店服务机器人实现「机器人坐诊」,理解顾客症状并给出用药建议;自研具身大模型则从「执行命令」迈向「理解意图」。这家依托汽车级精密制造基因的创业公司,用仅8个月完成从立项到产品交付的全流程,试图回答行业核心命题:谁能把机器人真正送进真实场景,谁就拿到下一阶段的入场券。
五、BrowserBC 开源:把人类一次网页操作蒸馏成 Agent 通用技能卡
事件: Einsa AI 旗下 Navers Lab 开源 BrowserBC,提出「录制→转写 Skill→交付执行」三步范式。用户只需在浏览器里完成一次任务,系统会把全过程转写成一份自然语言技能卡,再交给任意一个更小的模型在真实网页上自主执行。这意味着 Agent 不必每次从零摸索,而是真正实现了「做一次,复用无数次」——一种从行为蒸馏到能力泛化的 AI 编程新范式。
📝 个人观点
放眼这五则消息,可以清晰地感受到两条并行的主线:AI coding 正在从「辅助工具」进化成「自主工程系统」;具身智能正在从「实验室炫技」冲向「真实场景的量产交付」。这两条线看似分属不同赛道,本质上却指向同一个终局——让 AI 真正具备在物理世界和数字世界中自主完成复杂工作的能力。
先看 AI coding。GPT-5.6 Sol 在编程基准上超越 Claude Mythos 5,看似只是一个百分点的领先,但背后的意义远不止于此。OpenAI 此次引入的 Ultra 模式和子智能体机制,意味着模型不再只是「补全代码」,而是在模拟一个项目经理拆解任务、分配子任务、并行执行、最后汇总的完整工作流。这与 Karpathy 那份流出 CLAUDE.md 文件的精神高度一致:把编程从「模型猜你想干嘛」变成「模型按工程纪律干活」。而 DeepSeek 开源 DSpark 的意义则在于基础设施层——当大家都在卷模型能力,DeepSeek 选择卷推理效率。85% 的速度提升对于 AI 编程场景是直接的生产力释放,尤其是在代码补全这种对延迟极度敏感的交互中。再结合 BrowserBC 的「技能卡」思路——把一次网页操作写成可复用的 Agent 技能——我们看到的趋势是:AI 编程正从「给你补一段代码」走向「给你造一个会干活的数字员工」。
再看具身智能。2026年无疑是这个赛道的「落地元年」。南京软件大会上 Focus VLA、BoCoder、Armstrong Pro 的集中亮相,吉翼智能 10 个月完成从组建到产品发布的惊人速度,智元精灵 G2 已在龙旗产线实现 99.5% 作业成功率,宇树一年出货 5500 台……这些数字串联起来的画面是:人形机器人正在走出 PPT,走进工厂车间、药店柜台和物流仓库。特别值得关注的是吉翼智能提出的三个「悬念」——工业质检、药店坐诊、意图理解——每一个都在拷问一个核心问题:具身智能到底能不能创造真实的经济价值?「老师傅」几十年的质检经验能否被机器人替代?药店机器人能不能真正理解「我嗓子疼、有点发烧」这句话背后的医学含义?这些问题的答案,将决定这波热潮究竟是真正的产业革命,还是一场昂贵的烟花。
最后说说这五个事件之间的 暗线联系。GPT-5.6 的 Ultra 模式靠子智能体加速复杂任务,南京软件的 Zenk 决策智能体在做企业决策中枢,BrowserBC 把操作流程拆成可复用技能卡——三者讲的其实是同一件事:Agent 化。AI 的能力不再囿于单一模型的参数边界,而是在向「调度多模型、拆解任务、管理上下文、执行验证」的体系化方向演进。而具身智能的 VLA 统一架构、端云协同、少样本泛化,本质上是把同样的 Agent 逻辑搬到物理世界。一言以蔽之:2026年6月这一周,AI 行业同时给了我们两组信号——数字世界的 Agent 已经可以写代码、做决策、复用技能;物理世界的 Agent 已经开始搬运钣金件、质检产品、坐诊药店。两个世界正在合并,而合并点就是「能干活」三个字。
《易传》有言:「形而上者谓之道,形而下者谓之器。」AI coding 在追「道」——追求自主理解与创造的智能;具身智能在造「器」——打造能触碰世界的实体。道器合一,方成大用。
夜雨聆风