AI 正在从「辅助工具」进化成「自主工程系统

一、OpenAI 发布 GPT-5.6 三档模型，编程跑分全面超越 Claude Mythos 5

事件： 6月27日，OpenAI 正式推出 GPT-5.6 系列有限预览版，分 Sol（旗舰）、Terra（通用）、Luna（轻量）三档。旗舰模型 Sol 在 Terminal-Bench 2.1 编程基准上标准模式得分 88.8%，超越 Claude Mythos 5 的 88.0%，Ultra 模式下更是达到 91.9%。Sol 引入了全新的 Max 推理强度和基于子智能体的 Ultra 模式，在网络安全 ExploitBench 上仅用约 1/3 输出 token 即达到 Mythos Preview 水平。受美国政府对华出口管制影响，目前仅向少数「可信合作伙伴」开放。

二、DeepSeek 开源 DSpark 推测解码框架，单用户推理速度最高提升 85%

事件： 6月27日，DeepSeek 正式开源推测解码框架 DSpark 及配套训练框架 DeepSpec，由创始人梁文锋署名、联合北京大学完成，论文同步公开。DSpark 核心技术在于半自回归生成与置信度调度验证——用轻量草稿模型并行生成候选 token，再由目标模型批量校验，对低置信度尾部 token 提前剪枝。对比生产基线 MTP-1，DSpark 在保持整体吞吐不变的前提下，单用户生成速度提升 60%-85%，并有效避免高并发下吞吐率滑坡。这对 AI 编程场景（频繁、低延迟的代码补全与迭代）具有直接加速价值。

三、2026南京软件大会集中发布4项AI核心成果，Focus VLA + BoCoder + Armstrong Pro 齐亮相

事件： 6月26日，2026南京软件大会「AI创新与产业赋能」专场活动以「模力觉醒、码上未来」为主题举办。现场集中发布4项核心成果：

中科南京软件技术研究院 Focus VLA 具身智能模型
：可预判机器人动作意图，破解复杂场景下的作业瓶颈；
Zenk 决策智能体
：融合大模型与决策模型，实现可解释可追溯推理；
江苏博云 BoCoder 编程智能体
：面向工业、金融、政务领域的全栈 AI 编码方案；
智往未来 Armstrong Pro 具身机器人
：第二代产品已入驻世界500强外企仓库，完成从技术验证到商业落地的关键跨越。

四、吉翼智能首秀：具身智能告别「炫技」时代，三款产品直击真实场景

事件： 6月27日，成立仅10个月的吉翼智能在长春举办「NEXT IS NOW」新品发布会，作为吉林省具身智能「一号工程」首次公开亮相。发布会推出三款产品：工业质检机器人专攻汽车线束质检这一最复杂核心场景；药店服务机器人实现「机器人坐诊」，理解顾客症状并给出用药建议；自研具身大模型则从「执行命令」迈向「理解意图」。这家依托汽车级精密制造基因的创业公司，用仅8个月完成从立项到产品交付的全流程，试图回答行业核心命题：谁能把机器人真正送进真实场景，谁就拿到下一阶段的入场券。

五、BrowserBC 开源：把人类一次网页操作蒸馏成 Agent 通用技能卡

事件： Einsa AI 旗下 Navers Lab 开源 BrowserBC，提出「录制→转写 Skill→交付执行」三步范式。用户只需在浏览器里完成一次任务，系统会把全过程转写成一份自然语言技能卡，再交给任意一个更小的模型在真实网页上自主执行。这意味着 Agent 不必每次从零摸索，而是真正实现了「做一次，复用无数次」——一种从行为蒸馏到能力泛化的 AI 编程新范式。

📝 个人观点

放眼这五则消息，可以清晰地感受到两条并行的主线：AI coding 正在从「辅助工具」进化成「自主工程系统」；具身智能正在从「实验室炫技」冲向「真实场景的量产交付」。这两条线看似分属不同赛道，本质上却指向同一个终局——让 AI 真正具备在物理世界和数字世界中自主完成复杂工作的能力。

先看 AI coding。GPT-5.6 Sol 在编程基准上超越 Claude Mythos 5，看似只是一个百分点的领先，但背后的意义远不止于此。OpenAI 此次引入的 Ultra 模式和子智能体机制，意味着模型不再只是「补全代码」，而是在模拟一个项目经理拆解任务、分配子任务、并行执行、最后汇总的完整工作流。这与 Karpathy 那份流出 CLAUDE.md 文件的精神高度一致：把编程从「模型猜你想干嘛」变成「模型按工程纪律干活」。而 DeepSeek 开源 DSpark 的意义则在于基础设施层——当大家都在卷模型能力，DeepSeek 选择卷推理效率。85% 的速度提升对于 AI 编程场景是直接的生产力释放，尤其是在代码补全这种对延迟极度敏感的交互中。再结合 BrowserBC 的「技能卡」思路——把一次网页操作写成可复用的 Agent 技能——我们看到的趋势是：AI 编程正从「给你补一段代码」走向「给你造一个会干活的数字员工」。

再看具身智能。2026年无疑是这个赛道的「落地元年」。南京软件大会上 Focus VLA、BoCoder、Armstrong Pro 的集中亮相，吉翼智能 10 个月完成从组建到产品发布的惊人速度，智元精灵 G2 已在龙旗产线实现 99.5% 作业成功率，宇树一年出货 5500 台……这些数字串联起来的画面是：人形机器人正在走出 PPT，走进工厂车间、药店柜台和物流仓库。特别值得关注的是吉翼智能提出的三个「悬念」——工业质检、药店坐诊、意图理解——每一个都在拷问一个核心问题：具身智能到底能不能创造真实的经济价值？「老师傅」几十年的质检经验能否被机器人替代？药店机器人能不能真正理解「我嗓子疼、有点发烧」这句话背后的医学含义？这些问题的答案，将决定这波热潮究竟是真正的产业革命，还是一场昂贵的烟花。

最后说说这五个事件之间的 暗线联系。GPT-5.6 的 Ultra 模式靠子智能体加速复杂任务，南京软件的 Zenk 决策智能体在做企业决策中枢，BrowserBC 把操作流程拆成可复用技能卡——三者讲的其实是同一件事：Agent 化。AI 的能力不再囿于单一模型的参数边界，而是在向「调度多模型、拆解任务、管理上下文、执行验证」的体系化方向演进。而具身智能的 VLA 统一架构、端云协同、少样本泛化，本质上是把同样的 Agent 逻辑搬到物理世界。一言以蔽之：2026年6月这一周，AI 行业同时给了我们两组信号——数字世界的 Agent 已经可以写代码、做决策、复用技能；物理世界的 Agent 已经开始搬运钣金件、质检产品、坐诊药店。两个世界正在合并，而合并点就是「能干活」三个字。

《易传》有言：「形而上者谓之道，形而下者谓之器。」AI coding 在追「道」——追求自主理解与创造的智能；具身智能在造「器」——打造能触碰世界的实体。道器合一，方成大用。