乐于分享
好东西不私藏

QCon 2026 北京站深度观察:AI 正在重写软件工程底座

QCon 2026 北京站深度观察:AI 正在重写软件工程底座

五一假日,我把 QCon2026 的 77 份讲师材料系统过了一遍,合计 2674 页,抽取文本约 53.8 万字符。

整体看下来,这批材料给我的感受很明确:它不是只在讨论某几个 AI 工具怎么提效,而是几乎把软件工程的每一层都重新翻了一遍。

如果只看表面,大家都在讲 Agent、AI Coding、Runtime、Memory、AIOps、生成式 UI、多模态、安全和 AI Infra。但把这些材料放在一起看,会发现真正的主线不是“Agent 又多了几个场景”,而是企业正在把研发、测试、数据、运维、推理、交互、安全、业务协同和基础设施,重新组织成一套 AI Native 的工程系统。

过去我们讨论 AI,更多是讨论一个工具能不能提效;现在大家开始讨论的是:AI 生成之后怎么验证,Agent 执行时怎么隔离,长上下文怎么管理,评估怎么持续,成本怎么可观测,安全怎么前置,组织经验怎么沉淀成可复用资产。

所以,这次 QCon 给我的核心感受是:AI 在软件工程里已经过了“工具增强期”,正在进入“工程底座重构期”。

一、这次大会真正的主线:从 AI 工具,到 AI 原生工程系统

这批材料里,最密集出现的词是 Agent、记忆、Token、知识、上下文、安全、成本、推理、评估、调度和可观测。这个词频本身就很有意思:它说明大家已经不再只关心模型能力,而是开始关心模型周围的工程系统。

一个 Agent 真正进入生产,至少要补上几层东西。

第一层是上下文。Agent 要知道用户是谁、目标是什么、系统边界在哪里、历史经验有哪些、当前状态如何。第二层是工具和运行环境。它不能只回答问题,还要能安全调用工具、读写文件、执行代码、访问数据、触发流程。第三层是观测和评估。它做了什么、为什么这么做、效果好不好、有没有退化,都要能被看见。第四层是治理。权限、审计、隔离、回滚、成本、安全都不能靠事后补丁。

这也是为什么很多分享看起来分散,实际上指向同一件事:AI 正在从“功能点”变成“运行体系”。
  • 陶宇田讲 OpenSandbox,关注的不是普通容器,而是 Agent 时代的 Runtime 契约:Lifecycle、Execution、Access、Policy。

  • 赵庆杰讲 AgentRun,从一次会话到亿级并发,把 Sandbox、安全隔离、Skills 挂载、Team Memory、全链路可观测和 CI/CD 集成放在一起。

  • 季旭讲 Mem0,李志宇讲 MemOS 2.0,周祥讲多模态记忆平台,熊飞宇讲 OpenClaw 热潮下的 Agent 记忆系统工程实践,说明记忆和上下文已经从“模型输入”变成了基础设施。

这些材料合在一起看,Agent 工程化不再是“把模型接进来”,而是要围绕 Agent 建一整套运行、观测、评估和治理底座。

二、AI Coding 的重点,正在从“会写代码”转向“能交付闭环”

AI Coding 是这次材料里最热的一条线,但越成熟的分享越不强调“模型能写多少代码”,而是强调上下文、规范、评估、反馈和工程资产。

  • 姜天意讲网易智企从 Vibe Coding 到 Spec Driven,重点不是让 AI 随手写代码,而是让需求和约束先被结构化。邓立山讲可复制的 AI Coding 全栈实战,强调比 OpenSpec 更轻量、更丝滑,本质上是在降低工程团队把 AI Coding 放进真实流程的门槛。徐翔的 JoyCode 直接把题目落在“尽在上下文”,说明企业级 AI Coding 的关键不是 Prompt,而是仓库级知识、团队规则、短期记忆和任务边界。

  • 彭佩乔分享蚂蚁 Vibe Coding 平台落地半年后的实践,标题是“让每个员工都有一个 Coding Agent”,但真正有价值的是平台化后的挑战:上下文、Cache、多人协同、工程资产和组织级落地。牛万鹏把 Coding Agent 的飞轮拆成 Feedback Loop、Benchmark 和 Agent Engineers,这已经不是个人效率工具,而是持续进化的工程系统。

  • 褚秋实讲金融级 AI Coding,从“氛围”编程到“严谨”开发。这个表达很准确:金融级场景不能只看生成速度,必须看可追溯、可验证、可回滚和符合规范。李文鹏则把链路拉到从 PRD 到上线,Doc 与 Code 联动、Hybrid 执行、工程资产驱动,实际上是在把 AI Coding 放进完整交付系统。

这条线最值得注意的是,AI Coding 的竞争维度正在变化。

第一阶段是 Copilot,价值在单点补全。第二阶段是 Coding Agent,价值在多步任务执行。第三阶段会是交付闭环,价值在需求理解、设计约束、代码修改、测试验证、评估回归、发布风险和组织资产之间的贯通。

所以,AI Coding 后面真正的分水岭不是“谁能多写几行代码”,而是“谁能把 AI 写出来的东西放进企业真实交付系统里,并且能证明它是对的”。

三、可观测和评估,正在成为 Agent 生产化的分水岭

传统软件可观测看指标、日志、链路;Agent 可观测要看更多东西:它看到了什么上下文,选择了什么工具,为什么生成这个计划,哪一步失败,失败后有没有重试,重试是否改变了风险,最终结果是否可验证。

钱世俊讲给 Agent 做“CT”,重点是把多轮对话上下文、Prompt/Response、工具调用、RAG 召回结果都放进可追溯链路里。章平讲大规模 Agent 评估工程,用质量隐形降级的案例说明:Agent 的退化不一定会主动暴露,必须依靠持续评估和监控体系。

Clement 的无侵入可观测分享很有代表性。Agent 执行链路跨越 LLM、工具、沙箱、容器、进程和系统调用,传统单层监控看不到完整问题。刘杨则把可观测推进到推理引擎内部,讨论 Token 级调度、Prefill/Decode、长请求和资源竞争。

RCA/AIOps 线也在补同一块拼图。马云雷讲 AIOps Agent 在 RCA 场景下的研发范式与数据飞轮,裴彤讲从 AIOps 到 Agent Ops,刘至浩讲“假设-验证”闭环,郭勇良讲复杂业务场景下 RCA Agent。这些材料共同说明:没有可复现基线,每次优化都很难判断真实收益;没有可观测链路,Agent 失败时也很难定位责任边界。

Agent 生产化不是靠感觉推进的。没有可观测,问题无法定位;没有评估,优化无法证明;没有数据飞轮,系统无法持续变好。

四、AI Infra 从“跑模型”扩展到“跑智能系统”

AI Infra 线的变化很明显:基础设施不再只是 GPU、Kubernetes、推理加速和模型服务,而是要支撑 Agent、推理、记忆、评估、数据闭环、多模态任务和业务系统持续运行。

  • 季万强讲 Aether,聚焦 AI 原生负载的统一弹性调度。宋顾杨与李冲讨论 K8s 遇见 Ray,把大模型时代 AI Workload 调度看成通用范式。金煜阳从内存管理、编译优化、量化与并行策略讲推理加速全链路,李秀红则把 Agentic MaaS 和 KV Cache 压缩放在一起,说明推理系统的成本与效率正在成为 Agent 平台的底层约束。

  • 朱江云讲 vLLM-Omni,郭清沛讲 Ming-Flash-Omni,王曜明讲统一多模态大模型的自回归路线,张延钊讲 Qwen-VL-Embedding。多模态与全模态推理进入工程议题以后,AI Infra 的边界继续外扩:它要支持的不再只是文本请求,而是视觉、语音、多模态检索、排序、生成和实时交互。

  • 谈鉴锋、周天昱的 From Computer Use to Datacenter Use for AI 从另一个方向说明趋势:AI 不是只使用电脑,而是要使用数据中心。开发者体验、资源抽象、部署系统、冷启动、延迟、隔离和调度都会成为 AI 时代基础设施的一部分。

这些实践放在一起看,AI Infra 的边界已经明显扩大:它不只是把模型跑起来,而是要支撑 Agent、推理、记忆、评估、数据闭环、业务推荐和多模态任务持续运行。

五、安全和治理正在前置,不再是 Agent 上线后的补丁

Agent 的安全问题比传统应用更复杂,因为它不只是处理输入,还会理解输入、规划动作、调用工具、读写文件、访问网络、持久化记忆。权限一旦给出去,风险就不再停留在“答错一句话”。

  • Sunny Duan 的智能体安全分享,把提示词注入、供应链投毒、角色劫持、数据外传、权限持久化、工具链攻击、记忆层投毒等威胁讲得很具体。张栋的智能终端行业 Agentic AI 业务 Red Team,把问题拉到真实业务攻击面:AI 不只是被动响应,它会在业务流程中主动执行,Red Team 必须覆盖新的行为边界。

  • 王东旭讲 Agent 重塑风控场景产运研职能,胡宜峰讲内容风控垂直领域的大小模型研发,李卓豪讲 DataAgent 的企业级智能数据开发治理平台。这些材料都说明,风控、数据治理和安全不再是独立后台能力,而会直接进入 AI 系统的架构主链路。

  • 闫文亮的 Feature Flag 全生命周期治理也很值得放进这个观察里。开关治理表面上不是 Agent 安全,但它处理的是另一个方向的技术债:系统里的开关、规则、临时逻辑如果缺少生命周期管理,本身会成为长期风险源。AI 可以参与治理,但前提是有权限边界、校验、审计和回滚。

这里有一个趋势值得强调:Agent 安全不能只靠“提示词里写不许做坏事”。只要 Agent 能执行,就必须有权限边界;只要 Agent 能记忆,就必须有记忆治理;只要 Agent 能调工具,就必须有工具供应链审计;只要 Agent 能联网,就必须有访问策略和审计追踪。

六、垂直场景正在进入深水区,通用 Agent 叙事反而降温

这次材料里有大量垂直场景案例,反而比“万能 Agent”更值得看。因为越具体的业务,越能暴露真正的工程难点:数据从哪里来,怎么评估,怎么接流程,谁来兜底,如何证明有效。

  • 郭春晓讲蚂蚁阿福医疗 Agent,从 0 到生产,医疗场景的难点非常典型:专业性要求高,上下文有限,单 Agent 难以承载复杂医疗推理,不同子任务上下文混合会导致污染,还要面对患者隐私、数据安全、防蒸馏和合规要求。

  • 桑梓森讲淘宝闪购生成式搜推全链路重构,董正心讲淘宝闪购搜推商品理解,李克华在 PDF 版本中讲骑手智能助手业务落地到 Agent 平台化,这些都说明即时零售和履约场景不是普通问答,而是高频、高并发、高约束的业务系统重构。

  • 王思文讲 IoT 主动智能的用户历史压缩建模与生成式推荐,胡宜峰讲内容风控垂直领域大小模型研发,王东旭讲风控产运研职能重塑,李卓豪讲 DataAgent,尹辰轩讲多模态 + Agent 在培训教育领域的应用。这些案例的共同点是:AI 价值来自数据、规则、评估、反馈和业务流程深度结合,而不是“一个通用 Agent 解决所有问题”。

真正跑起来的,都是带着业务约束、数据闭环、评估体系和工程底座的专用智能系统。

七、多模态、具身智能和 AIGC,把 AI 推向物理与内容生产

多模态和具身智能在这次大会里不是边缘主题,而是和 AI Infra、数据闭环、AIGC 工业化一起构成了另一条主线:AI 不再只处理文本任务,也开始处理物理世界、内容生产和多模态理解。

  • 何泳澔讲工业场景机器人操作,强调泛工业场景虽然复杂,但很多任务流程具有规律性,可以通过硬件选型、算法优化、数据采集和仿真闭环落地。李元庆讲具身智能 Agent,从 VLA/VA 模型到物理世界交互,进一步把 Agent 的执行边界从软件系统推向真实物理环境。

  • 赵晗从百 PB 自动驾驶经验讲具身智能 AI 原生基建,指出具身智能需要多模态交互数据管道、异构数据对齐、仿真和调度基础设施。这个判断很重要:具身智能的瓶颈不是单个模型,而是数据闭环和基础设施。

  • AIGC 线里,李云鑫讲从 Copilot 到 Director,让多模态智能体接管 AIGC 流程;高伽林讲美团大规模电商海报生成的工业化实践;石孝钢讲京东零售 AIGC 百亿素材供给;韩剑讲自回归模型在视觉生成领域的应用。这些材料说明内容生成也在从“能生成”走向“能规模化供给、能评估、能治理、能服务业务目标”。

多模态、具身智能和 AIGC 的共同瓶颈会落在数据、评估、运行系统和业务闭环上,而不是单次生成效果。

八、交互层也在变化:生成式 UI、GUI Agent 和“同事型产品”

除了后端工程和基础设施,这次 QCon 的交互层材料也很值得看。AI 对软件的改变,不只是把按钮后面的逻辑变智能,也会改变用户怎么使用软件。

杨涛的“意图即界面”把交互范式推到最前面:用户表达的不是“我要点哪个按钮”,而是“我要达成什么目的”。林瑞虹讲生成式 UI,邓小红讲 AI 搜索场景下的生成式 UI 工程实践,黄兆嵩把 UI 生成接进流水线并用半监督评测体系控制质量。它们共同说明:前端不只是页面工程,正在变成“意图到交互”的运行系统。

项泳彪讲淘宝闪购 AI 驱动 UI 自动化提效,张亦驰讲小红书 GUI Agent 在智能化测试中的工程落地,仲思宇讲基于业务流程管理的客户端 AI Agent 智能化测试实践。这些分享把 GUI 从“给人操作的界面”变成“给 Agent 理解、操作、测试和反馈的协议”。

苏杰的“从工具到同事”则补上产品视角:AI 产品不应该只是一个按钮或一个副驾驶,而是承担更主动的协作角色。黄闻欣讲从用 AI 到 AI 自己找活干,徐文健讲 ColaOS 的液态超级团队,也都把讨论推向更主动的协作关系。

这条线还没有像 AI Coding 和 Infra 那么成熟,但它很重要。因为当 AI 真正进入工作流,界面就不会只是人的操作入口,也会成为 Agent 理解、生成、执行和反馈的共同协议。

九、需要冷静看待的共性问题

这次材料整体质量很高,但也能看到一些共性隐患。这里不点名具体公司或讲师,只谈行业问题。

第一个问题是概念密度太高,但工程边界有时不够清楚。Agent、MCP、Skills、Memory、Workflow、Harness、Runtime、Control Plane、Data Flywheel 很容易一起出现,但如果没有明确说明每一层解决什么问题、数据怎么流、权限怎么控、失败怎么回滚,就容易变成概念堆叠。

第二个问题是很多团队已经意识到评估重要,但评估建设仍明显滞后于生成能力。生成能力很容易演示,评估体系很难建设。尤其是业务主观质量、长链路任务成功率、工具调用正确性、多 Agent 协同效果、线上退化监测,都不是靠一次 Demo 能证明的。

第三个问题是成本意识开始出现,但还没有完全进入产品设计第一性原理。Token 成本、推理延迟、长上下文膨胀、Embedding 成本、评估成本、GPU 资源利用率,在很多材料里都被提到,但真正把成本、质量、速度、风险做成统一调度目标的案例还不多。

第四个问题是上下文和记忆容易被高估。长上下文不是银弹,记忆系统也不是越多越好。错误记忆、过期记忆、跨 Agent 上下文污染、隐私数据残留、提示词和配置持久化投毒,都会让 Agent 的长期表现不可控。

第五个问题是安全仍然容易被当成后置能力。Agent 一旦具备工具调用、文件访问、联网、代码执行和持久化记忆,安全就应该从第一天进入架构,而不是等到业务跑起来后再补审计。

第六个问题是组织变革被低估。很多分享已经开始提到 Agent Engineers、液态团队、超级团队、从工具到同事,但企业真正要改的不是“买一个 AI 工具”,而是需求、设计、开发、测试、运维、评估、审批、复盘、知识沉淀的协作方式。

结语:未来的软件工程,会围绕 Agent 重新分层

如果用更工程化的方式总结这次 QCon,我会说:AI 正在把软件工程从“人操作工具链”推向“人定义目标,Agent 调用工程系统完成任务”。

这个变化不会一夜完成,也不会在所有场景同时发生。它大概率会先在高频、高成本、高风险、有明确验收标准的场景里落地:AI Coding、测试自动化、RCA、风控、医疗、销售、推荐、AIGC 生产、Agent Runtime、AI Workload 调度、推理可观测。

真正值得关注的公司,也不一定是口号喊得最响的,而是那些能把模型能力放进工程体系里的团队:有上下文,有工具,有 Runtime,有 Memory,有评估,有可观测,有权限,有审计,有成本治理,有失败回滚,也有数据飞轮。

AI 应用的上半场,大家比的是谁能把模型用起来。下半场,可能比的是谁能把模型变成可运行、可验证、可治理、可持续进化的软件工程底座。