QCon 2026 北京站深度观察:AI 正在重写软件工程底座

五一假日，我把 QCon2026 的 77 份讲师材料系统过了一遍，合计 2674 页，抽取文本约 53.8 万字符。

整体看下来，这批材料给我的感受很明确：它不是只在讨论某几个 AI 工具怎么提效，而是几乎把软件工程的每一层都重新翻了一遍。

如果只看表面，大家都在讲 Agent、AI Coding、Runtime、Memory、AIOps、生成式 UI、多模态、安全和 AI Infra。但把这些材料放在一起看，会发现真正的主线不是“Agent 又多了几个场景”，而是企业正在把研发、测试、数据、运维、推理、交互、安全、业务协同和基础设施，重新组织成一套 AI Native 的工程系统。

过去我们讨论 AI，更多是讨论一个工具能不能提效；现在大家开始讨论的是：AI 生成之后怎么验证，Agent 执行时怎么隔离，长上下文怎么管理，评估怎么持续，成本怎么可观测，安全怎么前置，组织经验怎么沉淀成可复用资产。

所以，这次 QCon 给我的核心感受是：AI 在软件工程里已经过了“工具增强期”，正在进入“工程底座重构期”。

一、这次大会真正的主线：从 AI 工具，到 AI 原生工程系统

这批材料里，最密集出现的词是 Agent、记忆、Token、知识、上下文、安全、成本、推理、评估、调度和可观测。这个词频本身就很有意思：它说明大家已经不再只关心模型能力，而是开始关心模型周围的工程系统。

一个 Agent 真正进入生产，至少要补上几层东西。

第一层是上下文。Agent 要知道用户是谁、目标是什么、系统边界在哪里、历史经验有哪些、当前状态如何。第二层是工具和运行环境。它不能只回答问题，还要能安全调用工具、读写文件、执行代码、访问数据、触发流程。第三层是观测和评估。它做了什么、为什么这么做、效果好不好、有没有退化，都要能被看见。第四层是治理。权限、审计、隔离、回滚、成本、安全都不能靠事后补丁。

这也是为什么很多分享看起来分散，实际上指向同一件事：AI 正在从“功能点”变成“运行体系”。

陶宇田讲 OpenSandbox，关注的不是普通容器，而是 Agent 时代的 Runtime 契约：Lifecycle、Execution、Access、Policy。
赵庆杰讲 AgentRun，从一次会话到亿级并发，把 Sandbox、安全隔离、Skills 挂载、Team Memory、全链路可观测和 CI/CD 集成放在一起。
季旭讲 Mem0，李志宇讲 MemOS 2.0，周祥讲多模态记忆平台，熊飞宇讲 OpenClaw 热潮下的 Agent 记忆系统工程实践，说明记忆和上下文已经从“模型输入”变成了基础设施。

这些材料合在一起看，Agent 工程化不再是“把模型接进来”，而是要围绕 Agent 建一整套运行、观测、评估和治理底座。

二、AI Coding 的重点，正在从“会写代码”转向“能交付闭环”

AI Coding 是这次材料里最热的一条线，但越成熟的分享越不强调“模型能写多少代码”，而是强调上下文、规范、评估、反馈和工程资产。

姜天意讲网易智企从 Vibe Coding 到 Spec Driven，重点不是让 AI 随手写代码，而是让需求和约束先被结构化。邓立山讲可复制的 AI Coding 全栈实战，强调比 OpenSpec 更轻量、更丝滑，本质上是在降低工程团队把 AI Coding 放进真实流程的门槛。徐翔的 JoyCode 直接把题目落在“尽在上下文”，说明企业级 AI Coding 的关键不是 Prompt，而是仓库级知识、团队规则、短期记忆和任务边界。
彭佩乔分享蚂蚁 Vibe Coding 平台落地半年后的实践，标题是“让每个员工都有一个 Coding Agent”，但真正有价值的是平台化后的挑战：上下文、Cache、多人协同、工程资产和组织级落地。牛万鹏把 Coding Agent 的飞轮拆成 Feedback Loop、Benchmark 和 Agent Engineers，这已经不是个人效率工具，而是持续进化的工程系统。
褚秋实讲金融级 AI Coding，从“氛围”编程到“严谨”开发。这个表达很准确：金融级场景不能只看生成速度，必须看可追溯、可验证、可回滚和符合规范。李文鹏则把链路拉到从 PRD 到上线，Doc 与 Code 联动、Hybrid 执行、工程资产驱动，实际上是在把 AI Coding 放进完整交付系统。

这条线最值得注意的是，AI Coding 的竞争维度正在变化。

第一阶段是 Copilot，价值在单点补全。第二阶段是 Coding Agent，价值在多步任务执行。第三阶段会是交付闭环，价值在需求理解、设计约束、代码修改、测试验证、评估回归、发布风险和组织资产之间的贯通。

所以，AI Coding 后面真正的分水岭不是“谁能多写几行代码”，而是“谁能把 AI 写出来的东西放进企业真实交付系统里，并且能证明它是对的”。

三、可观测和评估，正在成为 Agent 生产化的分水岭

传统软件可观测看指标、日志、链路；Agent 可观测要看更多东西：它看到了什么上下文，选择了什么工具，为什么生成这个计划，哪一步失败，失败后有没有重试，重试是否改变了风险，最终结果是否可验证。

钱世俊讲给 Agent 做“CT”，重点是把多轮对话上下文、Prompt/Response、工具调用、RAG 召回结果都放进可追溯链路里。章平讲大规模 Agent 评估工程，用质量隐形降级的案例说明：Agent 的退化不一定会主动暴露，必须依靠持续评估和监控体系。

Clement 的无侵入可观测分享很有代表性。Agent 执行链路跨越 LLM、工具、沙箱、容器、进程和系统调用，传统单层监控看不到完整问题。刘杨则把可观测推进到推理引擎内部，讨论 Token 级调度、Prefill/Decode、长请求和资源竞争。

RCA/AIOps 线也在补同一块拼图。马云雷讲 AIOps Agent 在 RCA 场景下的研发范式与数据飞轮，裴彤讲从 AIOps 到 Agent Ops，刘至浩讲“假设-验证”闭环，郭勇良讲复杂业务场景下 RCA Agent。这些材料共同说明：没有可复现基线，每次优化都很难判断真实收益；没有可观测链路，Agent 失败时也很难定位责任边界。

Agent 生产化不是靠感觉推进的。没有可观测，问题无法定位；没有评估，优化无法证明；没有数据飞轮，系统无法持续变好。

四、AI Infra 从“跑模型”扩展到“跑智能系统”

AI Infra 线的变化很明显：基础设施不再只是 GPU、Kubernetes、推理加速和模型服务，而是要支撑 Agent、推理、记忆、评估、数据闭环、多模态任务和业务系统持续运行。

季万强讲 Aether，聚焦 AI 原生负载的统一弹性调度。宋顾杨与李冲讨论 K8s 遇见 Ray，把大模型时代 AI Workload 调度看成通用范式。金煜阳从内存管理、编译优化、量化与并行策略讲推理加速全链路，李秀红则把 Agentic MaaS 和 KV Cache 压缩放在一起，说明推理系统的成本与效率正在成为 Agent 平台的底层约束。
朱江云讲 vLLM-Omni，郭清沛讲 Ming-Flash-Omni，王曜明讲统一多模态大模型的自回归路线，张延钊讲 Qwen-VL-Embedding。多模态与全模态推理进入工程议题以后，AI Infra 的边界继续外扩：它要支持的不再只是文本请求，而是视觉、语音、多模态检索、排序、生成和实时交互。
谈鉴锋、周天昱的 From Computer Use to Datacenter Use for AI 从另一个方向说明趋势：AI 不是只使用电脑，而是要使用数据中心。开发者体验、资源抽象、部署系统、冷启动、延迟、隔离和调度都会成为 AI 时代基础设施的一部分。

这些实践放在一起看，AI Infra 的边界已经明显扩大：它不只是把模型跑起来，而是要支撑 Agent、推理、记忆、评估、数据闭环、业务推荐和多模态任务持续运行。

五、安全和治理正在前置，不再是 Agent 上线后的补丁

Agent 的安全问题比传统应用更复杂，因为它不只是处理输入，还会理解输入、规划动作、调用工具、读写文件、访问网络、持久化记忆。权限一旦给出去，风险就不再停留在“答错一句话”。

Sunny Duan 的智能体安全分享，把提示词注入、供应链投毒、角色劫持、数据外传、权限持久化、工具链攻击、记忆层投毒等威胁讲得很具体。张栋的智能终端行业 Agentic AI 业务 Red Team，把问题拉到真实业务攻击面：AI 不只是被动响应，它会在业务流程中主动执行，Red Team 必须覆盖新的行为边界。
王东旭讲 Agent 重塑风控场景产运研职能，胡宜峰讲内容风控垂直领域的大小模型研发，李卓豪讲 DataAgent 的企业级智能数据开发治理平台。这些材料都说明，风控、数据治理和安全不再是独立后台能力，而会直接进入 AI 系统的架构主链路。
闫文亮的 Feature Flag 全生命周期治理也很值得放进这个观察里。开关治理表面上不是 Agent 安全，但它处理的是另一个方向的技术债：系统里的开关、规则、临时逻辑如果缺少生命周期管理，本身会成为长期风险源。AI 可以参与治理，但前提是有权限边界、校验、审计和回滚。

这里有一个趋势值得强调：Agent 安全不能只靠“提示词里写不许做坏事”。只要 Agent 能执行，就必须有权限边界；只要 Agent 能记忆，就必须有记忆治理；只要 Agent 能调工具，就必须有工具供应链审计；只要 Agent 能联网，就必须有访问策略和审计追踪。

六、垂直场景正在进入深水区，通用 Agent 叙事反而降温

这次材料里有大量垂直场景案例，反而比“万能 Agent”更值得看。因为越具体的业务，越能暴露真正的工程难点：数据从哪里来，怎么评估，怎么接流程，谁来兜底，如何证明有效。

郭春晓讲蚂蚁阿福医疗 Agent，从 0 到生产，医疗场景的难点非常典型：专业性要求高，上下文有限，单 Agent 难以承载复杂医疗推理，不同子任务上下文混合会导致污染，还要面对患者隐私、数据安全、防蒸馏和合规要求。
桑梓森讲淘宝闪购生成式搜推全链路重构，董正心讲淘宝闪购搜推商品理解，李克华在 PDF 版本中讲骑手智能助手业务落地到 Agent 平台化，这些都说明即时零售和履约场景不是普通问答，而是高频、高并发、高约束的业务系统重构。
王思文讲 IoT 主动智能的用户历史压缩建模与生成式推荐，胡宜峰讲内容风控垂直领域大小模型研发，王东旭讲风控产运研职能重塑，李卓豪讲 DataAgent，尹辰轩讲多模态 + Agent 在培训教育领域的应用。这些案例的共同点是：AI 价值来自数据、规则、评估、反馈和业务流程深度结合，而不是“一个通用 Agent 解决所有问题”。

真正跑起来的，都是带着业务约束、数据闭环、评估体系和工程底座的专用智能系统。

七、多模态、具身智能和 AIGC，把 AI 推向物理与内容生产

多模态和具身智能在这次大会里不是边缘主题，而是和 AI Infra、数据闭环、AIGC 工业化一起构成了另一条主线：AI 不再只处理文本任务，也开始处理物理世界、内容生产和多模态理解。

何泳澔讲工业场景机器人操作，强调泛工业场景虽然复杂，但很多任务流程具有规律性，可以通过硬件选型、算法优化、数据采集和仿真闭环落地。李元庆讲具身智能 Agent，从 VLA/VA 模型到物理世界交互，进一步把 Agent 的执行边界从软件系统推向真实物理环境。
赵晗从百 PB 自动驾驶经验讲具身智能 AI 原生基建，指出具身智能需要多模态交互数据管道、异构数据对齐、仿真和调度基础设施。这个判断很重要：具身智能的瓶颈不是单个模型，而是数据闭环和基础设施。
AIGC 线里，李云鑫讲从 Copilot 到 Director，让多模态智能体接管 AIGC 流程；高伽林讲美团大规模电商海报生成的工业化实践；石孝钢讲京东零售 AIGC 百亿素材供给；韩剑讲自回归模型在视觉生成领域的应用。这些材料说明内容生成也在从“能生成”走向“能规模化供给、能评估、能治理、能服务业务目标”。

多模态、具身智能和 AIGC 的共同瓶颈会落在数据、评估、运行系统和业务闭环上，而不是单次生成效果。

八、交互层也在变化：生成式 UI、GUI Agent 和“同事型产品”

除了后端工程和基础设施，这次 QCon 的交互层材料也很值得看。AI 对软件的改变，不只是把按钮后面的逻辑变智能，也会改变用户怎么使用软件。

杨涛的“意图即界面”把交互范式推到最前面：用户表达的不是“我要点哪个按钮”，而是“我要达成什么目的”。林瑞虹讲生成式 UI，邓小红讲 AI 搜索场景下的生成式 UI 工程实践，黄兆嵩把 UI 生成接进流水线并用半监督评测体系控制质量。它们共同说明：前端不只是页面工程，正在变成“意图到交互”的运行系统。

项泳彪讲淘宝闪购 AI 驱动 UI 自动化提效，张亦驰讲小红书 GUI Agent 在智能化测试中的工程落地，仲思宇讲基于业务流程管理的客户端 AI Agent 智能化测试实践。这些分享把 GUI 从“给人操作的界面”变成“给 Agent 理解、操作、测试和反馈的协议”。

苏杰的“从工具到同事”则补上产品视角：AI 产品不应该只是一个按钮或一个副驾驶，而是承担更主动的协作角色。黄闻欣讲从用 AI 到 AI 自己找活干，徐文健讲 ColaOS 的液态超级团队，也都把讨论推向更主动的协作关系。

这条线还没有像 AI Coding 和 Infra 那么成熟，但它很重要。因为当 AI 真正进入工作流，界面就不会只是人的操作入口，也会成为 Agent 理解、生成、执行和反馈的共同协议。

九、需要冷静看待的共性问题

这次材料整体质量很高，但也能看到一些共性隐患。这里不点名具体公司或讲师，只谈行业问题。

第一个问题是概念密度太高，但工程边界有时不够清楚。Agent、MCP、Skills、Memory、Workflow、Harness、Runtime、Control Plane、Data Flywheel 很容易一起出现，但如果没有明确说明每一层解决什么问题、数据怎么流、权限怎么控、失败怎么回滚，就容易变成概念堆叠。

第二个问题是很多团队已经意识到评估重要，但评估建设仍明显滞后于生成能力。生成能力很容易演示，评估体系很难建设。尤其是业务主观质量、长链路任务成功率、工具调用正确性、多 Agent 协同效果、线上退化监测，都不是靠一次 Demo 能证明的。

第三个问题是成本意识开始出现，但还没有完全进入产品设计第一性原理。Token 成本、推理延迟、长上下文膨胀、Embedding 成本、评估成本、GPU 资源利用率，在很多材料里都被提到，但真正把成本、质量、速度、风险做成统一调度目标的案例还不多。

第四个问题是上下文和记忆容易被高估。长上下文不是银弹，记忆系统也不是越多越好。错误记忆、过期记忆、跨 Agent 上下文污染、隐私数据残留、提示词和配置持久化投毒，都会让 Agent 的长期表现不可控。

第五个问题是安全仍然容易被当成后置能力。Agent 一旦具备工具调用、文件访问、联网、代码执行和持久化记忆，安全就应该从第一天进入架构，而不是等到业务跑起来后再补审计。

第六个问题是组织变革被低估。很多分享已经开始提到 Agent Engineers、液态团队、超级团队、从工具到同事，但企业真正要改的不是“买一个 AI 工具”，而是需求、设计、开发、测试、运维、评估、审批、复盘、知识沉淀的协作方式。

结语：未来的软件工程，会围绕 Agent 重新分层

如果用更工程化的方式总结这次 QCon，我会说：AI 正在把软件工程从“人操作工具链”推向“人定义目标，Agent 调用工程系统完成任务”。

这个变化不会一夜完成，也不会在所有场景同时发生。它大概率会先在高频、高成本、高风险、有明确验收标准的场景里落地：AI Coding、测试自动化、RCA、风控、医疗、销售、推荐、AIGC 生产、Agent Runtime、AI Workload 调度、推理可观测。

真正值得关注的公司，也不一定是口号喊得最响的，而是那些能把模型能力放进工程体系里的团队：有上下文，有工具，有 Runtime，有 Memory，有评估，有可观测，有权限，有审计，有成本治理，有失败回滚，也有数据飞轮。

AI 应用的上半场，大家比的是谁能把模型用起来。下半场，可能比的是谁能把模型变成可运行、可验证、可治理、可持续进化的软件工程底座。