
大模型下半场,拼的是“上下文分层设计”。
最近几年的 AI 潮,全世界的开发者对大模型的了解每年都在逐渐加深,一个贯穿始终的问题也演变得越来越具体,也越来越无法回避:大模型很强,可它到底什么时候才能真正“替我们把事情做完”?
从单轮问答到如今的智能体(Agent)时代,软件开发的底层范式正在经历一次无声的重构。开发者的关注点,正快速从单纯的“如何写好提示词”,升级到如何进行硬核的“系统工程设计”——我们需要对 Token 进行分配与分层上下文管理,需要用可复用的 Skills 连接真实业务,更需要设计精密的运行 Loop。
6 月 13 日,由 CSDN 与 AMD 联合主办的 “AI 开发沙龙·智能体工坊” 顺利举行。活动围绕 Agent 时代下的开发范式变迁,聚焦 Token、本地部署、上下文工程、智能体框架、典型应用场景与工程化落地等核心议题,邀请来自 OceanBase、DeerFlow、AMD 的技术专家展开系统分享,并通过实践工坊带领开发者进一步走向上手实战。


坚持“领先半步”,AI 原生的研发升级绝不是买两个工具那么简单
自 1999 年成立以来,CSDN 已经积累了 5300 万开发者,成长为全球第二大开发者社区。在 2026 年 AI 大时代下,如何赋能开发者和企业的智能化升级?
CSDN 内容事业部负责人孟迎霞表示,在每一个技术跃迁的节点,CSDN 始终坚持做“领先半步”的同行者。“如果领先太多,技术离实际工作太远,就很难真正带来帮助;但如果能领先半步,就能告诉大家业界正在发生什么,未来走向哪里。抬头看天的过程,对技术人来说至关重要。”

这也是 CSDN 为什么持续投入线下活动、技术报告、专家访谈和研究型内容的重要原因。围绕 AI 大时代下的新变化,孟迎霞分享了 CSDN 这几年在开发者生态上的几个关键动作:
持续夯实开发者社区基础,围绕博客、问答、搜索、创作等场景构建内容与知识服务能力;
与 AtomGit 共同打造开源代码及人工智能社区,支持优秀项目成长与生态连接;
通过《新程序员》、各类技术报告、视频栏目和直播节目,持续输出前沿判断
成立“奇点智能研究院”,面向技术管理者与企业智能化升级需求,提供更深层次的研究、连接与咨询服务。
今天,“人人都是程序员,行行都将智能化,万物皆可编程”正在成为现实,CSDN 也正从内容平台全面升级为开发者生产力平台。为此,起点智能研究院于今年 4 月正式发布了《AISMM 2026 AI原生软件研发成熟度模型白皮书》。孟迎霞指出:“一个企业研发团队要真正完成 AI 原生化升级,并不是买几个工具那么简单。”这是一项涉及基础设施、知识工程、组织人才和安全治理等多维度的系统工程,白皮书正是旨在为企业软件研发的 AI 原生化演进提供一套可量化的坐标系。

应用开发的底层是“Token 分配的艺术”
作为大模型应用最基础的处理机制,Token 常被直观理解为“一个字”或“一个词”。OceanBase 技术专家汤庆指出,模型本质上无法直接处理自然语言,而是通过 BPE(Byte Pair Encoding)等子词切分算法将文本转化为数字序列。大模型的底层,是在已有上下文基础上,通过概率建模持续预测下一个最可能出现的 Token。

由此,汤庆提出了一个核心论断:“大模型应用,本质上是 Token 分配的艺术。” 不管是传统的提示词工程(Prompt Engineering),还是最新的上下文工程(Context Engineering)和循环工程(Loop Engineering),本质上都在解决同一个问题——如何在有限的窗口里,把最关键的信息在最合适的位置给到模型。
针对长上下文中极易被忽略的“中心衰减”问题,汤庆提出,未来大模型应用需要一个“可检索、可溯源、可演进”的上下文系统(Context SIG)。该系统将上下文分层管理(原始信息 L0、摘要信息 L1、抽取的知识 Skills L2),并创造性地引入了“做梦机制”:在系统空闲时让其对现有上下文进行发散推演,利用置信度衰减体系自我强化与纠偏,最终将零散的上下文沉淀为高价值、可复用的个性化 Skills。

真正的 Agent 工程都是在泥坑里踩出来的
“智能体并不只是一个‘更会聊天’的模型,而是一个以目标为导向的系统。” DeerFlow 核心贡献者姜宁指出,Agent 与单体 LLM 的核心区别在于其具备 ReAct 循环(Reason 思考、Act 执行、Observe 观察),这决定了 Agent 能否稳定地把任务持续推进下去。

在 DeerFlow 从 1.0 深度研究(Deep Research)走向 2.0 通用 Super Agent 的演进中,“Skills(能力包)”成为了一个至关重要的能力解耦层。 姜宁表示:“大模型负责推理,而 Skills 负责连接具体的业务世界。” 通过加载不同的 Skills,Agent 可以动态在数据分析、内容创作、代码处理等任务间切换。
同时,姜宁深入剖析了智能体工程实现中的关键痛点:Memory 的长期偏好积累、Sandbox 的隔离环境、以及通过中间结果落盘进行 Context 长度和 Token 消耗的管理。他强调:“很多坑,比如 Tool Result 过长、上下文爆炸、调用失败如何善后、高并发如何观测、长链路如何容错,这些都不是在 PPT 里能学会的,而是在真实项目里一点一点在泥坑里踩出来的。” 深度参与开源、在真实场景中试错,正是开发者成长最快的路径。

本地部署才是高频 Agent 的成本唯一解
在真实工作流中,Agent 的长期落地必须算清楚“算力与成本”这笔硬账。AMD ROCm 软件与方案架构师 Charles Yang 认为:“一个精心设计的 Loop,有时候甚至比模型本身更重要。”模型只是大脑,而负责上下文管理和 Loop 调度的 Runtime,才决定了系统运行的稳定性。

他横向对比了当前最火热的两大 Agent 路线:常驻多通道协作的 OpenManus,与强调长期记忆、可自进化的 Hermes。虽然工具生态极大地解放了生产力,但随着使用频次上升,高频 Agent 正成为一个极其费钱的 Token 耗能黑洞。由于长系统提示词、海量工具调用日志以及多轮循环重试,Agent 运行的推理成本会呈几何级放大。
基于此,“本地部署正在从‘隐私保护’的附加项,转变为长期运行 Agent 的‘成本唯一解’。” Charles Yang 介绍,依托 AMD Radeon AI PC 的全栈生态,其统一内存架构(CPU、GPU、NPU 共享大容量显存)能有效消除传统跨总线搬运数据的性能瓶颈,非常契合 Agent 需要一边做模型推理、一边高频调度工具与文件的序贯决策场景。配合 ROCm 全栈软件协同,本地部署正在成为开发者低成本、零门槛玩转 Agent 的刚性选择。

智能体工坊实操:基于 Radeon Cloud,亲手跑通一个本地 Agent
随着主题分享结束,活动现场也从“听”转向“做”,进入本次“智能体工坊”的核心环节。
前半场关于 Token、上下文工程、ReAct、Skills、Memory、Tools、本地部署的分享,为后续实操搭建起了一条比较完整的理解路径:先理解模型如何处理信息,再理解 Agent 如何组织任务、调用工具、保留状态,最后再进入实际环境,体验一套智能体系统如何被搭建和运行。
进入 Workshop 后,现场氛围也随之切换。Charles Yang 在台上讲解逐步转入具体操作,台下不少开发者一边跟随步骤配置环境,一边对照前面分享中提到的模型、上下文、工具链和运行机制,现场交流明显增多。有人边听边记,有人直接打开电脑同步操作,也有人围绕部署细节、调用流程和运行结果与身边同伴低声讨论。

对于到场参与者而言,前半场建立的是认知框架,后半场则把这些概念进一步落到实际操作中。
在动手过程中,Token、上下文、运行时、工具调用这些原本相对抽象的概念,也随着环境配置、任务执行和系统运行过程变得更加具体。开发者不再只是“听到”一个 Agent 的工作方式,而是开始在实际操作里感受它如何被搭起来、如何运行、又会在哪些环节产生差异。

结语
随着 AI 应用持续从问答走向执行,开发者对智能体系统的关注点,也正在从模型能力逐步扩展到系统能力、工程能力与运行能力。如何把模型接入真实工作流,如何让智能体具备持续运行和迭代能力,正在成为越来越多开发者关心的话题。
此次活动通过主题分享与 Workshop 结合的形式,为开发者提供了一个从理解 Agent 到体验 Agent 的交流场景。未来,围绕 AI 原生开发、智能体工程与开发者生态的讨论,也将持续深入展开。

领取地址:https://s.csdn.cn/4nPsOp

领取地址:https://s.csdn.cn/4nPsOp
夜雨聆风