2010 年,一个优秀的机器学习工程师会把 70%的时间花在特征工程上。手动设计 SIFT 特征、手工调参、反复实验——这就是那个时代的「手艺」。
2026 年,一个 Harness 工程师的主要工作是设计 Agent 的递归运行环境:让一个父 Agent 动态生成子 Agent,并行处理 400 万 token 的长上下文任务。
同样是「AI 工程师」,这两个时代的工作内容几乎没有交集。
这不是进化,是跃迁。
过去 40 年,AI 领域经历了 5 次根本性的技术跃迁。每一次跃迁都不是渐进式改良,而是彻底改变了「什么是核心技术」、「谁是最稀缺人才」、「价值在哪里创造」。
本文将带你走完这段旅程,并回答一个关键问题:2026 年的 Harness 时代,对我们意味着什么?
五次跃迁:一张图看懂

5 个时代的演进
| 特征工程 | ||||
| 神经网络 | ||||
| 提示工程 | ||||
| Agent 时代 | ||||
| Harness 时代 |
第一次跃迁:特征工程时代 (1980-2011)
核心命题: 如何把领域知识翻译成机器能理解的数值特征?
这个时代的技术栈是「传统机器学习」:SVM、随机森林、决策树、朴素贝叶斯。模型本身并不复杂,真正难的是特征工程。
典型工作流
- 理解问题:
这是一个分类任务还是回归任务? - 领域调研:
哪些原始信号与目标变量相关? - 特征设计:
图像领域:SIFT 特征、HOG 特征、颜色直方图 文本领域:TF-IDF、n-gram、词袋模型 结构化数据:one-hot 编码、多项式特征、交叉特征 - 特征选择:
PCA 降维、互信息、L1 正则化 - 模型训练:
在特征空间上训练浅层模型
时代特征
- 人才稀缺度:
领域专家 > ML 工程师。一个懂医学影像的医生,比一个只会调 SVM 的工程师更有价值。 - 价值创造点:
特征设计质量。同一个模型,好的特征设计能让准确率从 60%跳到 90%。 - 瓶颈:
特征工程高度依赖人工,无法规模化。每个新领域都需要重新设计特征。
经典案例
2000 年代,ImageNet 挑战赛的前身 PASCAL VOC,获胜方案几乎都是「精心设计的特征 + SVM」。 2010 年,Kaggle 竞赛中,特征工程的技巧分享是最热门的话题。
第二次跃迁:神经网络时代 (2012-2020)
转折点:2012 年,AlexNet 在 ImageNet 上以压倒性优势获胜。
核心命题:如何设计更好的网络架构,让模型自动学习特征?
深度学习革命的本质是特征学习的自动化。CNN 自动学习图像特征,RNN 自动学习序列特征,Transformer 自动学习上下文关系。
典型工作流
- 选择架构:
ResNet?DenseNet?BERT?GPT? - 调整超参:
学习率、batch size、dropout 率 - 训练策略:
学习率调度、数据增强、正则化 - 部署优化:
模型压缩、量化、蒸馏
时代特征
- 人才稀缺度:
深度学习研究员 > 领域专家。一个懂 Transformer 架构的人,比一个懂具体业务的人更稀缺。 - 价值创造点:
模型架构创新。ResNet 解决了深层网络训练问题,BERT 统一了 NLP 任务,GPT 开启了生成式 AI。 - 瓶颈:
模型越来越大,训练成本越来越高,但能力提升开始放缓。
关键里程碑
2012:AlexNet(ImageNet 冠军) 2014:GAN(生成对抗网络) 2017:Transformer(Attention Is All You Need) 2018:BERT(预训练语言模型) 2019:GPT-2(1.5B 参数)
第三次跃迁:提示词工程时代 (2020-2023)
转折点:2020 年,GPT-3 发布,1750 亿参数,展示了惊人的 zero-shot 和 few-shot 能力。
核心命题:如何通过自然语言指令,引导大模型完成特定任务?
当模型足够大时,你不再需要训练它,只需要提示它。Prompt Engineering 成为一门新学科。
典型工作流
- 任务分析:
这个任务适合用 few-shot 还是 chain-of-thought? - Prompt 设计:
System prompt:设定角色和约束 Few-shot examples:给模型示范 Chain-of-thought:引导模型逐步推理 - Prompt 优化:
A/B 测试、自动化评估、Prompt 模板库 - 集成部署:
API 调用、缓存、错误处理
时代特征
- 人才稀缺度:
Prompt 工程师 > 深度学习研究员。一个能写出高质量 prompt 的人,比一个能训练模型的人更稀缺。 - 价值创造点:
提示词质量。同一个 GPT-4,好的 prompt 能让输出质量提升 50%以上。 - 瓶颈:
prompt 设计高度依赖经验和直觉,难以标准化。而且大模型本身不可控,容易出现幻觉。
经典案例
2022 年,OpenAI 发布 ChatGPT,prompt engineering 成为热门话题。 2023 年,各公司开始设立「Prompt Engineer」岗位,年薪超过 20 万美元。
第四次跃迁:Agent 时代 (2023-2025)
转折点:2023 年,AutoGPT、BabyAGI 等项目展示了 LLM 自主规划和执行任务的能力。
核心命题:如何让 LLM 不只是回答问题,而是自主完成复杂任务?
Agent = LLM + 工具调用 + 规划 + 记忆。这是从「对话式 AI」到「自主式 AI」的根本转变。
典型工作流
- 任务分解:
把复杂任务拆解成可执行的子任务 - 工具设计:
定义 Agent 可以调用的工具(搜索、代码执行、文件操作等) - 规划策略:
ReAct、Plan-and-Solve、Tree-of-Thought - 记忆管理:
短期记忆(对话上下文)、长期记忆(向量数据库) - 错误处理:
重试、回退、人工干预
时代特征
- 人才稀缺度:
Agent 开发者 > Prompt 工程师。一个能设计复杂 Agent 系统的人,比一个只会写 prompt 的人更稀缺。 - 价值创造点:
任务编排能力。一个好的 Agent 架构,可以把多个 LLM 调用串联成完整的工作流。 - 瓶颈:
Agent 的可靠性不稳定,长任务容易出错。而且每个 Agent 都是独立运行的,难以规模化。
关键里程碑
2023 年 3 月:AutoGPT 发布,展示了自主 Agent 的可能性 2023 年 11 月:OpenAI 发布 GPTs,让普通用户也能创建 Agent 2024 年:各大公司推出企业级 Agent 平台(Microsoft Copilot、Salesforce Einstein) 2025 年:Agent 开始进入生产环境,但可靠性问题仍然突出
第五次跃迁:Harness 时代 (2026-)
转折点:2026 年,多篇论文提出了「Recursive Agent Harness」概念,标志着 AI 从「模型扩展」进入「系统扩展」。

从模型扩展到系统扩展
核心命题:如何设计 Agent 的运行环境(harness),让它在复杂任务中表现稳定、可扩展?
Harness 不是模型,不是 Agent,而是Agent 与环境交互的中间层。它定义了:
Agent 如何观察环境 Agent 如何执行动作 Agent 如何管理状态 Agent 如何扩展(递归生成子 Agent)
什么是 Harness?
根据 2026 年 6 月 ArXiv 论文《Recursive Agent Harnesses》的定义:
A harness is a full agent runtime environment with filesystem tools, code execution, and planning, rather than a model call with no tools.
>
(Harness 是一个完整的 Agent 运行环境,包含文件系统工具、代码执行和规划能力,而不是没有工具的模型调用。)
典型工作流
- 环境设计:
定义 Agent 可以访问的工具、文件、API - 状态管理:
设计 Agent 的观察-动作循环 - 递归策略:
父 Agent 动态生成子 Agent,并行处理子任务 - 系统扩展:
从单个 Agent 扩展到 Agent 集群
时代特征
- 人才稀缺度:
Harness 工程师 > Agent 开发者。一个能设计可扩展 harness 的人,比一个只会写 Agent 逻辑的人更稀缺。 - 价值创造点:
运行环境设计。根据《Claw-SWE-Bench》论文(2026 年 6 月),在固定模型下,harness 选择改变了 27.4 个百分点的 Pass@1 分数。 - 突破:
从「模型扩展」到「系统扩展」。不再依赖更大的模型,而是依赖更好的 harness 设计。
关键数据
- Recursive Agent Harnesses
(2026-06-11):在 GPT-5 上,RAH 将 Codex 编码基线从 71.75%提升到 81.36%。使用 Claude Sonnet 4.5 时,达到 89.77%。 - HarnessBridge
(2026-06-11):可学习的 harness 控制器,通过双向投影减少 token 使用和轨迹长度。 - Claw-SWE-Bench
(2026-06-10):模型选择改变 29.4pp,harness 选择改变 27.4pp。说明 harness 设计与模型能力同等重要。
与 Agent 时代的区别
| 关注点 | ||
| 扩展方式 | ||
| 可靠性 | ||
| 典型工作 |
五次跃迁的共同规律
回看这 40 年,每次跃迁都有相同的模式:

每次彻底改变
1. 技术栈彻底重构
特征工程时代:SVM + 手工特征 神经网络时代:CNN/RNN + 自动特征学习 提示工程时代:GPT + Prompt Agent 时代:LLM + 工具 + 规划 Harness 时代:Agent + 运行环境 + 递归
每次跃迁,前一个时代的技术栈几乎完全被替代。
2. 核心人才重新定义
特征工程时代:领域专家 神经网络时代:深度学习研究员 提示工程时代:Prompt 工程师 Agent 时代:Agent 开发者 Harness 时代:Harness 工程师
每次跃迁,「最稀缺人才」的定义都会改变。
3. 价值创造点转移
特征工程时代:特征设计质量 神经网络时代:模型架构创新 提示工程时代:提示词质量 Agent 时代:任务编排能力 Harness 时代:运行环境设计
每次跃迁,「价值在哪里创造」都会改变。
对技术负责人的启示
如果你是技术负责人,这五次跃迁给你三个关键启示:
1. 不要恋战
每个时代的技术栈都有生命周期。特征工程用了 30 年,神经网络用了 8 年,提示工程只用了 3 年,Agent 时代可能只有 2 年。
技术栈的半衰期在缩短。如果你还在用上一个时代的技术栈,你可能已经落后了。
2. 投资于人,而不是技术
技术会过时,但「学习能力」不会。每次跃迁,最稀缺的不是「会用旧技术的人」,而是「能最快学会新技术的人」。
培养团队的学习能力,比培养特定的技术能力更重要。
3. 关注系统,而不是模型
Harness 时代的核心洞察是:系统的扩展性比模型的能力更重要。
根据 2026 年的研究,harness 设计对性能的影响与模型选择同等重要。这意味着,与其追求更大的模型,不如投资更好的 harness 设计。
结论:Harness 时代意味着什么?
Harness 时代的到来,标志着 AI 从「模型驱动」转向「系统驱动」。
- 对技术负责人:
你需要重新思考团队结构。Agent 开发者可能不再是瓶颈,Harness 工程师才是。 - 对 AI 从业者:
你需要学习新的技能。不只是写 prompt,不只是设计 Agent,而是设计 Agent 的运行环境。 - 对组织:
你需要投资 harness 基础设施。这不只是「买一个 Agent 平台」,而是设计一套可扩展的 harness 系统。
过去 40 年,AI 的每次跃迁都重塑了整个行业。Harness 时代也不例外。
问题是:你准备好了吗?
觉得有用?点个关注,持续获取 AI 与组织变革的深度内容。
夜雨聆风