AI时代的变迁:从特征工程到Harness工程的5次技术跃迁

2010 年，一个优秀的机器学习工程师会把 70%的时间花在特征工程上。手动设计 SIFT 特征、手工调参、反复实验——这就是那个时代的「手艺」。

2026 年，一个 Harness 工程师的主要工作是设计 Agent 的递归运行环境：让一个父 Agent 动态生成子 Agent，并行处理 400 万 token 的长上下文任务。

同样是「AI 工程师」，这两个时代的工作内容几乎没有交集。

这不是进化，是跃迁。

过去 40 年，AI 领域经历了 5 次根本性的技术跃迁。每一次跃迁都不是渐进式改良，而是彻底改变了「什么是核心技术」、「谁是最稀缺人才」、「价值在哪里创造」。

本文将带你走完这段旅程，并回答一个关键问题：2026 年的 Harness 时代，对我们意味着什么？

五次跃迁：一张图看懂

5 个时代的演进

时代	时间跨度	核心技术	关键人物	价值创造点
特征工程	1980-2011	SVM、随机森林、手工特征	领域专家 + ML 工程师	特征设计质量
神经网络	2012-2020	CNN、RNN、反向传播	深度学习研究员	模型架构创新
提示工程	2020-2023	GPT、Prompt、Few-shot	Prompt 工程师	提示词质量
Agent 时代	2023-2025	工具调用、规划、记忆	Agent 开发者	任务编排能力
Harness 时代	2026-	递归 Agent、环境工程、系统扩展	Harness 工程师	运行环境设计

第一次跃迁：特征工程时代 (1980-2011)

核心命题： 如何把领域知识翻译成机器能理解的数值特征？

这个时代的技术栈是「传统机器学习」：SVM、随机森林、决策树、朴素贝叶斯。模型本身并不复杂，真正难的是特征工程。

典型工作流

理解问题：
这是一个分类任务还是回归任务？
领域调研：
哪些原始信号与目标变量相关？
特征设计：

图像领域：SIFT 特征、HOG 特征、颜色直方图
文本领域：TF-IDF、n-gram、词袋模型
结构化数据：one-hot 编码、多项式特征、交叉特征

特征选择：
PCA 降维、互信息、L1 正则化
模型训练：
在特征空间上训练浅层模型

时代特征

人才稀缺度：
领域专家 > ML 工程师。一个懂医学影像的医生，比一个只会调 SVM 的工程师更有价值。
价值创造点：
特征设计质量。同一个模型，好的特征设计能让准确率从 60%跳到 90%。
瓶颈：
特征工程高度依赖人工，无法规模化。每个新领域都需要重新设计特征。

经典案例

2000 年代，ImageNet 挑战赛的前身 PASCAL VOC，获胜方案几乎都是「精心设计的特征 + SVM」。
2010 年，Kaggle 竞赛中，特征工程的技巧分享是最热门的话题。

第二次跃迁：神经网络时代 (2012-2020)

转折点：2012 年，AlexNet 在 ImageNet 上以压倒性优势获胜。

核心命题：如何设计更好的网络架构，让模型自动学习特征？

深度学习革命的本质是特征学习的自动化。CNN 自动学习图像特征，RNN 自动学习序列特征，Transformer 自动学习上下文关系。

典型工作流

选择架构：
ResNet？DenseNet？BERT？GPT？
调整超参：
学习率、batch size、dropout 率
训练策略：
学习率调度、数据增强、正则化
部署优化：
模型压缩、量化、蒸馏

时代特征

人才稀缺度：
深度学习研究员 > 领域专家。一个懂 Transformer 架构的人，比一个懂具体业务的人更稀缺。
价值创造点：
模型架构创新。ResNet 解决了深层网络训练问题，BERT 统一了 NLP 任务，GPT 开启了生成式 AI。
瓶颈：
模型越来越大，训练成本越来越高，但能力提升开始放缓。

关键里程碑

2012：AlexNet（ImageNet 冠军）
2014：GAN（生成对抗网络）
2017：Transformer（Attention Is All You Need）
2018：BERT（预训练语言模型）
2019：GPT-2（1.5B 参数）

第三次跃迁：提示词工程时代 (2020-2023)

转折点：2020 年，GPT-3 发布，1750 亿参数，展示了惊人的 zero-shot 和 few-shot 能力。

核心命题：如何通过自然语言指令，引导大模型完成特定任务？

当模型足够大时，你不再需要训练它，只需要提示它。Prompt Engineering 成为一门新学科。

典型工作流

任务分析：
这个任务适合用 few-shot 还是 chain-of-thought？
Prompt 设计：

System prompt：设定角色和约束
Few-shot examples：给模型示范
Chain-of-thought：引导模型逐步推理

Prompt 优化：
A/B 测试、自动化评估、Prompt 模板库
集成部署：
API 调用、缓存、错误处理

时代特征

人才稀缺度：
Prompt 工程师 > 深度学习研究员。一个能写出高质量 prompt 的人，比一个能训练模型的人更稀缺。
价值创造点：
提示词质量。同一个 GPT-4，好的 prompt 能让输出质量提升 50%以上。
瓶颈：
prompt 设计高度依赖经验和直觉，难以标准化。而且大模型本身不可控，容易出现幻觉。

经典案例

2022 年，OpenAI 发布 ChatGPT，prompt engineering 成为热门话题。
2023 年，各公司开始设立「Prompt Engineer」岗位，年薪超过 20 万美元。

第四次跃迁：Agent 时代 (2023-2025)

转折点：2023 年，AutoGPT、BabyAGI 等项目展示了 LLM 自主规划和执行任务的能力。

核心命题：如何让 LLM 不只是回答问题，而是自主完成复杂任务？

Agent = LLM + 工具调用 + 规划 + 记忆。这是从「对话式 AI」到「自主式 AI」的根本转变。

典型工作流

任务分解：
把复杂任务拆解成可执行的子任务
工具设计：
定义 Agent 可以调用的工具（搜索、代码执行、文件操作等）
规划策略：
ReAct、Plan-and-Solve、Tree-of-Thought
记忆管理：
短期记忆（对话上下文）、长期记忆（向量数据库）
错误处理：
重试、回退、人工干预

时代特征

人才稀缺度：
Agent 开发者 > Prompt 工程师。一个能设计复杂 Agent 系统的人，比一个只会写 prompt 的人更稀缺。
价值创造点：
任务编排能力。一个好的 Agent 架构，可以把多个 LLM 调用串联成完整的工作流。
瓶颈：
Agent 的可靠性不稳定，长任务容易出错。而且每个 Agent 都是独立运行的，难以规模化。

关键里程碑

2023 年 3 月：AutoGPT 发布，展示了自主 Agent 的可能性
2023 年 11 月：OpenAI 发布 GPTs，让普通用户也能创建 Agent
2024 年：各大公司推出企业级 Agent 平台（Microsoft Copilot、Salesforce Einstein）
2025 年：Agent 开始进入生产环境，但可靠性问题仍然突出

第五次跃迁：Harness 时代 (2026-)

转折点：2026 年，多篇论文提出了「Recursive Agent Harness」概念，标志着 AI 从「模型扩展」进入「系统扩展」。

从模型扩展到系统扩展

核心命题：如何设计 Agent 的运行环境（harness），让它在复杂任务中表现稳定、可扩展？

Harness 不是模型，不是 Agent，而是Agent 与环境交互的中间层。它定义了：

Agent 如何观察环境
Agent 如何执行动作
Agent 如何管理状态
Agent 如何扩展（递归生成子 Agent）

什么是 Harness？

根据 2026 年 6 月 ArXiv 论文《Recursive Agent Harnesses》的定义：

A harness is a full agent runtime environment with filesystem tools, code execution, and planning, rather than a model call with no tools.

（Harness 是一个完整的 Agent 运行环境，包含文件系统工具、代码执行和规划能力，而不是没有工具的模型调用。）

典型工作流

环境设计：
定义 Agent 可以访问的工具、文件、API
状态管理：
设计 Agent 的观察-动作循环
递归策略：
父 Agent 动态生成子 Agent，并行处理子任务
系统扩展：
从单个 Agent 扩展到 Agent 集群

时代特征

人才稀缺度：
Harness 工程师 > Agent 开发者。一个能设计可扩展 harness 的人，比一个只会写 Agent 逻辑的人更稀缺。
价值创造点：
运行环境设计。根据《Claw-SWE-Bench》论文（2026 年 6 月），在固定模型下，harness 选择改变了 27.4 个百分点的 Pass@1 分数。
突破：
从「模型扩展」到「系统扩展」。不再依赖更大的模型，而是依赖更好的 harness 设计。

关键数据

Recursive Agent Harnesses
(2026-06-11)：在 GPT-5 上，RAH 将 Codex 编码基线从 71.75%提升到 81.36%。使用 Claude Sonnet 4.5 时，达到 89.77%。
HarnessBridge
(2026-06-11)：可学习的 harness 控制器，通过双向投影减少 token 使用和轨迹长度。
Claw-SWE-Bench
(2026-06-10)：模型选择改变 29.4pp，harness 选择改变 27.4pp。说明 harness 设计与模型能力同等重要。

与 Agent 时代的区别

维度	Agent 时代	Harness 时代
关注点	Agent 本身的能力	Agent 与环境交互的方式
扩展方式	更强的模型、更多的 Agent	更好的 harness 设计、递归扩展
可靠性	依赖 Agent 的规划能力	依赖 harness 的状态管理和错误处理
典型工作	设计 Agent 逻辑、工具调用	设计运行环境、递归策略、系统扩展

五次跃迁的共同规律

回看这 40 年，每次跃迁都有相同的模式：

每次彻底改变

1. 技术栈彻底重构

特征工程时代：SVM + 手工特征
神经网络时代：CNN/RNN + 自动特征学习
提示工程时代：GPT + Prompt
Agent 时代：LLM + 工具 + 规划
Harness 时代：Agent + 运行环境 + 递归

每次跃迁，前一个时代的技术栈几乎完全被替代。

2. 核心人才重新定义

特征工程时代：领域专家
神经网络时代：深度学习研究员
提示工程时代：Prompt 工程师
Agent 时代：Agent 开发者
Harness 时代：Harness 工程师

每次跃迁，「最稀缺人才」的定义都会改变。

3. 价值创造点转移

特征工程时代：特征设计质量
神经网络时代：模型架构创新
提示工程时代：提示词质量
Agent 时代：任务编排能力
Harness 时代：运行环境设计

每次跃迁，「价值在哪里创造」都会改变。

对技术负责人的启示

如果你是技术负责人，这五次跃迁给你三个关键启示：

1. 不要恋战

每个时代的技术栈都有生命周期。特征工程用了 30 年，神经网络用了 8 年，提示工程只用了 3 年，Agent 时代可能只有 2 年。

技术栈的半衰期在缩短。如果你还在用上一个时代的技术栈，你可能已经落后了。

2. 投资于人，而不是技术

技术会过时，但「学习能力」不会。每次跃迁，最稀缺的不是「会用旧技术的人」，而是「能最快学会新技术的人」。

培养团队的学习能力，比培养特定的技术能力更重要。

3. 关注系统，而不是模型

Harness 时代的核心洞察是：系统的扩展性比模型的能力更重要。

根据 2026 年的研究，harness 设计对性能的影响与模型选择同等重要。这意味着，与其追求更大的模型，不如投资更好的 harness 设计。

结论：Harness 时代意味着什么？

Harness 时代的到来，标志着 AI 从「模型驱动」转向「系统驱动」。

对技术负责人：
你需要重新思考团队结构。Agent 开发者可能不再是瓶颈，Harness 工程师才是。
对 AI 从业者：
你需要学习新的技能。不只是写 prompt，不只是设计 Agent，而是设计 Agent 的运行环境。
对组织：
你需要投资 harness 基础设施。这不只是「买一个 Agent 平台」，而是设计一套可扩展的 harness 系统。

过去 40 年，AI 的每次跃迁都重塑了整个行业。Harness 时代也不例外。

问题是：你准备好了吗？

觉得有用？点个关注，持续获取 AI 与组织变革的深度内容。