AI 工程学习笔记|从 LLM 到 Agent 工程的四层进阶

前言：为什么需要分层学习？

在B站看到一个up主分享了AI工程的路线非常不错，尝试处理一下AI工程的递进路径，目前业界的AI 技术栈已从单一的 LLM 演进为复杂的工程体系。

面对纷繁的技术名词——Agent、Skills、MCP、LoRA——很多学习者感到迷茫：该从哪里开始？学到什么程度？如何串联？

本文提出一个四层递进模型，帮助你建立清晰的认知框架：

工程层：OpenClaw → Harness Engineering（生产落地）
应用层：Agent → Multi-Agent → Context Engineering → Agent Skill（复杂系统）
增强层：RAG → Function Calling → MCP（能力扩展）
基础层：LLM → Prompt Engineering → Fine-tuning（核心基础）

每一层都是下一层的基础，跳层学习容易"懂概念但做不出东西"。让我们逐层展开。

AI技术发展脉络：

技术	一句话
LLM	AI 的大脑
Prompt Engineering	教 AI 怎么听话
Fine-tuning	培养 AI 的专业技能
RAG	给 AI 配个知识库
Function Calling	让 AI 能动手的工具
MCP	工具的通用接口标准
Agent	能自主思考行动的 AI
Multi-Agent	多个 AI 协作完成任务
Context Engineering	给 AI 提供高质量信息
Agent Skill	可复用的 AI 能力包
OpenClaw	构建 AI 助手的工具箱
Harness Engineering	让 AI 稳定可靠工作的工程方法

第一层：基础层

核心目标
理解 LLM 的能力边界，掌握与模型高效沟通的方法，了解如何定制模型行为。

1.1 LLM：一切的基础

什么是大语言模型？

大语言模型（Large Language Model）是基于 Transformer 架构、通过海量文本数据训练的深度学习模型。它的核心能力包括：

语言理解：语义解析、意图识别、情感分析
语言生成：文本创作、代码编写、翻译润色
知识推理：逻辑推理、常识判断、专业问答

主流模型对比（2025年视角）

闭源商业：GPT-4o、Claude 4、Gemini 2 → 能力最强，API 稳定 → 适用于生产应用、复杂任务
开源旗舰：Llama 4、DeepSeek V3、Qwen 2.5 → 可本地部署，可定制 → 适用于私有化、成本敏感场景
轻量模型：Phi-4、Gemma 2、Qwen 2.5-7B → 资源占用低，速度快 → 适用于边缘设备、实时场景

学习建议

先用起来：注册主流 API，每天使用，建立对模型能力的直观感受
读论文：《Attention Is All You Need》是起点，理解 Transformer 架构
跑模型：用 Ollama 或 vLLM 在本地运行开源模型，理解推理过程
看源码：nanoGPT、llm.c 等项目用极简代码实现 GPT，适合学习

关键认知

LLM 不是"搜索引擎"，它的知识来自训练数据，存在截止日期
LLM 有"幻觉"问题，会自信地编造事实，需要验证机制
不同模型有不同的"性格"和擅长领域，需要针对性使用

1.2 Prompt Engineering：与 AI 对话的艺术

为什么 Prompt 如此重要？

同样的模型，不同的 Prompt 可能产生天壤之别的效果。Prompt Engineering 就是设计高质量输入以获得高质量输出的技术。

Anthropic 的研究表明，Prompt 质量对模型表现的影响可达 30-50%。这是一项"低门槛、高天花板"的技能。

核心原则

清晰具体：模糊的指令得到模糊的结果

❌ "帮我写个爬虫"
✅ "用 Python 写一个爬虫，爬取豆瓣电影 Top250，保存为 CSV，包含电影名、评分、简介"

提供上下文：给模型足够的背景信息

角色设定："你是一位有 10 年经验的后端架构师"
任务背景："这是一个电商系统的订单模块"
输出格式："以 Markdown 表格形式输出"

迭代优化：第一条 Prompt 很少完美，需要持续调优

常用技巧

Few-shot Learning（少样本学习）

给模型几个示例，让它理解你的期望格式。

Chain-of-Thought（思维链）

引导模型展示推理过程，提高复杂问题的准确率。

Role-playing（角色扮演）

设定专业角色，获得更专业的输出。

进阶技巧

Self-consistency：让模型生成多个答案，投票选择最佳
Tree of Thoughts：构建思维树，探索多个推理路径
Prompt Chaining：将复杂任务拆分为多个 Prompt 串联

1.3 Fine-tuning (LoRA)：定制你的模型

为什么需要微调？

通用大模型虽然能力强，但在特定场景下存在局限：

领域知识不足：医疗、法律、金融等专业领域
风格不匹配：企业语调、个人写作风格
任务特定需求：特定格式的输出、特定流程的遵循
成本与隐私：减少对 API 的依赖，数据不出域

LoRA：高效的微调方案

LoRA（Low-Rank Adaptation）是一种参数高效微调技术，核心思想是：冻结预训练模型的权重，只在旁边添加小规模的可训练参数。

对比传统全量微调：

训练参数量：全量微调 100% vs LoRA 微调 0.1%-1%
显存需求：全量微调极高 vs LoRA 微调较低
训练时间：全量微调长 vs LoRA 微调短
模型文件：全量微调完整模型 vs LoRA 微调几十 MB 适配器
效果：全量微调最优 vs LoRA 微调接近最优

实操路径

准备数据：高质量指令数据集（100-10000 条）
选择基座模型：根据任务选择合适的开源模型
配置 LoRA 参数：rank、alpha、target_modules
训练与评估：使用 LLaMA-Factory、Axolotl 等工具
合并与部署：将 LoRA 权重合并到基座模型

第二层：增强层

核心目标
让 LLM 突破自身限制，获得外部知识、调用外部工具、连接外部系统。

2.1 RAG：让模型拥有知识

RAG 是什么？

RAG（Retrieval-Augmented Generation，检索增强生成）的核心思想是：在生成回答前，先从知识库检索相关文档，将检索结果作为上下文提供给 LLM。

这就像是开卷考试——不用背诵所有知识，但能在需要时查到。

RAG 的核心流程

用户问题 → 向量化 → 检索相似文档 → 构建上下文 → LLM 生成回答

关键组件

文档处理：文档解析、文本分块、元数据提取
向量化（Embedding）：将文本转换为高维向量表示
向量数据库：Pinecone、Milvus、Weaviate、Chroma、Qdrant
检索策略：稠密检索、稀疏检索、混合检索

进阶技术

重排序（Reranking）：对检索结果进行二次排序
查询改写（Query Rewriting）：优化用户问题
多轮检索（Multi-hop RAG）：针对复杂问题进行多轮检索
GraphRAG：结合知识图谱，实现结构化知识检索

2.2 Function Calling：连接外部世界

Function Calling 是什么？

Function Calling 让 LLM 能够调用外部函数/API，实现与真实世界的交互：

查询天气、股票、航班
操作数据库、文件系统
发送邮件、消息通知
执行计算、数据处理

与 RAG 的互补关系

RAG：让模型"知道"更多信息（静态知识）
Function Calling：让模型"做到"更多事情（动态操作）

2.3 MCP：标准化的工具协议

MCP 是什么？

MCP（Model Context Protocol）是由 Anthropic 在 2024 年底推出的开放协议，旨在标准化 LLM 应用与外部数据源、工具之间的连接。

可以理解为"AI 时代的 USB 接口"——统一标准，即插即用。

MCP 的核心概念

MCP Server：提供资源、工具、Prompt 的服务器
MCP Client：连接 MCP Server 的客户端
Resources：只读数据源
Tools：可执行操作
Prompts：预定义的 Prompt 模板

第三层：应用层

核心目标
构建能够自主完成复杂任务的智能体系统。

3.1 Agent：自主决策的 AI

什么是 Agent？

如果说 LLM 是"大脑"，那么 Agent 就是"完整的人"：

Agent = LLM + 规划 + 工具 + 记忆

Agent 的核心能力：

感知：理解环境和任务
规划：分解复杂目标为可执行步骤
行动：调用工具完成任务
反思：评估结果，调整策略

经典框架：ReAct

ReAct（Reasoning + Acting）是最具影响力的 Agent 设计模式，通过"思考-行动-观察"的循环完成任务。

主流 Agent 框架

LangChain：生态丰富，组件完善 → 通用 Agent 开发
AutoGPT：自主性强 → 自动化任务
CrewAI：多角色协作 → 复杂工作流
OpenClaw：工程化友好 → 生产级 Agent

3.2 Multi-Agent：协作的力量

为什么需要 Multi-Agent？

单个 Agent 的能力有限，面对复杂任务时存在认知负荷过重、专业能力不足等问题。Multi-Agent 系统通过分工协作解决这些问题。

常见架构模式

顺序执行：A → B → C → D
并行执行：A、B、C 同时工作，最后汇总
层级管理：Manager Agent 协调多个 Worker Agent
民主决策：多个 Agent 投票/协商

3.3 Context Engineering：上下文管理

为什么上下文是核心挑战？

LLM 的上下文窗口有限，但实际应用中需要处理长文档、长对话、多轮任务、多 Agent 协作等场景。

上下文管理的核心策略

压缩与摘要：对话历史定期摘要
分层记忆：工作记忆、短期记忆、长期记忆
动态检索：按需检索相关信息
上下文优先级：核心指令 > 关键事实 > 历史记录

3.4 Agent Skill：能力复用

什么是 Skill？

Skill 是可复用的能力模块，封装了特定领域的知识和工具调用：

Skill = Prompt 模板 + 工具集 + 执行流程 + 示例

类比：

LLM 是操作系统
Tool 是系统调用
Skill 是应用程序

为什么要封装 Skill？

复用：避免重复开发
标准化：统一接口和行为
可维护：独立更新、版本管理
可分享：社区贡献和传播

第四层：工程层

核心目标
将 AI 能力转化为可落地、可运维、可扩展的产品。

4.1 OpenClaw：Agent 工程化平台

OpenClaw 是什么？

OpenClaw 是一个开源的 Agent 工程化平台，定位是：让 Agent 开发像写配置文件一样简单，像写代码一样灵活。

核心能力

多渠道接入：一套 Agent 逻辑，多渠道部署
灵活的编排：声明式配置定义 Agent 行为
模型无关：支持主流 LLM
工程能力：可观测性、热重载、安全沙箱

4.2 Harness Engineering：驾驭复杂系统

什么是 Harness Engineering？

Harness Engineering 是对AI 系统工程化能力的总称，包括：

如何监控 AI 系统的运行状态
如何调试 AI 系统的异常行为
如何评估 AI 系统的效果质量
如何迭代优化 AI 系统

核心维度

可观测性（Observability）：基础设施层、模型层、应用层、业务层监控
调试能力（Debugging）：记录推理链路、可视化决策过程
评估体系（Evaluation）：自动化评估、人工评估、A/B 测试
持续迭代（Iteration）：数据驱动，小步快跑