AI工具越更新越焦虑?因为你的认知框架不够稳|01

本讲适合：想系统学会用 AI 工具但不知道从哪开始的同学、被各种 AI 新概念搞晕想建立稳定认知框架的人、以及所有想提升 AI 编程效率的研究生和开发者。
关键词：AI 工具使用 · Prompt Engineering · Context Engineering · AI 编程 · 大模型 API · AI 编辑器 · Cursor · Claude Code · AI 科研效率
本节是 AI 工具轨 整条课程的入口，建议在所有模块之前先读完。看完之后你应该能回答三件事：
1
本讲到底想培养你什么能力？
2
六个模块为什么这么排？每一节在能力体系里占什么位置？
3
学完之后我应该处于一个什么状态？

一、为什么要单独讲"思路"？

进入 AI 编程时代后，会写代码的门槛在降低，但"用好 AI"反而成了一门新手艺。市面上 90% 的 AI 课程都在教"提示词怎么写、某个工具怎么点"——这些东西工具一更新就过期。

本讲的不同之处：不教某一个产品，而是教那些工具迭代再快也不会过期的底层能力。所以在进入具体模块前，我们必须先把「思路」和「目标」讲透——否则你会以为这是一门"装软件 + 用工具"的课，错过它真正想给你的东西。

二、课程要培养你的两个核心能力

本讲从头到尾、每一个模块、每一段练习，都在为下面两个能力铺路。先把它们记在脑子里，再往下看每一节就有了锚点。

能力一 · Test 能力 — 判断 AI 做得好不好

AI 写出来的代码、给出的方案、装好的环境，看起来都很像样——这是它最危险的地方。光会让 AI 干活、不会验收 AI 干活的人，最后会被错误代码反复绕进去。

构成 Test 能力的两个支柱：

[!important] 🎯 Test 能力 — 判断 AI 做得好不好
🧠 支柱一 · 底层逻辑认知 ：API 调用流程｜ Token 计费机制｜ Tool Calling 原理｜环境与依赖关系
🛠️ 支柱二 · 验证手段 ：让 AI 写测试用例帮你验收｜浏览器里直接看效果对不对｜跑一遍看有没有报错｜对比不同方案的结果

认知层
：懂底层逻辑，才能看出 AI 给你写的东西是不是合理。比如它给的 API 调用代码是不是真的会扣那么多钱、装环境的步骤会不会污染全局
验证层
：不用自己成为技术专家——你可以让 AI 帮你写测试用例来验证它自己的代码，在浏览器里直接看页面效果对不对，或者直接运行看有没有报错。关键是：你要有"验一下"的意识，而不是 AI 给什么就直接用

能力二 · AI 能力边界 — 你是司机，AI 是导航

很多人用 AI 的方式是：把任务丢给它，然后照着它的方案一步步执行。这是最容易翻车的用法。

AI 本质上是一个执行者，不是决策者。它不会主动帮你去联网验证自己的方案是不是过时了，不会告诉你"这条路其实走不通"，更不会意识到它选的方向从一开始就是错的。如果你自己不理解任务的大框架，就让 AI 动手——你不是在用 AI，是在被 AI 带着跑。

先规划，再执行

这是本讲最核心的一条建议：拿到任务后，先花时间搞清楚要做什么、大致怎么做，再让 AI 去执行。

举个例子：你要写一篇论文，AI 给你出了一个选题 idea。但你没有去查这个 idea 是不是已经有人做过了、方向是不是已经过时了——直接就让 AI 开始写。写了三天发现方向不成立，白忙一场。问题不出在 AI 上，出在你没有先做规划。

你至少要看懂 AI 给的规划里具体在做什么。 不需要每行代码都懂，但大方向、关键步骤、为什么这么做——这些你要心里有数。

区分两类任务

不是所有任务都需要你深度理解。实际使用中，任务大致可以分两类：

🧠 理解型任务

特点：方向错了就全白干，需要你把握大框架

你要做：先理解整体思路，再让 AI 执行细节

例：写论文、做技术选型、设计系统架构

🎯 结果型任务

特点：只要最终效果对就行，内部实现不重要

你要做：描述清楚你要什么效果，让 AI 自己搞定

例：做个网页、写个小工具、调个样式

理解型任务：你必须理解大框架。比如写论文，你得知道选题成不成立、方法有没有道理，AI 负责帮你写具体的段落和代码。你不理解框架就让 AI 干，大概率南辕北辙。这也是为什么 AI 时代反而更强调 taste（品味 / 判断力）——不要盲目 Vibe Coding（凭感觉让 AI 写代码），而是要不断培养自己对“什么是好方案”的判断力。

结果型任务：你只关心它能不能跑起来、效果对不对。比如让 AI 帮你做一个展示页面，底层怎么实现的你不用管，能展示出来就行。

区分这两类任务，是避免"用 AI 反而浪费时间"的关键。

不要陷入调试循环

还有一个常见的坑：不理解任务的边界，一直让 AI 帮你一步一步调试，不停地给它反馈，非要 AI 把一个它做不好的任务做到完美。

如果一个任务 AI 反复做不好，说明要么任务描述不够清楚，要么这个任务超出了 AI 当前的能力。这时候你应该停下来想一想，而不是继续循环。除非这个任务已经跑通过一次，只是让 AI 重复执行——那才值得自动化。

正确的姿势是：让 AI 帮你开发、帮你推进，而不是让 AI 一步步调试、你一步步盯着。

你可能听说过"多智能体编程""长时间自主任务"这些很火的概念——听起来很酷，好像 AI 可以自己干一整天不用你管。但现实是：除非 AI 在每一步都能做到接近 100% 的准确率，否则长时间任务只会越跑越偏。

拿写论文举例——这是一个“大任务”，但它一定是由小任务拼成的：

1选题
— 确定方向是否成立
2做实验
— 写代码、跑实验、对比结果
3绘图
— AI 生成论文配图
4写内容
— LaTeX 撰写、编译
5检查格式
— 排版、引用、格式规范

每个小任务都不简单，都需要反复调试才能做到接近 100% 的可靠。只有当每个小任务都被你调通、固化成稳定的工作流之后，才有可能把它们串成一个大的自动化流程。 从 0 到 1 的探索阶段必须由人来主导；到了需要重复执行 30、50 次的阶段，才轮到 AI 来自动化。

什么叫 100% 准确率？就是这个任务已经被你固化成了一个完整的工作流——每一步做什么、输入输出是什么、异常怎么处理，全都定义清楚了。这时候让 AI 反复执行才有意义。而日常使用中，大部分任务都还在"探索阶段"，需要人来判断、来调整方向。这个阶段的主角是你，不是 AI。

三、为什么这两个能力比"提示词技巧"更重要？

行业过去三年的演化已经给出答案——业内关注的核心命题，从 Prompt Engineering 一路演进到了 Context Engineering，再到最新的 Harness Engineering。这三个词不是互相替代，而是不断"往上加一层"。简要发展史：

[!abstract] 🧬 三代"工程"的演化
🟦 第一代 · Prompt Engineering（提示词工程）· 2020-2023 主线
起源于 GPT-3 时代（2020-2021），ChatGPT 出圈后大爆发。代表技术：Few-shot、Chain-of-Thought（Wei et al. 2022, arXiv:2201.11903）、Zero-shot CoT（"Let's think step by step"）、ReAct、Self-Consistency、Tree-of-Thought。核心命题：怎么把这一句 prompt 写好。简单说就是“基座模型 + 提示词”
↓
🟩 第二代 · Context Engineering（上下文工程）· 2024 萌芽 → 2025 年 6 月正式立名
由 Shopify CEO Tobi Lütke 在 2025 年 6 月 19 日的推文中提出："the art of providing all the context for the task to be plausibly solvable by the LLM"。Andrej Karpathy 在 X 转发并背书，术语随即被 Anthropic、LangChain 官方文档采纳，一个月内出现了分析 1300+ 篇论文的综述。核心命题：怎么把模型看到的整个上下文（system prompt + 工具结果 + RAG 检索 + 记忆 + 历史对话 + Skill）组装好。Prompt 只是其中一环。简单说就是在“基座模型 + 提示词”的基础上，加入多轮对话和上下文管理，让 AI 不遗忘、不跑偏
↓
🟧 第三代 · Harness Engineering（脚手架工程）· 2025 末-2026 兴起
由 Viv Trivedy 在《Anatomy of an Agent Harness》中正式命名，Addy Osmani、Anthropic（Claude Agent SDK 自称 "general-purpose agent harness"）等推动普及。核心命题：怎么设计模型外面那层"脚手架"——sub-agent 调度、tool 定义、错误重试、上下文压缩（compaction）、长期任务的多窗口记忆。重点不再是“喂给模型什么”，而是“模型周围那一圈代码怎么写”。简单说就是在前两代的基础上，再加入调试能力、工具调用、多窗口对话管理——Codex、Claude Code、Windsurf、Trae 等工具都属于这一代的产物

这条主线告诉你三件事：

1单纯"会写提示词"的红利已经过去了
——红利已转移到上下文组装，再到 harness 设计
2每代演化都不是抛弃前一代
，而是把前一代当作其中一环——上下文工程里仍要写 prompt，harness 工程里仍要管上下文
3本讲从模块一到模块六，恰好覆盖了这三层
——API 协议是地基，编辑器/反代/Skill/Memory 是上下文组装与脚手架的具体实现

新红利属于那些能：

看出 AI 在哪一步偏了——是 prompt 写歪了？还是上下文里少了关键信息？还是 harness 给的工具不对？（→ Test 能力）
知道这个任务该不该用 AI、该用哪种方式用 AI——单次 prompt 够吗？要不要搭 RAG？要不要上 Agent harness？（→ AI 能力边界）

的人。模块六会专门展开这条发展史，但现在你要先记住：这两个能力是本讲的"骨架"，所有模块都在为它们填肉。

四、为什么本讲不追新概念 — "以不变应万变"

如果你翻一翻过去三年的 AI 内容，会发现一个让人疲惫的现象：几乎每隔两三个月就有一个新名词出来当顶流。

2022:  Prompt Engineering · Few-shot · Chain-of-Thought (CoT)
2023:  ReAct · RAG · Function Calling · Self-Consistency
2024:  Agent · Multi-Agent · Tool Use · Long Context · Reflection
       Self-RAG · GraphRAG · Hybrid Search · Reranking
       MoE · Mixture-of-Experts · MLA · 长上下文压缩
2025:  Context Engineering · MCP · Skill / Memory · Sub-agent
       Reasoning Model · Test-time Compute · Long Horizon Agent
2026+: 还会有很多很多 ...

本讲录制的当下还有一堆新名词在涌现，等你看到本讲时，可能又多了几个"必学概念"。如果挨个追，永远学不完，而且追完发现 80% 的"新概念"是旧东西换了个包装。

我们的应对策略

不追，但也不躲。 应对的姿态是：

把方法论握在手里，把概念当作"今天恰好流行的某个词"——它不会改变你判断 AI 工具的底层方式。

这就是 "一以贯之，以不变应万变" 的意思——一个稳定的认知框架，比一千个具体名词更值钱。

任何一个 AI 新概念，都可以套这五个问题拆开

不管未来出现什么新词（"Agentic Reflection"、"Hierarchical Memory"、"Neural Context Bus"……），用下面这五个问题来过一遍，你会发现 90% 的"新东西"其实就是已有概念的微调：

[!abstract] 🧭 拆解任意 AI 新概念的 5 步流程
🟠 遇到新概念
↓
① 它在解决哪一层的问题？ —— 协议 / 上下文 / 工程化 / 多 Agent
↓
② 之前是用什么方式解决的？ —— 找到“前任”（很多新概念只是 A + B + C 的重新组合）
↓
③ 它和我已知的哪个概念最像？ —— 找类比
↓
④ 它的代价是什么？ —— 没有免费的午餐
↓
⑤ 我现在的工作流要不要换？ —— 决策
↓
🟢 30 分钟内形成判断

①

它在解决哪一层的问题？

例：RAG 解决的是"上下文层"——把私有数据塞进 prompt

②

之前是用什么方式解决的？

例：之前是把整个文档塞进 prompt，token 烧太多

③

它和我已知的哪个概念最像？

例：像数据库的"索引 + 查询"，本质是检索

④

它的代价是什么？

例：检索质量不好就答非所问；多了一层向量库要维护

⑤

我现在的工作流要不要换？

例：个人项目用不到、Agent 系统/客服系统才值得上

学会这套提问方式，未来任何新概念你都能 30 分钟内站在它"对面"去看它——而不是被它牵着鼻子走。

一句忠告

不要陷入"概念焦虑"。焦虑的根源不是 AI 变得太快，而是你的认知框架不够稳。 本讲的所有内容设计都在帮你打造那个稳定的框架——具体名词会过期，框架不会。

五、六个模块的编排逻辑

整条课程被组织成 从底层到上层、从单点到体系 的六个模块。每一个模块都同时服务于上面两个能力。

逐节展开：

模块	核心问题	在能力体系里的位置
① API 调用基础	大模型背后到底在做什么？token 怎么算？Tool Calling 怎么跑？	给 Test 能力打"协议层认知"地基。学完后看任何 AI 工具的扣费和返回结果，你都能判断对不对
② AI 环境配置	终端、Docker、Git、Python、Node 怎么搭好让 AI 工具能跑？	给 Test 能力补"工具箱"。手里有了 `curl`、`docker logs`、`pytest`，才能验证 AI 的产出
③ AI 编辑器使用	Cursor / Windsurf / Claude Code / Codex 各擅长什么？怎么按任务选？	给 AI 能力边界补"工具映射"。同一个需求，知道有 IDE 型和 CLI 型两种打法、各自适合什么场景
④ 中转站与 API 反代	怎么用低成本（甚至免费）跑顶级模型？方案各有什么风险？	给 AI 能力边界补"成本/质量权衡"。同一件事可以"贵但稳"或"免费但折腾"，你要能选
⑤ Skill 与 Memory	怎么让 AI 在重复场景里像"老员工"而不是"新实习生"？	给两个能力同时充电——会沉淀就少踩坑（Test），知道怎么把领域知识喂给 AI 就提升边界
⑥ 主流框架生态	CrewAI / Harness / RAG / MCP 这些都在解决什么问题？什么时候该用、什么时候不用？	拔到行业视角，把前五个模块串成“上下文工程”的不同侧面，让你判断未来三年的趋势

编排原则：

先地基、后体系
：API 协议（M1）→ 工具链（M2-M3）→ 成本治理（M4）→ 长期沉淀（M5）→ 行业视角（M6）
每节都有可选 vs 推荐
：同一类需求（比如装 Python、调 API、配置反代），会先给“推荐路径”再说“还有什么选择、各自代价”——这就是在训练 AI 能力边界
避免工具崇拜
：不会教你“必须用 Cursor”或“反代一定要自建”，而是教你判断标准

[!note] 🚀 进阶实战（模块七）
六个核心模块之后，还有一节「多智能体实战工作流」作为进阶内容——它把前六节的能力串联起来，教你如何让 AI 长时间自主工作（循环会话、主智能体 + 子智能体协同）。这是从“会用 AI 工具”到“会设计 AI 工作流”的跳跃，建议学完前六节后再看。

六、学完之后你应该处于的状态

不是"会用某 N 个工具"——那种状态半年就过期。而是下面这些不会过期的判断力：

[!success] 🎯 学完后你应该具备的四类判断力
🔍 判断 AI 输出
看得出代码合不合理｜看得出环境配得对不对｜看得出 token 花得值不值｜看得出方案选得是不是最优
🧰 选择工具的能力
知道任务该用 IDE 型还是 CLI 型｜知道是用官方 API 还是反代｜知道要不要上多 Agent 框架｜知道什么时候直接 SDK 就够
🚀 驾驭工具迭代
新工具出来 30 分钟看懂定位｜新模型上线知道适合什么场景｜老工具下架不慌不乱｜不被花哨概念忽悠
📚 沉淀方法论
Skill 和 Memory 让 AI 越用越懂你｜重复任务能写成可复用流程｜团队协作能输出稳定 SOP

自检：学完之后，给你一个新的 AI 工具（比如下个月某厂商发布的新编辑器），你应该能在 30 分钟内回答：

1
它属于哪一类（IDE 型 / CLI 型 / 框架 / 平台）？
2
它解决的是哪个层面的问题（协议 / 上下文 / 工程化 / 多 Agent）？
3
它用了哪些已有概念（CLAUDE.md、Skill、MCP、RAG 等）？
4
跟现有方案比，它的取舍是什么？
5
我现在的工作流要不要换、换哪一块？

如果都答得上来，说明本讲的两个核心能力已经长在你身上了。

七、关于课程中会提到的大量概念

本讲的信息密度比较高，从头到尾会出现非常多的概念、工具名、技术术语。但并不是每一个都需要你当场掌握、当场实操。大部分概念，你只需要做到一件事：知道它存在。

为什么这么设计？两个原因：

第一，课程时间有限。 如果每个概念都手把手带你走一遍操作步骤，六个模块的内容根本讲不完。与其把时间花在"带你点按钮"上，不如把时间花在更值钱的地方——帮你建立判断框架、理解底层逻辑。那些具体的操作步骤，B 站和抖音上有大量免费教程，质量也不差，课下自己搜来跟着做就行。

第二，具体操作步骤会过期。 今天教你的某个工具界面，三个月后可能就改版了；今天录的某个安装流程，半年后可能就不适用了。如果我把大量课时花在这些"会过期的步骤"上，对你反而是不负责任的。让你知道这个东西存在、知道它解决什么问题、知道需要的时候去哪里找教程——这才是不会过期的能力。

[!tip] 课程中遇到新概念时的正确姿势
🟢 课上要做的：记住它叫什么、它解决什么问题、它在整个体系里处于什么位置
🟡 课下要做的：自己上 B 站、抖音、官方文档，搜对应的教程，动手试一遍
🔴 不要做的：因为"课上没手把手教"就跳过，也不要因为"名词太多"就焦虑

所以当你在后续模块中看到某个工具或概念被一笔带过时，不要觉得"老师没讲清楚"——那是刻意的。我负责让你知道它的存在和定位，你负责课下把它变成自己的实操经验。能不能真正掌握，就看你课下愿不愿意花这个时间。

八、怎么用这份讲义

顺序读
vs 跳读：六个模块强建议按顺序——后面的每一节都依赖前面的概念。模块四（反代）不建议跳过模块二（环境）就看
配合实操
：每一节都尽量边读边打开终端/编辑器跑一遍，"看懂"和"会做"差着 3 倍的时间
回到能力
：每节结束问自己——"这一节给我的 Test 能力或 AI 能力边界增加了什么？" 答不出来就回头再看
从第一节开始记笔记
：强烈建议你从现在就开始维护一份自己的学习笔记。起步工具不重要——腾讯文档、飞书文档、Notion 都行，关键是记下来。把每节学到的关键概念、自己踩过的坑、AI 给过你的好方案和坏方案都写进去。你的笔记就是你最好的 Skill 库——这个概念在模块五会详细展开

[!warning] 强烈不建议手写笔记
手写笔记最大的问题是：不好更新、不好同步、不好维护、不好检索。本讲的目标之一，就是让你具备建立一个独属于你自己的个人知识库的能力。
为什么推荐电子笔记？AI 时代让 Markdown 格式的性价比变得特别高——AI 天然擅长读写 Markdown，你可以让 AI 帮你整理笔记、编排内容、补充细节。配合 AI 编辑器（比如 Cursor、Windsurf），你的笔记可以实现实时更新和 AI 辅助维护。
课后小作业：去 B 站了解一下 Obsidian（本地 Markdown 笔记工具），试着熟悉 Markdown 格式的基本写法。

九、一句话总结

不要做"提示词搬运工"，要做"会判断 AI 在哪一步偏了、并且知道怎么把它扳回来的人"。

下面六个模块，全部围绕这一句话展开。

❝

不要做"提示词搬运工"，要做"会判断 AI 在哪一步偏了、并且知道怎么把它扳回来的人"。

— 疏锦行 · AI 科研双轨班

📚 AI 科研双轨班 · 课程内容

两条轨道，一套体系

AI 工具轨：API 调用 → 环境配置 → AI 编辑器 → 反代省钱 → Skill/Memory → 主流框架
科研轨：选题方法 → 实验设计 → AI 辅助写作 → EI/SCI 投稿全流程

🌐 课程详情 →📱 微信搜「锦行项目精研室」

✅ 适合谁？

• 想系统学会用 AI 工具但不知道从哪开始的同学
• 有科研项目想转化为 EI/SCI 论文的硕博生
• 准备保研面试、需要学术成果加分的本科生
• 对 AI 编程感兴趣但被各种概念搞晕的人

本文由疏锦行-科研背景提升原创，转载请注明出处。
关注公众号，获取更多 AI 科研干货 📚