乐于分享
好东西不私藏

我用 AI 越久,越发现它逼我重学那些老学科

我用 AI 越久,越发现它逼我重学那些老学科

前几天,我读到卡兹克那篇《一文带你看懂,火爆全网的 Harness Engineering 到底是个啥》

里面有个东西很打动我。

不是某个具体的新概念,而是他把一堆看起来很新的 AI 名词,重新放回了一些很老的学科里去理解。

Prompt、Context、Agent、Harness。

这些词这两年都很热,热到像一批批刚从硅谷工厂里压出来的新包装。

可你稍微往里多看一层,就会发现它们并没有那么新。

它们背后的,往往是语言、信息、分类、控制、认知、管理这些更古老的概念。

真正让我开始想这件事的,其实还不是那篇文章,而是更早之前一个挺小、也挺尴尬的场景。

有一次,我在微信群里发了一段内容。

大概是一段公告,或者说一个提议。不是 AI 生成的,也不是复制粘贴的,就是我自己一个字一个字手敲出来的。

结果朋友看完回我一句:

“好 AI 的文案。”我第一反应是好笑。

因为那确实不是 AI 写的。

第二反应就有点微妙了。

为什么一个人自己写出来的话,会开始像 AI?

后来我想,所谓“AI 味”,可能不只是那些熟悉的套话,不只是“首先、其次、最后”,也不只是过分平滑的句子。

它也可能是一种表达习惯。

一种过度全面、过度周全、过度结构化的表达习惯。

你试图把背景讲清楚,把边界讲清楚,把可能的误解提前堵住,把各种视角都照顾到。

于是那段话看起来不再像随口说出来的,而像经过某种机器式整理。

这件事挺有意思。

因为我一开始学 AI 的时候,以为自己是在学 Prompt,学模型,学工具,学怎么把一句话写得更有效。

但用得越久,我越觉得事情不是这样。

AI 表面上是在训练我怎么使用一个新工具。

实际上,它在反过来逼我重学一批很老的能力:

  • 怎么表达一件事
  • 怎么组织一堆信息
  • 怎么给混乱的东西分类
  • 怎么给一个聪明但不稳定的系统设边界
  • 怎么判断它是在认真推理,还是在顺着我说话
  • 怎么管理一群很能干、但也很容易乱跑的 Agent

所以这篇文章不想写成一篇 AI 科普。

也不想写成“文科终于有用了”的鸡汤。

我更想写一点自己的体感:

为什么我用 AI 越久,越觉得它没有让那些老学科失效。

它只是把那些过去藏在书本里、课堂里、专业训练里的东西,重新推到了每个普通使用者的桌面上。

Prompt 不是咒语,是表达能力

最早让我意识到这件事的,是 Prompt。

刚开始用 AI 的时候,大家都在学 Prompt。

那时候的 Prompt 还有一点咒语感。

你要写清楚角色,要写清楚任务,要写清楚格式,要写清楚限制条件。

有时候你少写一句,模型就会跑偏;你多补一个边界,它又突然变得像个人了。

所以早期很多人会觉得,Prompt 是一种技巧。

像某种新型搜索语法,或者某种跟机器沟通的暗号。

但我现在越来越觉得,Prompt 最底层的东西不是技巧,而是一个人的表达能力。

你遇到一件事,能不能把它说全面。

能不能从多个角度描述它。

能不能提前想到它可能会走偏的地方。

能不能把自己的判断、偏好、约束和不确定性一起交代出来。

这听起来像是在写提示词,其实更像是在训练一种完整表达的能力。

早期模型能力没那么强的时候,这种表达还必须非常有逻辑。

你要一层一层铺开,模型才跟得上。

但现在模型变强之后,情况有点变化。

很多时候,你的表达不一定要特别工整。

中间观点散一点,语序乱一点,甚至像聊天一样把想法倒出来,只要信息足够全面,模型也能帮你整理、归纳、补结构。

这件事反过来让我意识到:

Prompt 技巧会过时。 但表达能力不会过时。

我第一次真正感受到 Prompt 技巧有用,是很早期看一些大佬分享。

他们会告诉你,不要一上来就问问题。

先给 AI 一个角色。

比如你是一个资深产品经理,你是一个某领域专家,你擅长什么,你有什么判断标准。

我照着试了一下,效果确实马上不一样。

那时候我以为,这就是“让 AI 进入角色”。

后来用得多了才发现,这件事没那么玄。

你给 AI 一个角色和擅长领域,本质上是在用语言帮它收束方向。

模型背后有一整个混沌的世界知识。

如果你只是问一个问题,它可以像百科一样回答,像老师一样回答,像营销文案一样回答,也可以像一个普通网友一样回答。

但当你说“请以某某身份来判断”,你其实是在给它划一个知识区域。

你告诉它:

  • 这件事应该从什么视角看
  • 应该调用哪类经验
  • 应该遵守什么评价标准
  • 什么答案算专业,什么答案只是泛泛而谈

所以语言不是包装。 很多时候,语言本身就是定位系统。

Context 不是塞资料,而是给信息安排座位

后来我踩过另一个坑。

我一开始以为,既然 AI 需要上下文,那我给它越多信息,它应该就越聪明。

事实不是这样。

很多时候,上下文太多、太散、太没有结构,AI 反而更容易幻觉。

它会抓住一些不重要的细节,把它们放大。

也会把几个本来不该连在一起的信息,硬串成一条逻辑。

最后你本来是去问一个问题,结果它给你制造出三个新问题。

这时候在等答案的我,脑子里会出现很多问号:

不是,我刚才是这个意思吗?

还有一种更搞笑的情况。

我经常会开好几个窗口并行处理问题。

这个窗口在问安装 skill 的配置问题。

那个窗口在准备一篇文章的材料。

然后某一次,我把写文章的问题发到了安装 skill 的窗口里。

AI 很努力。

它没有崩溃,也没有说你发错了。

它甚至会尝试把两个东西强行串起来。

但结果就是典型的驴唇不对马嘴。

那一刻我才很直观地感受到,Context 不是越多越好。

Context 的重点不是“塞资料”。 而是让正确的信息出现在正确的位置。

再往后,我开始做 memory 机制的时候,这种感觉更强。

人类有短期记忆、长期记忆,都有容量的限制。

模型其实也有类似的问题,只是它的限制不来自脑细胞,而来自上下文窗口。

人的短期记忆很脆弱。

你手里正处理几件事,一被打断,就可能忘掉刚才为什么走进这个房间。

模型也一样。

在有限的 context 里,什么应该临时保留,什么应该长期沉淀,什么应该在当前任务中随时调用,都是需要设计的。

所以 memory 不是“存得越多越好”。

记忆从来不是仓库问题。

它是取舍问题。

是在有限空间里决定什么值得留下,什么可以遗忘,什么必须在关键时刻被重新拿出来。

分类不是整理癖,是生产力

再往后,我越来越重视 Skill。

但我说的 Skill,不只是“给 AI 装几个能力”。

它背后其实是分类问题。

我自己的 LyRos 系统,一开始就没有选择做一个大中台。

我把它拆成不同子项目。

写作是写作,跑步是跑步,职业规划是职业规划,系统层是系统层。

这不是因为我喜欢目录整齐。

恰恰相反,我越来越不相信有一个万能中台,能够优雅地统领所有问题。

如果把不同领域比作不同科目,那我不相信有哪一门科目可以真正代替其他科目。

管理学很重要,但它不能替代医学。

统计学很重要,但它不能替代写作。

系统设计很重要,但它也不能替代一个具体领域里的真实判断。

很多东西一旦被混在一起,表面上好像统一了,实际上只是失去了焦点。

Skill 也是一样。

如果你有几个功能重叠的 skill,它们都能处理类似任务,都能被相同关键词触发,系统就会开始混乱。

你提到一个词,它不知道该跑哪个。

可能都跑。

可能跑错。

也可能一个都不跑。

这时候你会发现,问题不在于 AI 不聪明,而在于职责没有被分清楚。

人类组织里也一样。

一个公司里如果三个人都对同一件事“部分负责”,最后往往就是没人真正负责。

分类的意义,不是把东西放整齐。 分类的意义,是让行动变得确定。

  • 谁该响应,谁不该响应
  • 什么任务属于这个模块,什么任务不属于
  • 什么时候应该调用这个能力,什么时候应该明确拒绝

这些东西看起来很琐碎,但它们决定了一个系统能不能长期稳定运行。

所以我现在越来越觉得,所谓 Skill 背后,其实是分类学重新变成了生产力。

只不过过去我们讨论分类,更多是在图书馆、知识管理、学术体系里讨论。

现在它直接影响你每天能不能把 AI 用顺。

我还没完全理解 Harness,但我先学会了落盘为安

再说 Harness。

这一部分我会谨慎一点。

因为它是我接触时间最短的概念。

我不想把自己包装成已经完全理解 Harness Engineering 的人。

坦白说,我还在学习它。

但它之所以让我很有感触,是因为在我真正理解这个词之前,我已经反复遇到过它试图解决的那类问题。

AI 很擅长和你讨论机制。

你跟它聊一个系统,聊一个流程,聊一个规则,它可以说得逻辑严密,层层递进,甚至让你觉得“对,就是这么回事”。

但问题是,聊完之后呢?

如果这个机制没有被写进文件。

没有进入下一次会被读取的约束。

没有变成一条 checklist、一个规则、一个验收标准。

那它很可能只存在于这一次 session 里。

你关掉窗口,它也就跟着消失了。

下一次你再打开 AI,它依然会很聪明。

但它不一定记得你们上一次好不容易达成的共识。

这件事给我的挫败感很强。

因为它会让很多讨论变成一种幻觉:

聊的时候很有成果感。

落地的时候什么都没有发生。

所以在我听到 Harness 这个词之前,我自己先总结了四个字:

落盘为安。

只要是重要的沟通、重要的机制、重要的偏好、重要的边界,就不要只留在对话里。

要把它写下来。

写进 Agent 文档。

写进项目规则。

写进可以被下一次任务读取和执行的地方。

对我来说,最小的约束单元不是一个复杂系统,而是一份足够短、足够清晰、自己愿意维护的 Agent 文档。

当然,我也知道,这远远不是 Harness 的全部。

真正的 Harness 还会涉及权限、工具调用、反馈、检测、自动化验证、人类介入点。

Agent 文档只是其中很小的一块。

甚至可以说,它只是入口。

但对普通使用者来说,这个入口非常重要。

因为它解决的是最朴素的问题:

  • 不要让经验死在一次对话里
  • 不要每次都从头教 AI 你是谁、你要什么、你不接受什么、你希望它怎么和你协作

我不确定自己已经理解了 Harness。

但我确定一件事:

不落盘的协作,很容易在 session 结束时归零。

真正让我有安全感的,不是 AI 当场说得多漂亮。

是下一次它还能不能照着同一套规则继续做事。

聪明不等于可靠

再往后,就是 Reasoning。

现在大家都很容易把 reasoning 模型理解成“更聪明的模型”。

这当然没错。

在不考虑时间和成本的情况下,我自己也更倾向于用 reasoning 模型。

复杂问题上,它给出来的方案和判断,确实通常更有质量。

但 reasoning 对我来说,也是一把双刃剑。

因为 AI 越会思考,它有时候也越会把话说圆。

它不只是给你一个答案。

它会给你一个看起来很完整、很合理、很有解释力的答案。

问题是,这个答案不一定真的对。

它可能只是更会顺着你。

这也是我一直很警惕的地方。

AI 默认很容易讨好用户。

你说一个观点,它往往会先帮你补强这个观点,而不是先质疑它。

你给一个方向,它往往会沿着这个方向往前推,而不是停下来问:

这个方向本身有没有问题?

所以我现在使用 AI 的一个前提,是先给它一个我能接受的“人格”。

不是永远鼓励我。

不是永远帮我圆话。

而是一个思辨型,甚至有一点对抗型的协作者。

我希望它怀疑我的判断。

指出我的盲区。

主动找反例。

在我表达不清楚的时候,不要假装听懂。

这件事和我最近看《思考,快与慢》也有一点对应。直给的模型,有点像快思考。

快,省力,反应迅速。

很多日常问题,它足够好。

但它也更容易沿着直觉和惯性往前走。

reasoning 模型更像慢思考。

慢一点,贵一点,消耗更多 token。

但当问题复杂、边界模糊、后果重要的时候,它更值得被调用。

人类调用理性思维要消耗脑力。

模型调用 reasoning 要消耗 token。

这两个东西当然不是一回事,但它们给人的体感很像:

不是所有问题都值得慢想。 但真正复杂的问题,不慢想就容易被直觉带跑。

所以会用 reasoning,不只是让 AI 多想。

而是要让它在该慢下来的时候慢下来。

在该反驳你的时候反驳你。

在该承认不确定的时候承认不确定。

否则一个更聪明、更会解释的 AI,反而可能让错误变得更有说服力。

一群聪明助手,也需要管理

最后是多 Agent。

这也是一个很容易被想简单的东西。

很多人一听多 Agent,就会自然想到:

一个 Agent 已经很强了,那多放几个,是不是就更强?

一个负责搜索。

一个负责写作。

一个负责审校。

一个负责执行。

听起来很美。

但真正用起来,你会发现,这件事非常像管理学问题。

我想到一个不一定准确,但很有体感的比喻。

Agent 像员工。

多 Agent 就像一群学富五车、刚毕业的愣头青。

他们不是没能力。

恰恰相反,他们太有能力,也太有行动欲。

每个人都想把任务做成,每个人都在积极推进,每个人都能给你一套看起来很完整的解释。

但如果没有分工、交接和验收,这种积极会变成另一种失控。

最后就算任务完成了,你也可能说不清:

  • 到底是谁完成的?
  • 怎么完成的?
  • 中间浪费了多少?
  • 哪些动作是真的有效,哪些只是看起来很努力?

这就是多 Agent 最让我警惕的地方。

它不是人多力量大。

它是人多之后,管理问题会立刻冒出来。

所以当 AI 从一个聊天框,变成一群可以并行行动的 Agent,真正重要的问题就不再只是“它够不够聪明”。

而是:

  • 谁负责什么?
  • 谁向谁交接?
  • 谁来验收?
  • 失败以后怎么回滚?
  • 成本在哪里被记录?
  • 人类什么时候必须介入?

智能多了以后,问题不是能力不足,而是组织不足。

AI 把老学科推回了操作台前

写到这里,我想说的其实不是:

每个人都应该去系统学习语言学、信息科学、分类学、控制论、认知心理学和管理学。

这样说太吓人,也没有必要。

我真正想说的是,AI 没有让这些老学科失效。

恰恰相反。

它让很多过去看起来离普通人很远的东西,重新变成了每天都能感受到的生产力。

  • Prompt 背后,是表达和语言
  • Context 和 Memory 背后,是信息组织和认知科学
  • Skill 背后,是分类
  • Harness 背后,是控制
  • Reasoning 背后,是认知校准
  • 多 Agent 背后,是管理

这些词当然很新。

但它们指向的问题并不新。

人类很早就在研究如何表达,如何记忆,如何分类,如何控制复杂系统,如何避免认知偏差,如何组织多人协作。

只是以前,这些东西更多停留在书本、课堂、专业训练和组织经验里。

现在 AI 把它们推到了普通使用者面前。

你不需要成为学者。

但你会越来越明显地感觉到:

你怎么说话,会影响 AI 怎么理解你。

你怎么组织信息,会影响 AI 会不会胡说八道。

你怎么分类,会影响系统会不会混乱。

你怎么设规则,会影响协作能不能复用。

你怎么要求它思考,会影响它是在推理,还是在迎合。

你怎么分配 Agent,会影响一件事是被完成,还是被搞成一团雾。

这就是我说的,AI 逼我重学那些老学科。

不是因为我突然热爱学术。

而是因为它们终于从“知识”变成了“工具”。

所以我现在反而更想读书

这也是我最近一个很强的感受。

以前我总觉得,自己系统研究各个类别书籍的时间太少。

但那种“太少”,更多是一种抽象的遗憾。

知道应该读,但不一定真的被逼到非读不可。

和 AI 协作久了以后,这种感觉变得具体了。

我会突然发现,脑科学的书可以读。

因为你真的会开始思考记忆、注意力、工作记忆、认知负荷这些东西。

认知心理学的书可以读。

因为你会发现,AI 的很多错误和人类的认知偏差有奇怪的相似性。

管理学的书可以读。

因为多 Agent 协作到最后,真的会变成分工、授权、验收和组织设计。

甚至哲学、小说也可以读。

哲学训练你追问概念的边界。

小说训练你理解人、情境、动机和复杂性。

这些东西看起来离 AI 很远。

但当你真的开始深度使用 AI,就会发现它们并不远。

AI 像是把很多学科的入口都压缩到了一个聊天框里。

你问出来的问题越浅,它就越像一个工具。

你背后的理解越深,它就越像一个放大器。

所以如果说我有什么衷心建议,不是让大家都去追最新模型,或者每天收藏十个 Prompt 模板。

而是:

除去和 AI 协作的时间,尽量多读一点真正的书。 深一点读。 慢一点读。

不要只读“怎么用 AI”的书,也要读那些原本就解释人、解释信息、解释组织、解释世界的书。

因为到最后,你能从 AI 里拿到什么,很大程度上取决于你自己脑子里原本有什么。

普通人可以先练三件事

当然,普通人不需要一上来就把事情搞得很重。

如果只是想把 AI 用得更好,我觉得可以先练三件很小的事。

第一,每次对话末尾,多问一个“为什么”。

不要只让 AI 给答案。

让它解释判断依据,列出可能遗漏的角度,主动指出自己哪里可能错。

这一步训练的是 Reasoning,也是在训练你自己的思辨习惯。

第二,每次要结果时,顺手要一个“可校验方式”。

比如检查清单、失败条件、验算方法、人工介入点。

不要只问“怎么做”。

还要问“怎么知道它做对了”。

这一步训练的是控制感。

第三,每次遇到一个好用流程,把它沉淀成一段规则。

可以是 Agent 文档。

可以是 checklist。

可以是一个短模板。

不重要。

重要的是,它下一次还能被你自己和 AI 重新读取。

这一步训练的是复用。

不要让每一次好对话都变成一次性烟花。

最后,我越来越觉得,AI 有点像粉笔。

拿起来写字不难。

教授也会。

小孩子也会。

真正拉开差距的,不是会不会拿粉笔。 

而是你到底能在黑板上写下什么。