今天我要为你解读的这本书是《通用人工智能》。这本书的作者,是清华大学教授刘嘉老师。他是清华大学基础科学讲席教授、北京智源人工智能研究院首席科学家,主要从事人工智能的认知神经基础和视觉智能的研究。
前一段时间,刘嘉老师在网上写了一篇文章,说我们现在考北大清华已经意义不大了。考进北大清华曾经是国内小学、初中、高中生的终极梦想,无论是家长、老师还是孩子,都是以此为目标。但是刘嘉老师觉得,现在北大清华给予我们的东西,远远不如一个大模型给予我们的那么多。
刘嘉老师为什么会有这样的观点呢?我们可以从他的这本《通用人工智能》里找到一些答案。这本书,汇聚了这十几年来他对人工智能的领悟和体会。我们今天对这本书的解读,还能帮你进一步理解,通用人工智能时代人类还剩下哪些不可替代的价值?以及,在这个时代如何培养孩子、发展自己?
这本书有9个章节,其中前6个章节介绍了通用人工智能的定义,以及科学家在迈向通用人工智能所经过的几条主要的尝试路径。后三个章节介绍了刘嘉老师对于大模型时代,我们人类应该重点培养哪些能力的一些看法。
我们先来看看他对于通用人工智能的定义。为了理解通用人工智能,刘嘉老师从两个维度(环境和策略)出发,把人工智能划分到了四个象限中。

点击查看大图,保存到手机,也可以分享到朋友圈
第一个象限是“封闭环境+静态策略”,这一象限的AI依赖于预定义的规则和数据,在封闭的环境中执行特定任务,这类AI解决的问题比较简单,但扩展性比较差。
第二个象限是“开放环境+静态策略” ,这里面的AI是传统的基于符号主义(symbolic)AI,这类AI试图在开放的社会环境中模拟人类智能,但最终被证明无法适应现实世界的复杂性和动态变化。
第三个象限是“封闭环境+动态策略” ,这里面的AI需要在规则明确但状态不断演变的情境中工作,这一类的AI的典型代表是AlphaGo、完全自动驾驶(FSD)系统等。
而最后一个象限是“开放环境+动态策略”,是能够像人一样在多变的环境中不断调整自己的策略,以找到最佳生存之道的AI,就是通用人工智能,AGI。
从这个角度来说,通用人工智能的最大特点就是面对多变、不可预测的现实世界,如何建立动态的、自适应的策略来应对不断变化的挑战。
智能从何而来
那么,通用人工智能是如何来的呢?
这本书介绍了人工智能发展的三条主要路径。
第一条:模拟人类的行为。这个在人工智能领域里有一个词,叫做强化学习。所谓的强化学习,就是AI通过不断的试错、获得奖励或惩罚的反馈信号,来逐步优化和改进自己的行为策略。这个过程跟动物和人类在与环境交互中学习行为的过程很类似。例如我们小时候学习骑自行车——不断尝试,成功了就获得鼓励,摔倒了就调整姿势,最终学会了这项技能。
第二条路径是模拟大脑的神经机制,这就是神经网络和计算神经科学的发展方向。在联结主义AI研究者的眼中,智能的本质是学习。人工神经网络的发展历程,就是一个不断学习如何仿照大脑处理信息的机制,进而增强AI的学习能力的过程。通过深度学习等技术,AI可以从大量数据中自动提取特征和规律。
第三条路径是模拟人类的认知能力,这就是自然语言处理的发展方向。大模型的诞生,就是这条路径的重要突破。与前两条路径不同,自然语言处理不是简单地模拟行为或神经机制,而是捕捉人类语言所承载的知识、思想和认知结构。ChatGPT的出现标志着这条路径达到了一个新的里程碑——它展现了通过语言处理和大规模预训练,AI可以在开放环境中呈现出类似通用智能的能力。
AGI 时代最该学会的能力是什么
接下来,我们说说,通用人工智能时代最该学会的能力是什么。
刘嘉在书中,提到了通识教育要培养的五项核心能力,研究、统计、逻辑、心理、修辞。
研究能力的本质并不是做实验、写论文,而是能否识别本质问题、提出关键问题。好的问题比正确的答案更重要。
统计能力帮我们在信息过载中找到真实关联。今天的问题不是信息太少,而是信息过多,其中夹杂着大量虚假、噪音,甚至由AI生成的内容。我们需要具备一种能力,从冗杂信息中抽取变量、发现结构,建立对世界的有效认知。
逻辑能力就是从第一性原理出发进行推理。它的关键在于能否从根本出发,一步步推演出新的认知结构。
心理能力是指认识自己与理解他人的能力。我们为何而努力?意义何在?有了心理能力,你就有了自己的判断,不被他人的评价左右。
修辞能力就是说服他人,共同行动。如果想服务社会,就必须联合他人。修辞能力,就是说服与影响他人,促成集体协作。
这五个能力共同构成了一个完整的成长路径:通过研究、统计、逻辑能力,我们发现真理;借助心理能力,我们获得内在自由;最终,以修辞能力,服务社会、团结他人、推动改变。
我最后再补充一点能力,虽然刘嘉老师没有明确地放在这里。这就是在大模型时代,如何利用大模型进行有效学习。前段时间接受采访的时候,他说上清华北大已经意义不大了,就是这个原因。因为在大模型的加持下,我们学习的速度,会远远快于正规的课堂教育。
这本书出版于2025年6月,现在人工智能的发展一日千里。我作为一名人工智能领域的研究者,也想就着这本书,谈谈我对于未来人工智能的看法,尤其是我们人类在未来的超级人工智能时代,可能会扮演什么角色,以及我们该做些什么。

人工智能发展中,人类工程师角色是如何演变的
我想先来说说,人工智能发展中,人类工程师角色是如何演变的。
在人工智能历史中,从事和人工智能相关的人类科学家或者工程师的角色和任务不断发生变化。了解这个变化历程,能帮我们看到,随着AI的不断升级,什么技能在贬值,什么能力在升值。
第一阶段:特征工程时代(1980-2011)。在这个时代,工程师的核心职责是告诉模型应该看什么。
这个时期的模型,是传统的机器学习模型。这种模型通常分为两个前后串联的部分。前面的部分叫做特征提取器,从输入的图像中,提取特征。这些特征被送入后面的分类器。
在这个流水线中,特征提取器是由人手工设计的,而分类器的参数,是用训练数据来自动调整的。所以,在这个流水线中,特征非常重要。一句经典的行业说法:“Features matter more than algorithms.”(特征比算法更重要)。
于是催生出了一个工作:特征工程(feature engineering),也就是让模型提取出哪些特征更容易帮助模型完成任务。
整个2000年代,特征工程成为机器学习中最热门的研究领域。就像教小孩认苹果,你得先告诉他“看颜色、看形状、看大小”,工程师们就是在手把手教机器“该看什么”。研究者们手工设计各种特征描述符,优化特征空间。工程师们和领域专家深度合作,精心打磨每一个特征,然后才能喂给分类器。
然而,随着视觉任务的复杂度提升,手工设计特征的效率与上限都愈发捉襟见肘。这促使研究者们转向一个更根本的问题:能否让模型自己学会提取特征?
端到端学习(end-to-end)就是解决这个问题的一个范式。所谓端到端学习,是指从原始像素出发,经过一系列可学习的参数化层,最终输出任务结果。在这个范式下,特征提取器也成为一个可以通过训练,自动修改参数的模块。
具备端到端学习能力的模型架构有很多尝试,包括各种自编码器、概率图模型等,但最终胜出的架构,是人工神经网络。
我们来到第二阶段,神经网络时代(2012-2020)
2012年,深度学习教父Geoffrey Hinton,也就是因神经网络研究获得2024年诺贝尔物理学奖的那个人,他的两个学生,在2012年用两块英伟达显卡(GTX 580 GPU)训练了一个8层的神经网络AlexNet,参加了ImageNet大规模视觉识别挑战赛——比赛用人工智能识别图像的准确率。AlexNet的错误率是15.3%,比第二名低了整整10个百分点。第二名用的还是传统的传统特征工程方法,也就是“手工教机器看什么”。这个碾压式的胜利,震惊了整个计算机视觉领域。
AlexNet证明了一件事:只要有足够的数据和算力,神经网络可以自动学习到比人工设计更好的特征。 它在底层学到了类似于边缘检测器的滤波器,在中间层学到了纹理和形状的组合,在高层学到了类似于物体部件的抽象表示——整个特征层级是自发涌现的,不需要任何人工设计。
特征工程的时代,就此走向终结。
然而,深度神经网络同时引入了很多超参数(就是事先给定的,用来控制学习过程的参数):网络架构、网络深度、宽度、卷积核大小、学习率、批大小、dropout比率、优化器选择等。这些术语我们不用记,只要知道,这些超参数的组合空间巨大,对模型的性能影响深远。
因此,工程师的工作性质发生了根本转变。他们不再设计特征,而是优化网络架构、调整超参数。这个过程获得了一个生动的民间名词:“炼丹”。一个人类工程师,可能花80%的时间在超参数调优上,反复运行实验,希望从大量试错中找到最优配置。
因此,一个很自然的想法是,这个工作能自动化吗?
2016—2017年期间,Google团队提出了神经架构搜索(Neural Architecture Search, 简称NAS)。NAS的思想是自动设计神经网络架构,通过强化学习或进化算法在架构空间中搜索最优配置。这技术逐步演进为AutoML——自动化机器学习。

随着AutoML的成熟,超参数调优甚至架构设计这些工作开始被自动化工具接管。工程师“炼丹”的时间开始减少。
真正改变了终结了“炼丹”这个行业的,是大模型。
我们进入第三阶段:基础模型与提示工程时代(2020-2023)
2020年,OpenAI发布GPT-3。这是一个转折点。从此迎来了大模型时代。
大模型,又被称为基础模型(Foundation Models)。基础模型已经预训练完成了,它本身的能力已经非常强了。因此,之前工程师们费尽力气的网络架构设计、调参的工作已经完全不需要了。
基础模型好比一个马力极其强劲的发动机。我们所要关心的,就是让这个发动机如何能够发挥出100%作用。
用好大模型,非常重要的一点是给它提供足够的信息。人们发现,如果你的提示词太宽泛、不准确,大模型给的答案就会偏离预期。如果提示词足够详细、清晰、包含充分的上下文,大模型的回答就会稳定而准确。因此,你给大模型的提示词(prompt) 就很重要。
这引出了新的工程学科:提示词工程(Prompt Engineering)。
提示词工程师做的就是:编写清晰无歧义的指令、精心收集和组织背景信息、运用思维链等引导技术、迭代优化提示等。2023年初,提示词工程师成了新职业,高薪职位随处可见。
然而,但随着时间的推移,提示词工程很快消亡了。
原因有几个。第一,大模型能力本身提升,模型变聪明了。很多新的大模型,对自然语言的理解能力已经强到你不需要再写“请扮演一个专家”或者“请一步一步思考”这类提示词了,模型自己就会这么做。精心措辞的技巧被模型本身的能力给自动化了。
第二,提示词工程没有办法真正解决大模型遇到的信息入口问题。
2020年时,模型大概能处理1k左右的token,因此你无法向模型塞进整个文档,所以只能靠精心写提示词。而随着模型能处理更长的上下文,技术能力的提升,2024年的大模型已经可以容纳128k的token了。所以,我们可以把整个对话历史、完整的知识库、详细的背景信息全部塞进去,而不依赖精心的提示词。但人们很快发现,上下文并不是越长越好。具体来说模型在使用10%的上下文窗口时就开始“健忘”,这就是上下文腐化(“Context Rot”)问题。
所以,核心问题从“怎样用少量信息让模型理解要做的事情”变成“怎样在大量信息中让模型找到关键点”。为了应对这个问题,又产生了一个新的任务:上下文工程(Context Engineering)。
上下文工程是动态管理大模型上下文的技术体系。它包括三个核心步骤。
第一步是召回,就是从海量可用信息中找出最相关的内容。这涉及RAG(检索增强生成)技术等。第二步是压缩:可以通过让模型给信息做摘要、拆分为多个小问题分别处理等方式实现。第三步是组织:信息的位置和顺序直接影响模型的理解。所以需要精心组织上下文结构,确保核心信息始终在焦点位置。简单来说,上下文工程师的工作是设计大模型的信息入口:哪些信息进去、哪些被过滤、顺序如何。这些工作都是在配合大模型,为大模型提供更好的信息。
然而,人们很快又发现大模型存在的几个局限性。

第一个问题是大模型不能真正采取行动。大模型只会生成文本。如果用户需要的是“发送邮件”“查询数据库”“控制设备”等实际行动,光靠文本输出就无能为力了。这带来的一个问题是,模型无法观察到真实世界的反馈,无法根据结果调整计划。第二个问题是知识截止的问题。大模型的知识来自训练数据截止日期,一旦训练完成就冻结了。对于当前世界状态、实时数据、个人信息,它只能靠“幻觉”自信地编造答案。
所以我们可以说,大模型是“被动的”“静态的”“受限的”。
为了解决以上的问题,Agent技术应运而生了。我们进入第四阶段:Agent工程时代(2023-2025)
Agent可以调用外部工具和API——也就是应用程序编程接口,能用于不同软件系统之间进行通信和交互。Agent通过这只虚拟的手连接到外部数据源,帮助大模型获取实时、准确的信息,实现了知识接地(Grounding),大模型从此不再依赖训练数据中的幻觉。此外,在Agent模式中,Agent不是一次性输出答案就停止,而是进行多轮推理-行动循环:推理→决定需要什么→调用工具→观察结果→更新理解→继续推理。这样的好处是,可以根据每一步的发现动态调整后续信息的收集方向,这让它能够更高效地处理更复杂的问题。
2023年起,出现了 Agent Engineering(智能体工程)。相应的工程师的工作主要是设计Agent的决策骨架。例如规划系统设计,也就是设计Agent如何从目标分解成子任务。决定Agent能使用哪些工具、如何使用,以及设计Agent的记忆架构——决定Agent记住什么、遗忘什么、什么时候回忆、什么时候遗忘等。
然而,在Agent的运行中,人们又发现了新的问题。
例如,当搜索API超时,Agent怎么办?如何追踪Agent是否真的在推进任务,还是在原地打转,而且当Agent犯错时,这个错误可能在后续会话中重复出现,如何防止历史错误重演呢? 人们意识到,仅仅给予Agent主动获取信息的能力不够。没有系统性的框架来约束和指导Agent这个主动权,主动性反而会变成混乱。 所以,在Agent范式下,如何确保Agent朝正确方向执行,不会在执行过程中偏离轨道,以及各种运行中遇到的突发情况应该如何处理,又成了一个难题。
于是我们就来到了第五阶段:Harness工程与系统治理时代(2026至今)。这是正在发生的阶段,但很多人尚不知情。
2026年2月,HashiCorp联合创始人Mitchell Hashimoto在博客中正式提出了“Harness Engineering”(驾驭工程)这个术语。
Harness 这个词本来是英文里“马具”的意思,就是骑马时套在马身上的那套缰绳和鞍具。一匹马力气很大,跑得很快,但如果没有缰绳控制,它可能往任何方向跑。 Harness 的作用就是把马的力量引导到正确的方向上。对应到 AI 这边,在Agent模式下,调用大语言模型的整个流程变成了自动化,因此容易出错、容易幻觉、容易失控。而 Harness就是套在它身上的那套控制体系。
Harness工程解决问题的核心创新是清晰、持久、可演进的“规则手册”。在每次调用模型前强制注入。规则手册可能包含目标定义、硬约束、角色定义、能力范围等。这些文件存储在代码仓库中,版本控制,可追踪。每当Agent犯错时,对应的规则文件就会被更新,为所有未来的会话预防这类错误。
因此,Harness工程师们的主要功夫变成在规则文件里定义输入输出规范、设计工具调用的触发条件、建立反馈回路来自动修正错误、通过编排层确保多个步骤协调执行。
总结一下,回顾这几个阶段,我们会发现,和AI打交道的工程师,他们的工作性质,发生了转变。
在特征工程时代,工程师关心的是自己是否为机器学习模型找到了好的特征。
当神经网络模型学会了自己找特征以后,特征工程的需求消失了,但一个新的、同样复杂甚至更复杂的瓶颈浮现:模型架构和超参数的最优化。因此工程师的工作重心,放在了如何为模型的训练调整参数:找到好的模型架构、调整学习率、批大小、dropout等(调参数)。
当基础模型出现,超参数调优的需求大幅下降——预训练的大模型不需要你重新训练。但新的瓶颈产生了:提示和上下文的设计。大模型的输出质量极度依赖于提示词的精妙程度。于是,工程师们开始关心如何精心设计上下文,给大模型提供精准信息,让大模型能够更好地理解需求,这就是提示词工程和上下文工程。
当Agent系统出现,因为Agent本身可以自动为大模型提供所需的信息,所以提示词工程和上下文工程的需求降低了。但是,如何设计Agent的决策骨架、告诉它如何从目标分解成子任务、如何决定Agent能使用哪些工具以及如何使用,以及设计Agent的记忆架构——决定Agent记住什么、遗忘什么、什么时候回忆、什么时候遗忘等,又成了关键,这就是Agent工程要做的事情。
当Agent能够自主行动以后,我们又发现对于它的管理和驾驭成了新的瓶颈:我们无法保证它能够作出正确的判断,无法保证它在反复调用大模型的时候不偏离轨道。所以此时人类工程师的重点又转变了,变为如何在宏观上设计系统的运作框架,确保整个Agent系统在可靠的框架下持续执行、稳定运行,这就是Harness工程。
观察这五个阶段,两个关键模式浮现出来。
第一个模式:创新与瓶颈的循环
AI的每次升级都能大幅提高效率和性能,同时也消灭某类工作。但在同时,AI会引入新的瓶颈,而人类工程师的工作就开始转为解决这个瓶颈,于是出现了新的“工程”。
这就像汽车如何替代了马车的历史。汽车让马车夫的职业重要性大幅下降,但是汽车在大幅提高通行效率的同时,也产生了新的要解决的问题:汽车的维修、汽车的设计、道路基础设施、交通管理、加油站、汽车销售和租赁。所以围绕这些问题,产生了新的职业。
第二个模式:人类任务的向上迁移。
AI的进步带来的是人类任务的向上转移——从微观的细节决策向宏观的框架设计转移,从底层的具体细节转向高层的战略引导。每当自动化一个层面,就打开了高层面的问题空间。
特征工程时代,人告诉模型应该看什么。超参数时代,人开始优化模型本身。提示工程时代,模型已经足够强,人的决策是给模型提供最优的信息。Agent工程时代,人设计Agent的决策骨架,打通整个自动化流程。Harness时代,人通过制定整个系统的运作框架、目标定义、约束规则,来让这个流程更加顺畅,保证不出错。
我们可以打一个比方,把AI当做公司的一名员工,而人的角色是公司的一个技术出身的领导。
如果这个员工能力不强,那么这个领导可能需要亲自下场,帮助员工分担一部分难题——这好比特征工程。而如果一个员工的能力很强,这时候领导就不会插手细节,而是给他提供更多的信息(提示工程、上下文工程)、搭建更好的环境(Agent工程),以及解决这个人融入到整个系统运作中遇到的各种问题和把握大的方向(Harness工程)。
而要当好这个领导,需要的能力和之前亲自下场是完全不同的。越高层的工作,你需要管理的系统的整体复杂性就越增加。更复杂的系统需要更复杂的管理和约束、需要找到正确的目标、需要判断力和审美力,以及在关键时刻的决策。
对于我们的启发
这对于我们普通人有什么启发呢?
从“创新与瓶颈的循环”和“人类任务的向上转移”这两个模式中,我们能看到一个趋势:很多底层的“执行型技能”在被自动化消除的同时,更高维度上的“战略型技能”的需求反而上升。
每一次升级,旧的“执行型技能”都在贬值,但对“战略性思维”的需求却在上升。特征工程师需要理解数据,超参数调优需要理解模型,提示工程需要理解意图,而Agent设计需要理解系统,Harness工程需要理解整个流程的约束和风险。每往上走一层,所需的抽象能力和全局视野就倍增。
这意味着:纯粹的执行技能正在被贬值,而决策能力和系统思维正在升值。
所以,一个计算机专业的学生,可能不能把眼光放在学习当前最新的框架、掌握最优雅的编码技巧和最前沿的模型架构上,因为这些知识的半衰期越来越短。因为AI正在逐步接手这些有明确规范、可以量化、可以自动化的工作。AI会比你更快地在执行层面追上你。
所以,未来越来越多的工作,需要人类在更高的抽象层面处理。这要求我们不仅要懂单个模块的工作原理,更要理解整个系统各部分的相互作用、制衡和约束。
因此,我们在个人成长上,在“往下钻”的时候,更要坚持往上走。“往下钻”意思是在某个具体的技术领域做到极致——比如CUDA编程、芯片设计、深度学习框架的实现等。这些工作会有竞争力,但其竞争力的半衰期在缩短。“往上走”意思是不断地提升自己的抽象层面——从写代码的工程师,转向设计系统的架构师,再转向理解整个组织方向的战略师。
这不意味着基础不重要。恰恰相反,越往上走,基础越重要——因为你的决策会影响越来越多人的工作。但是知识的重点在上移。

如何培养这种思维呢?
第一,需要在学习中更多地接触“全栈”的项目。不是说每个人都要会全栈开发,而是说要有从数据获取、模型训练、系统集成、风险控制这样的完整流程体验。在这个过程中,一个人才能理解为什么某些看起来“不那么优雅”的设计反而更安全,为什么某些约束条件看似限制但实际上保护了整个系统。
第二,从“怎么做”,转向“为什么这样做”和“应该做什么”。人类需要培养的不仅是问题求解能力,更重要的是问题定义能力。当AI可以更快地求解大多数明确定义的问题时,定义正确的问题、识别隐藏的假设、发现问题空间中的真正关键点,这才成为人类的核心价值。
这需要一种完全不同的思维训练。不是“给我一个问题,我用什么算法解决”,而是“我面对的问题真的是这样定义的吗?有没有其他的理解角度?我优化的指标是否真的对应了我想要的结果?”
第三,理解知识背后的哲学和原理,因为理解原理比掌握细节更重要。例如,学生不需要把PyTorch的所有API都记住,但需要理解框架设计的哲学。知识会更新,但设计哲学的某些原理是稳定的。又比如,学生没必要完全手工实现一个编译器,但是需要理解编译原理。
可能有人会问,AI在未来,是否会具有决策能力和系统思维这样的战略型技能呢?我们之前的例子中,把AI当做公司的一名员工,而人类是一名技术背景的领导。但如果AI一直发展下去,为什么它不会成为领导,而我们人类沦为员工呢?
我们需要理解一个根本性的概念。任何AI模型的训练,首先要设定一个明确的优化目标。目标确定后,就可以启动模型的训练过程。而模型训练的本质,就是不断调整内部参数,以最优化该目标的过程。
但这里的关键在于:这个优化目标是由人来定义的。有人在给AI设定目标,定义什么是好、什么是坏,哪些指标重要、哪些指标不重要,做出各种取舍和权衡。这些看似是技术问题的决定,实际上包含了人类的判断、人类的审美、人类深层的价值观。而这些,正是人类在智能时代最厚的护城河。
好,今天这本书,我们就聊到这里。

夜雨聆风