读懂AI:150个绕不开的技术概念(1)入门认知坐标

我们是被AI追着跑的普通人，身处其中三分好奇、六分焦虑，还有一分无处安放的茫然。

作者｜权个人

图片｜ChatGPT

被AI追着跑的人

我们可能是历史上第一批被一项技术（AI）追着跑的普通人。过去三年多我已经数不清自己听过多少个新词了——大模型、Agent、RAG、MCP、Token、Harness...它们像潮水一样涌过来，今天刚搞懂的概念，明天就被另一个更新的覆盖。

深处其中心里大有一种说不清的感觉，一半是好奇，一半是焦虑，还有一小撮无处安放的茫然，担心被这个发展太快的时代丢下。

我想用普通人能听得懂的大白话话把150个AI技术概念梳理一遍，欣赏AI这道瑰丽的风景。

1.人工智能

人工智能(Artificial Intelligence,AI)是过去 70 年里人类不断尝试"让机器具备类似人的思考、感知与决策能力"的所有努力的统称。

可以说它不仅是一项具体技术,还是一个野心。这个野心随着2022年11月ChatGPT时刻的到来变得前所未有的清晰与现实。

回头看，这个野心在不同年代有完全不同的实现路径。符号主义时代靠人手写规则(给机器列出"猫有四条腿、毛茸茸、会喵喵叫"这样的规则)。机器学习时代靠统计与概率(让机器从数据中找规律)。

深度学习时代靠神经网络(让机器自己学会哪些特征值得关注)。今天的大模型时代,则靠 Transformer 与海量算力,让机器拥有了类似"通识"的能力。

每一波浪潮的内核都跟前一波几乎不同,被淘汰的不是"AI"这个目标,而是"上一种实现 AI 的方法"。

举个例子：人类教机器下棋的70年

符号主义阶段(1950-1980s):人类工程师把所有棋类规则、开局定式、残局技巧一条条写进程序。机器照着执行,赢了业余棋手,但靠的是"人脑借机器之手"。
机器学习阶段(1990s):机器开始自己分析人类棋谱,从几十万局对局中找规律。1997 年 IBM 深蓝击败国际象棋冠军卡斯帕罗夫,但它仍然依赖人类喂给它的棋谱与评估函数。
深度学习阶段(2010s):AlphaGo 不再靠人类棋谱,自己跟自己下了几千万局,走出了人类两千年都没想过的招法，这一刻,机器第一次"反过来教人类下棋"。
大模型阶段(2020s 至今):今天我们已经不再为"机器会下棋"震惊。人们关心的是,一个不为下棋而生的通用大模型,顺手就能讲解残局、点评棋手、撰写棋评。

有意思的是:"Artificial Intelligence，AI"这个词本身就是 1956 年达特茅斯会议上,为了拉到资金、特意起的"性感名字"。可见会讲故事一直是一项稀缺的能力。

AI也一直背负着"被高估—失望—重启"的行业周期律。但在今天我深刻感受到了不同，今天的AI让普通人拿到了一张改变工作与生活的船票。

2.机器学习

机器学习(Machine Learning,ML)就是不再靠人写规则、而是让机器从数据中自己找规律的方法。它是现代 AI 真正的起点。

在机器学习出现之前,程序员的工作是把规则一条一条写清楚,机器照着执行。比如想让程序识别一只猫,你得告诉它"猫有四条腿、有胡须、瞳孔是竖的、会喵喵叫"。然后你要尽可能的穷尽任何特殊情况。否则遇到一只断了腿的猫、或一只闭着嘴不叫的猫,程序就崩了。

机器学习颠覆了这个范式,你不再写规则,你只负责喂数据:告诉机器"这一万张图片是猫,这一万张图片不是",剩下的让它自己琢磨。

机器学习真正的革命,不是"机器变聪明了",而是程序员第一次可以用"喂数据"代替"敲代码"——从此凡是规则太复杂、写不完的任务(图像识别、语音转文字、推荐内容、机器翻译),通通可以"丢给数据自己学"。

早期的机器学习并不是真正"端到端"的全自动——你虽然不用写规则,但仍然得手动告诉机器"该看哪些特征"。

比如做信用卡反欺诈,工程师得先从原始交易记录里提取出"交易金额、地点、时间间隔、商户类型"这几列,做成一张特征表格,再喂给模型。这道工序叫特征工程,一个项目 80% 的时间都花在这上面。直到深度学习出现,这道隐形门槛才被彻底取消。

3.深度学习

深度学习(Deep Learning,DL)是机器学习的一个分支。它的特点是用层数很深的神经网络让机器找规律。"深"不是指"难",而是指层级抽象:一层处理一层的特征,从原始信号一直加工到最终判断。

承接我们之前提到的机器学习的概念:传统机器学习虽然不用人手写规则,但还得人手挑特征。这道叫"特征工程"的工序既费时,又依赖专家经验,还经常成为模型上限的瓶颈。

深度学习把这一步彻底干掉了:你只管把原始数据扔进去(整张图、整段录音、整篇文本),模型自己会一层层抽象出有用的特征。从此机器学习变成了真正"端到端"的过程——人类只管给数据,中间所有工序由机器自己长出来。

举个例子：图像识别的流水线

第1层(浅层)：接到原始像素,只做最简单的事——识别边缘、颜色、亮暗。
第2-3层(中间层)：把这些"零件"拼成更复杂的部件——这是眼睛、那是耳朵、这条是猫胡须。
第 4-5 层(中深层)：部件组合成局部——这是猫脸、这是猫身。
最后一层：整合所有信息,给出判断——这是一只猫。
整条流水线没有一道工序是人手动设计的,每个工位都是模型在训练中自己长出来的。

这正是深度学习颠覆性的地方:它不只是"机器学习的升级版",它是特征工程时代的终结。从图像到语音,从文字到蛋白质结构,凡是过去要靠专家经验提炼特征的领域,深度学习一来几乎全线碾压。

行业里有句话:"过去十年 AI 的进步,本质上是'更深的网络 + 更多的数据 + 更强的算力'三件事在反复发酵。"换句话说,深度学习的胜利不是数学上的胜利,而是工程上的胜利。

4.神经网络

神经网络(Neural Network)是一种模仿"神经元相互连接、加权传递信号"这种结构而设计的数学模型——它是几乎所有现代 AI 系统的底层骨架。

它的基本单元叫神经元:接收一堆数字作为输入,按各自的"权重"加权求和,总和超过某个阈值就"激活"(把信号传给下一层),否则保持沉默。

一个神经网络,就是成千上万这样的神经元按层堆叠、互相连接组成的庞大计算结构。

所谓"训练",就是反复调整这些权重。一开始随机乱来、错得离谱,经过千万次纠错,最终形成一组"权重组合",能让整个网络做出正确判断。

举个例子：一场超大规模的接力投票

输入层(一线工人)：每个神经元只看到原始信号的一小块——这个像素、那个字符,单独看毫无意义。
隐藏层(各级中层)：每一层把前一层的"投票结果"再次加权综合,把零散信号逐步汇总成"有意义的判断"。
输出层(最终决策)：整个组织投出最后一票——"这是一只猫"或"这不是"。
训练的过程,就是这家公司反复犯错、一点点学会"该多听谁的、该少听谁的"。

"神经网络"这个名字其实是个浪漫的误导。1950 年代的研究者起这个名字,是为了致敬大脑神经元的灵感,但今天我们用的神经网络,跟生物大脑的实际工作机制相差甚远。

它真正像的不是"大脑",而是一群拿着加权计算器的小学生在猜答案、猜错了就调整手里权重。这个名字带来了几十年的浪漫想象,也带来了几十年的过度承诺,直到今天,仍有不少人误以为"AI 学会的是大脑思考的方式"——其实并不是。

5.监督学习

监督学习（Supervised Learning）是一种让机器"照着标准答案学"的训练方式。你喂给它大量带有正确答案的数据，它通过反复对照练习，学会从输入推断出对应的输出。

在监督学习中，训练数据是核心。每条数据都包含两部分：输入（比如一张照片）和标签（比如"这是一只猫"）。模型的任务就是找到输入和标签之间的规律，下次遇到没见过的新数据，也能给出正确判断。

举个例子：刷题备考的学生

老师（标注好的数据）：准备一摞带标准答案的练习题。
学生（模型）：一开始错得多，但每做一题就对照答案纠正思路，慢慢摸清出题套路。
考试（实际应用）：上考场遇到新题，也能凭刷题积累的规律答得八九不离十。

需要说明的一点是，监督学习的天花板其实就是数据标注的天花板。业内有句老话叫"有多少人工，就有多少智能"——模型再聪明，也跳不出标注员给它划定的圈子。这也是为什么近几年AI圈一直在想办法"摆脱标注依赖"，而下面要讲的几种学习方式，就是不同的解题思路。

6.无监督学习

如果说监督学习是"照着答案学"，那无监督学习（Unsupervised Learning）就是"没有答案，自己悟"。你只给模型一堆原始数据，不告诉它任何标签，让它自己从数据里找出隐藏的规律和结构。

无监督学习最典型的任务是聚类——把相似的东西自动归为一类。模型并不知道每一类"叫什么"，但它能发现"这些东西彼此很像，那些东西明显不一样"。

举个例子：图书管理员整理旧书

图书管理员（模型）：面对一仓库没有分类标签的旧书。
整理过程：他翻看每本书的封面、厚度、用纸、字体，把看起来"气质相近"的书摆到一起。
结果：最终堆出了几摞书——他不知道这几摞分别叫"小说""教材""画册"，但他确实把同类的归到了一起。

无监督学习的价值，在于它能从数据里挖出连人类都没意识到的模式。电商平台给你打的"用户画像"、银行风控里的"异常交易识别"，背后很多都是它在干活。它的局限也很明显：模型找出来的"规律"未必是你想要的规律，结果好不好，很多时候得靠人工再去解读。

7.强化学习

监督学习靠答案，无监督学习靠悟性，而强化学习（Reinforcement Learning）靠的是试错。模型在一个环境里不断尝试各种行动，做对了给奖励，做错了给惩罚，慢慢学会怎么做能拿到最多的奖励。

它跟前两者最大的区别是：没有现成的数据集。模型的"学习材料"是自己一次次行动产生的反馈，边做边学，越做越好。

举个例子：训练小狗坐下

主人（环境）：手里拿着零食，发出"坐下"的指令。
小狗（模型）：一开始不懂指令，乱跑乱跳，偶尔屁股着地了一下。
奖励反馈：屁股一着地，主人立刻给零食；其他动作没有奖励。久而久之，小狗就学会了一听到"坐下"就乖乖坐下——因为它发现这么做最划算。

强化学习是这两年大模型圈最火的训练范式之一。你听过的RLHF（基于人类反馈的强化学习），就是用它来让ChatGPT这类模型学会"说人话、说让人喜欢的话"。可以说，监督学习决定了模型的下限，而强化学习决定了模型的上限。

8.AI三要素

决定一个 AI 模型上限的从来不是某个单一的天才设计,而是三件东西在共同作用——算法、算力、数据。这三者缺一不可,且彼此咬合得非常紧。

算法是方法论:用什么样的数学结构去学规律(卷积神经网络、Transformer、扩散模型等)。

算力是发动机:训练一次大模型,需要数千乃至数万张 GPU 同时运行数周。无论海外还是国内，每家模型训练过程还是优先考虑使用英伟达。国产卡还是侧重在推理端发展。

数据是燃料:模型再聪明,也只能学会它"看过"的东西，而且数据越脏、越偏、越少,模型就越蠢、越偏、越脆弱。

举个例子：一家米其林后厨

菜谱(算法)：告诉厨师怎么处理食材、火候怎么掌控。同样的牛排,顶级菜谱做出米其林,普通菜谱做出家常。
厨房与火候(算力)：菜谱再精妙,只有一个家用煤气灶,也炒不出米其林水准，专业后厨需要恒温烤箱、急火灶、低温慢煮机一整套设备。
食材(数据)：前两者都到位,如果食材不新鲜、不丰富，做出来的菜也不可能美味。

现在大家最关注算力(因为它最贵、最看得见，动辄几十亿美金的 GPU 集群)。技术圈最关注算法(因为它有论文、有英雄叙事),但真正决定一个模型上限的,往往是最不性感的那个——数据。

OpenAI 早期最重要的工作不是写代码,而是清洗、筛选、标注 GPT 训练所用的整个互联网级文本数据集。圈里有句老话:"Garbage in, garbage out"(垃圾数据进,垃圾模型出)。

2025年6月，Meta以143亿美元收购Scale AI 49%股权，并将Alexandr Wang招入公司，任命为首席AI官（Chief AI Officer），统管Meta所有AI研发。Scale AI就是一家专门做AI数据标注的公司。

9.AGI

AGI（Artificial General Intelligence，通用人工智能）指的是一种像人一样会"举一反三"的AI。它不局限于某个特定任务，而是能在各种各样的领域里学习、思考、解决问题，达到甚至超越人类的水平。

要理解AGI，得先看它的对立面——专用人工智能（也叫"弱AI"）。之前我们熟悉的绝大多数AI都属于这一类：AlphaGo只会下围棋，让它去开车它不会；人脸识别系统只会认人脸，让它写诗它也不会。而AGI的目标，是造出一个什么都能学、什么都能干的"通才"。

举个例子：专科医生 vs 全科天才

专科医生（专用AI）：在自己的科室里是顶尖高手，眼科医生看眼睛比谁都准，但你让他做心脏手术就很懵。
全科天才（AGI）：不仅能看病，还能写代码、教数学、谈判、创业。遇到从没见过的领域，他能快速自学上手，几天就达到专业水平。
关键差别：专科医生的能力是"训练出来的"，AGI的能力是"长出来的"——它有一种可以迁移到任何领域的通用智能。

现在AGI目前还没有公认的定义和衡量标准。OpenAI说GPT-5距离AGI更近了一步，DeepMind有自己的五级AGI路线图，也有学者认为现在的大模型路线根本走不到AGI。

它更像是行业里一个"心照不宣的远方"——所有人都朝那个方向跑，但没人能准确说出终点线在哪。而这恰恰是它最迷人也最危险的地方：当你不知道终点在哪时，你也不知道自己什么时候会突然抵达。

下个篇章我们通过11个AI概念聊聊——模型如何从一张白纸变聪明的。