AI 术语完全指南:从 LLM 到幻觉,一文读懂常见人工智能词汇

导语：人工智能是一个深奥而复杂的世界。研究人员经常使用行话和术语来解释他们的工作。本文整理了一份常用 AI 术语词汇表，帮助你理解这个快速发展的领域。

人工智能是一个深奥而复杂的世界。在这个领域工作的科学家们经常依赖专业术语和行话来解释他们的研究内容。因此，我们在报道人工智能行业时不得不频繁使用这些技术术语。这就是为什么我们决定整理一份词汇表，收录一些我们在文章中最常使用的最重要词汇和短语的定义。

我们将定期更新这份词汇表，随着研究人员不断发现推动人工智能前沿的新方法并识别新兴的安全风险，我们会添加新的条目。

AGI（通用人工智能）

通用人工智能（Artificial General Intelligence，简称 AGI）是一个模糊的术语。但它通常指的是比普通人类在许多任务上更有能力的人工智能。

OpenAI CEO 山姆·阿尔特曼最近将 AGI 描述为"可以雇佣作为同事的中等水平人类"。与此同时，OpenAI 的章程将 AGI 定义为"在大多数具有经济价值的工作中超越人类的高度自主系统"。Google DeepMind 的理解与这两个定义略有不同；该实验室将 AGI 视为"至少在大多数认知任务上与人类能力相当的人工智能"。如果你对这个概念仍然感到困惑？没关系——人工智能研究前沿的专家们也很困惑，对此也没有绝对的定义。

AI Agent（人工智能代理）

AI Agent 指的是使用人工智能技术替你执行一系列任务的工具——超越了更基础的 AI 聊天机器人所能做的——例如报销费用、预订机票或餐厅座位，甚至编写和维护代码。

然而，正如我们之前解释的那样，在这个新兴领域有很多概念都有不同理解，所以"AI Agent"对不同的人可能意味着不同的事情。基础设施也仍在建设中，以实现其设想的能力。但 AI Agent 的基本概念就是一个一个自主系统，可以利用多个人工智能系统来执行多步骤任务。

Chain of Thought（思维链）

给定一个简单的问题，人类大脑可以不假思索地回答——比如"长颈鹿和猫哪个更高？"但在许多情况下，你经常需要纸和笔来得出正确答案，因为存在中间步骤。

例如，如果一个农民有鸡和牛，它们总共有 40 个头和 120 条腿，你可能需要写下一个简单的方程来得出答案（20 只鸡和 20 头牛）。

在人工智能语境中，大语言模型的思维链推理意味着将问题分解为更小的中间步骤，以提高最终结果的质量。通常需要更长时间才能得到答案，但答案更可能是正确的，尤其是在逻辑或编程语境中。推理模型是从传统大语言模型开发而来，并通过强化学习针对思维链思考进行优化。

Compute（算力）

虽然是一个多义词，不同领域含义不同，但在人工智能领域，算力通常指的是使模型能够运行的关键计算能力。这种处理能力为人工智能行业提供计算能力，使其能够训练和部署强大的模型。

这个术语通常是提供计算能力的硬件的简称——例如 GPU、CPU、TPU 和其他形式的基础设施，它们构成了现代人工智能行业的基石。

Deep Learning（深度学习）

深度学习是自我改进的机器学习的一个子集，其中人工智能算法设计有多层人工神经网络（ANN）结构。这使得它们能够比基于更简单机器学习的系统（如线性模型或决策树）做出更复杂的关联。

深度学习算法的结构灵感来自人脑中相互连接的神经元通路。深度学习模型能够单独识别数据中的重要特征，而不需要人类工程师来定义这些特征。该结构还支持从错误中学习的能力，并通过调整改进自己的输出。

然而，深度学习系统需要大量数据点才能产生良好结果（数百万或更多）。它们通常也比更简单的机器学习算法需要更长时间来训练——因此开发成本往往更高。

Diffusion（扩散模型）

扩散技术是许多艺术、音乐和文本生成人工智能模型的核心技术。扩散系统受物理学启发，通过添加噪声缓慢地"破坏"数据结构——例如照片、歌曲等——直到什么都不剩。

在物理学中，扩散是自发的且不可逆的——咖啡中扩散的糖无法恢复成方糖形式。但人工智能中的扩散系统旨在学习一种"反向扩散"过程来恢复被破坏的数据，获得从噪声中恢复数据的能力。

Distillation（蒸馏）

蒸馏是一种使用"教师 - 学生"模型从大型人工智能模型中提取知识的技术。开发人员向教师模型发送请求并记录输出。答案会与数据集进行比较以查看其准确性。然后这些输出用于训练学生模型，学生模型被训练为近似教师的行为。

蒸馏可用于基于大型模型创建更小、更高效的模型，同时蒸馏损失最小。OpenAI 用此方法开发 GPT-4 Turbo（GPT-4 的更快版本）的。

虽然所有人工智能公司都在内部使用蒸馏，但一些人工智能公司也可能用它来追赶前沿模型。从竞争对手那里蒸馏通常违反人工智能 API 和聊天助手的服务条款。

Fine-tuning（微调）

这指的是对人工智能模型进行进一步训练，通常通过输入新的、专业化的数据，达到执行更具体的任务或领域优化性能的能力。

许多人工智能初创公司以大语言模型为起点构建商业产品，通过用自己的领域特定知识和专业知识微调，力求在自己特定领域更具备实用性。

GAN（生成对抗网络）

GAN（生成对抗网络）是一种机器学习框架，它支撑着生成式人工智能在生成逼真数据方面的发展——包括（但不限于）深度伪造工具。

GAN 涉及使用一对神经网络，其中一个根据其训练数据生成输出并传递给另一个模型进行评估。第二个判别器模型会对生成器的输出进行分类，判别好坏，从而使其能够随时间改进模型。

GAN 结构被设置为一场竞争（因此称为"对抗"）——两个模型本质上被编程为试图超越对方：生成器试图让输出被判别器通过，而判别器致力于识别正确的数据。这种竞争可以优化人工智能输出使其更逼真，而无需额外的人工干预。虽然 GAN 最适合垂直的应用（如生成逼真的照片或视频），而不是通用人工智能。

Hallucination（幻觉）

幻觉是人工智能行业对人工智能模型编造内容的偏好术语——字面意思是生成不正确的信息。显然，这对人工智能质量来说是一个巨大问题。

幻觉会误导模型输出，甚至可能导致现实生活中的风险——可能带来危险后果（想想健康查询返回有害医疗建议的情况）。这就是为什么大多数生成式人工智能工具的免责声明，警告用户需要验证人工智能生成的答案。

人工智能编造信息的问题被认为是由训练数据中的相关内容缺失引起的。对于通用生成式人工智能（有时也称为基础模型）来说，这看起来很难解决。世界上根本没有足够的数据来训练人工智能模型，解决我们人们提出的所有问题。简而言之：我们还没有发明上帝。

幻觉正推动越来越专业化或垂直化的人工智能模型的发展——即需要更垂直的领域特定人工智能——可以减少信息缺失和虚假信息的风险。

Inference（推理）

推理是运行人工智能模型的过程。它是让模型对先前见过的数据进行预测或得出结论。要明确的是，没有训练就不可能发生推理；模型必须从一组数据中学习模式，然后才能有效地从这些训练数据中进行推断。

其实许多硬件都可以执行推理，从智能手机处理器到强大的 GPU 再到定制设计的人工智能加速器TPU。但并非所有硬件都能同样好地运行模型。非常大的模型在笔记本电脑上做出预测会花费很长时间，而在带有高端人工智能芯片的云服务器上则快得多。

Large Language Model / LLM（大语言模型）

大语言模型（LLM）是流行的人工智能助手使用的人工智能模型，例如 ChatGPT、Claude、Google 的 Gemini、Meta 的 AI Llama、DeepSeek、Qwen、GLM、Kimi等。当你与人工智能助手聊天时，你与一个大语言模型交互，该模型直接处理你的请求或借助不同的可用工具（如网页浏览）。

人工智能助手和 LLM 可以有不同的名称。例如，GPT 是 OpenAI 的大语言模型，ChatGPT 是人工智能助手产品。

LLM 是由数十亿数值参数（或权重，见下文）组成的深度神经网络，通过学习单词和短语之间的关系创建语句，类似拼单游戏。

这些模型是通过编码它们在数十亿书籍、文章等等各种资料后，发现的内在关系而创建的。当你提示 LLM 时，模型生成最适合提示的各个单词之间的关系。然后根据之前所说的内容评估最可能的下一个单词。重复，重复，再重复。

Memory Cache（内存缓存）

内存缓存指的是提高推理效率（即人工智能工作生成响应用户查询的过程）的过程。本质上，缓存是一种优化技术，旨在提高推理效率。

人工智有模型的数学计算驱动，每次进行这些计算时都会消耗更多电力。缓存旨在通过保存特定计算中间结果，供用户查询和操作使用，目的是减少模型必须运行的计算次数。

有不同种类的内存缓存，虽然其中一个较知名的是 KV（或键值）缓存。KV 缓存在基于变换器的模型中工作，通过减少生成用户问题答案所需的时间（和算法工作）来提高效率，驱动更快的结果。

Neural Network（神经网络）

神经网络指的是支撑深度学习的多层算法结构——更广泛地说，在大语言模型出现后，整个生成式人工智能工具的根基。

虽然从 20 世纪 40 年代就开始有人提出将人脑密集连接的通路作为数据处理算法设计结构的灵感，但正是图形处理硬件（GPU）是通过视频游戏产业的兴起真正崛起的。

这些芯片被证明非常适合训练算法——使基于神经网络的人工智能系统能够在许多领域实现更好的性能，包括语音识别、自主导航和药物发现。

RAMageddon（内存末日）

RAMageddon 是席卷科技行业的一个不那么有趣趋势的有趣新术语：随机存取存储器或 RAM 芯片的短缺日益加剧，这些芯片为我们日常生活中使用的几乎所有科技产品提供动力。

随着人工智能行业的蓬勃发展，科技公司和人工智能实验室——都试图拥有最强大和最高效的人工智能——正在购买更多的 RAM 为他们的数据中心提供动力，以至于我们其他人剩下的不多了。这种供应瓶颈意味着剩下的东西越来越贵。

这包括游戏行业（主要公司不得不提高游戏机价格，因为更难找到设备的内存芯片）、消费电子（内存短缺可能导致十多年来智能手机出货量最大跌幅）和一般企业计算（因为这些公司无法为自己的数据中心获得足够的 RAM）。

价格飙升只会在短缺结束后才会停止，但不幸的是，目前没有太多迹象表明这种情况很快就会发生。

Training（训练）

开发机器学习人工智能涉及一个称为训练的过程。简单来说，这是指输入数据以便模型可以从模式中学习并生成有用的输出。

在人工智能的这一点上，事情可能会变得有点哲学化——因为在训练之前，用作开发学习系统起点的数据结构只是一堆随机数。只有通过训练，人工智能模型才真正成形。

本质上，这个过程是系统通过提取需要回应的数据特征值，使其能够输出相应的目标——无论是识别猫的图像还是按需创作诗句，都要把信息压缩，提取特征值，然后再输出此特征值最接近的目标。

重要的是要注意，并非所有人工智能都需要训练。基于规则的人工智能被编程为预定义的指令不需要进行训练。然而，此类人工智能系统可能比（训练有素的）自学习系统受到更多限制。

不过，训练很昂贵，因为它需要大量的输入——而且，通常此类模型所需的输入量一直在呈上升趋势。

有时会使用混合方法来缩短模型开发并帮助管理成本。例如对基于规则的人工智能进行数据驱动的微调——这意味着开发需要的数据、算力、能源和算法复杂性比从头开始构建要少。

Tokens（词元）

这个词汇主要存在人机通信方面。人们使用自然语言进行交流，而人工智能程序通过由数据告知的复杂算法，执行任务并响应查询。

在最简单的定义中，词元代表了人机通信的基本构建块，因为它们是由 LLM 处理或生成的离散数据段。

词元是通过称为"分词"的过程创建的，该过程分解原始数据并将其提炼为 LLM 可消化的不同单元。类似于软件编译器如何将人类语言转换为计算机可消化的二进制代码，分词通过用户查询为人工智能程序解释人类语言，以便它可以准备响应。

有几种不同类型的词元——包括输入词元（响应人类用户查询必须生成的那种）、输出词元（LLM 响应人类请求时生成的那种）和推理词元，涉及作为用户请求一部分发生的更长、更密集的任务和过程。

对于人工智能，词元使用量也决定了成本。由于词元等同于模型处理的数据量，它们也成为人工智能行业将其服务货币化的手段。大多数人工智能公司按每个词元收费 LLM 使用量。因此，企业在使用人工智能程序（例如 ChatGPT）时燃烧的词元越多，它就必须向其人工智能服务提供商（如 OpenAI）支付的钱越多。

Transfer Learning（迁移学习）

一种技术，其中先前训练的人工智能模型用作开发不同的新模型的基础——允许在先前训练周期中获得的知识重新应用。

迁移学习可以通过缩短模型开发周期来提升效率。当模型正在开发的数据有限时，它非常有用。但要注意，这种方法有局限性。依赖迁移学习获得通用能力的模型可能需要在额外数据上进行训练才能在其专注领域表现良好。

Weights（权重）

权重对人工智能训练至关重要，因为它们决定在用于训练系统的数据中给予不同特征（或输入变量）多少重要性（或权重）——从而影响模型的输出。

换句话说，权重是数值参数，定义数据集中对给定训练任务最重要的内容。它们通过对输入应用乘法来实现其功能。模型训练通常从随机分配的权重开始，但随着过程展开，权重会调整，因为模型寻求更接近目标的输出。

例如，基于历史房地产数据训练的预测房价的人工智能模型，可能包括卧室和浴室数量、房产是独立式还是半独立式、是否有停车位、车库等特征的权重。

最终，模型附加到每个选项的这些权重，最终反映了基于给定数据集对房产价值的影响程度。