AI 术语通俗词典:GPT

GPT 是自然语言处理、深度学习、Transformer、大语言模型和生成式人工智能中非常重要的一个术语，全称是 Generative Pre-trained Transformer，通常可译为“生成式预训练 Transformer”。它用来描述一种基于 Transformer 架构、通过大规模文本预训练获得语言生成能力的模型。换句话说，GPT 是在回答：模型怎样根据已有文本，继续生成符合上下文的后续内容。

如果说 BERT 更像一个擅长阅读理解的双向编码模型，那么 GPT 更像一个擅长续写、回答、对话和生成内容的语言模型。它会根据前文不断预测下一个 token，再把生成出的 token 接到上下文后面，继续预测下一个 token，直到形成完整回答。

因此，GPT 常用于对话问答、文章写作、摘要生成、翻译、代码生成、信息抽取、智能客服、工具调用、智能体规划和多模态系统中的语言生成部分，是理解现代大语言模型的重要基础概念之一。

一、基本概念：什么是 GPT

GPT 是 Generative Pre-trained Transformer 的缩写。

它包含三个关键词：

• Generative：生成式，表示模型能够生成文本

• Pre-trained：预训练，表示模型先在大规模文本上学习通用语言规律

• Transformer：表示模型基于 Transformer 架构

一个典型 GPT 任务可以是：

输入：请解释什么是机器学习。

输出：机器学习是一种让计算机从数据中学习规律，并用这些规律进行预测或决策的方法。

图 1：什么是 GPT

从通俗角度看：GPT 就是一个根据上下文继续生成文字的模型。

它不是简单从资料库中复制答案，而是根据训练中学到的语言规律、知识关联和当前输入，逐 token 生成输出。

GPT 的基本生成过程可以概括为：

已有上下文 → 预测下一个 token → 加入上下文 → 继续预测 → 形成完整文本

例如：

人工智能 → 正在 → 改变 → 世界

模型每一步都在回答：根据前面已经出现的内容，下一个 token 最可能是什么？

二、为什么需要 GPT

GPT 之所以重要，是因为许多自然语言任务本质上都可以转化为“根据输入生成输出”。

例如：

• 问答：根据问题生成答案

• 写作：根据主题生成文章

• 摘要：根据原文生成简短概括

• 翻译：根据源语言生成目标语言

• 代码：根据需求生成程序

• 对话：根据上下文生成回复

• 推理：根据问题逐步生成分析

在 GPT 出现之前，很多 NLP 任务往往需要分别设计模型或任务结构。

例如：

• 分类任务用分类模型

• 翻译任务用翻译模型

• 摘要任务用摘要模型

• 问答任务用问答模型

GPT 代表的生成式预训练模型，让许多任务都可以用统一的文本生成方式处理：

任务说明 + 输入内容 → 生成结果

从通俗角度看：GPT 的价值在于，它把许多语言任务统一成了“读懂提示词，然后生成合适回答”的问题。

这也是现代大语言模型能够通过提示词完成多种任务的重要原因。

三、GPT 的核心结构：Transformer Decoder

GPT 基于 Transformer 架构，但它主要使用的是 Decoder 部分。

Transformer Decoder 的关键特点是：只能看到当前位置之前的 token，不能提前看到未来 token。这非常适合文本生成。

1、输入 token 序列

一句话会先被切分成 token。

例如：

人工智能正在改变世界

可以被切分为：

人工 / 智能 / 正在 / 改变 / 世界

实际模型中的 token 切分可能更复杂，可能是字、词、子词或符号片段。

2、因果掩码

GPT 在训练和生成时使用因果掩码，使当前位置只能关注前面的 token。

例如，生成第 k 个 token 时，模型只能看到：

t₁, t₂, ..., tₖ₋₁

而不能看到未来的：

tₖ₊₁, tₖ₊₂, ...

可以简化表示为：

其中：

• t₁, t₂, …, tₖ₋₁ 表示已有 token

• t_k 表示当前要预测的 token

• p 表示模型预测概率

从通俗角度看：GPT 像写文章时从左往右写，不能先偷看后面的答案。

3、逐层更新表示

GPT 由多层 Transformer Decoder 堆叠而成。每一层都会根据已有上下文更新 token 表示。

可以简化为：

其中：

• H⁽ˡ⁻¹⁾ 表示上一层隐藏表示

• H⁽ˡ⁾ 表示第 l 层输出表示

经过多层处理后，模型会得到当前位置的上下文表示，并预测下一个 token。

四、自回归生成：GPT 的关键思想

GPT 的核心生成方式是自回归生成。

图 2：GPT 的自回归生成过程

自回归生成指模型每次生成一个 token，并把这个 token 作为后续生成的上下文。

可以表示为：

其中：

• t₁, t₂, …, t_n 表示完整 token 序列

• p(t_k | t₁, …, tₖ₋₁) 表示根据前文预测第 k 个 token 的概率

• ∏ 表示连乘

从通俗角度看：一句话不是一次性生成出来的，而是一个 token 一个 token 接出来的。

例如：

输入：机器学习是一种

模型可能依次生成：

让 → 计算机 → 从 → 数据 → 中 → 学习 → 规律 → 的 → 方法

每生成一步，上下文都会变长。

这使 GPT 能够生成连贯文本，但也带来一个问题：前面生成错了，后面可能继续沿着错误方向生成。

因此，GPT 的输出质量不仅取决于模型能力，也取决于提示词、上下文、解码策略和外部工具。

五、GPT 如何预训练

GPT 的预训练目标通常是预测下一个 token。

训练数据来自大量文本。

模型看到一段文本前缀，学习预测后续 token。

例如：

人工智能正在

模型需要预测：

改变

可以写为：

其中：

• θ 表示模型参数

• t_k 表示第 k 个 token

• p_θ 表示模型在参数 θ 下给出的概率

• log 表示对数概率

这个目标的意思是：让模型尽量提高真实下一个 token 的预测概率。

从通俗角度看：GPT 的预训练像做“文本续写练习”。

模型反复练习：看到前文，猜下一个 token。

经过大量文本训练后，模型学会了：

• 词语搭配

• 语法结构

• 事实关联

• 文体风格

• 问答模式

• 代码模式

• 推理表达方式

这就是 GPT 能够进行多种语言任务的基础。

六、从 GPT 到指令模型

原始 GPT 主要学会“续写文本”。但现代用户通常希望模型“按照指令完成任务”。

例如，用户输入：

请用三点解释什么是过拟合。

用户并不是希望模型随便续写，而是希望模型理解任务并按要求回答。

因此，GPT 类模型通常还会经过进一步训练和对齐。

1、指令微调

指令微调使用大量“指令—回答”样本训练模型。

例如：

指令：请解释什么是梯度下降。回答：梯度下降是一种……

它让模型从“会续写”变成“会按任务作答”。

可以概括为：

• 预训练：学习语言规律

• 指令微调：学习执行任务

2、偏好对齐

偏好对齐让模型更倾向于生成更有帮助、更清晰、更安全的回答。

常见方法包括：

• RLHF

• DPO

• RLAIF

这些方法通常使用“更好回答”和“较差回答”的比较数据。

3、安全训练与系统约束

实际应用中的 GPT 类模型还需要遵守安全边界。

例如：

• 不编造来源

• 遇到高风险问题要谨慎

• 遇到危险请求要拒绝

• 不泄露隐私

• 按指定格式回答

从通俗角度看：

• 预训练让 GPT 会说话

• 指令微调让 GPT 会办事

• 模型对齐让 GPT 更可靠、更安全、更符合人类期望

七、GPT 与 BERT 的区别

GPT 和 BERT 都基于 Transformer，但设计目标不同。

图 3：BERT 与 GPT 的区别

1、BERT：双向理解

BERT 使用 Transformer Encoder，可以同时看左侧和右侧上下文。

它适合理解类任务，例如：

• 文本分类

• 情感分析

• 命名实体识别

• 阅读理解

• 句子匹配

可以概括为：BERT 看完整输入，理解文本。

2、GPT：单向生成

GPT 使用 Transformer Decoder，通过因果掩码从左到右预测下一个 token。

它适合生成类任务，例如：

• 对话

• 写作

• 摘要

• 翻译

• 代码生成

• 开放式问答

可以概括为：GPT 根据前文，继续生成。

3、核心区别

• BERT：更像阅读理解模型

• GPT：更像文本生成模型

更具体地说：

• BERT 的核心是双向编码

• GPT 的核心是自回归生成

• BERT 常用于编码与判别

• GPT 常用于生成与对话

从通俗角度看：

• BERT 擅长“读懂一段话”

• GPT 擅长“接着写一段话”

八、GPT、LLM 与 ChatGPT 的关系

GPT、LLM 和 ChatGPT 经常被混用，但它们不是完全同一个概念。

1、GPT 是一种模型路线

GPT 指生成式预训练 Transformer 这一类模型思想。

它强调：

预训练 + Transformer Decoder + 自回归生成

2、LLM 是更大的类别

LLM 是 Large Language Model，即大语言模型。

GPT 类模型是 LLM 的重要代表，但 LLM 并不一定都叫 GPT。

可以概括为：GPT 是 LLM 的一种典型路线。

3、ChatGPT 是对话型应用

ChatGPT 是基于 GPT 类模型能力构建的对话式 AI 应用。

它不仅包含基础模型，还包括：

• 对话界面

• 指令遵循

• 安全策略

• 工具调用

• 记忆或上下文管理

• 多模态能力

• 系统提示与产品规则

从通俗角度看：GPT 更偏模型技术概念，LLM 是模型类别。ChatGPT 是面向用户的对话产品形态。

九、GPT 的优势、局限与常见误解

1、GPT 的主要优势

GPT 最大的优势是强大的生成能力和任务统一能力。

它可以：

• 自然对话

• 生成文章

• 总结文本

• 翻译语言

• 编写代码

• 解释概念

• 处理复杂提示词

• 执行多步骤任务

• 调用工具完成外部操作

从通俗角度看：GPT 让许多任务都可以通过自然语言接口来完成。

2、GPT 的主要局限

GPT 也有局限。

首先，GPT 可能产生幻觉。

它生成的是概率上合理的文本，不等于每个事实都经过核验。

其次，GPT 对上下文依赖很强。

如果提示词不清楚、材料不完整或上下文太长，模型可能误解任务。

再次，GPT 的知识可能受训练数据限制。

对于最新信息、实时数据、企业内部资料，应结合检索或工具。

此外，GPT 不一定擅长所有精确任务。

例如复杂数学计算、严格事实核验、法律判断、医疗诊断等高风险任务，需要工具、来源和人工审核配合。

3、常见误解

误解一：GPT = 搜索引擎

不对。GPT 是生成模型，不是天然的实时搜索系统。

误解二：GPT 输出流畅，就一定正确

不对。流畅只说明语言生成自然，不代表事实可靠。

误解三：GPT 会生成文字，所以等于真正理解世界

不准确。GPT 学到的是语言和知识模式，是否具备真实世界理解要结合任务、数据和外部环境判断。

误解四：GPT 只会聊天

不对。GPT 类模型可以用于写作、编程、总结、分析、问答、工具调用和智能体系统。

十、Python 示例

下面给出几个简化示例，帮助理解 GPT 的基本思想。

示例 1：逐 token 生成的直观过程

tokens = ["人工智能", "正在"]next_token_map = {    "人工智能 正在": "改变",    "人工智能 正在 改变": "世界",    "人工智能 正在 改变 世界": "。"}for _ inrange(3):    context = " ".join(tokens)    next_token = next_token_map.get(context)    if next_token is None:        break    tokens.append(next_token)print("生成结果：", "".join(tokens))

这个例子展示了 GPT 生成文本的直观过程：

已有上下文 → 预测下一个 token → 加入上下文 → 继续生成

真实 GPT 不是查字典，而是通过神经网络输出概率分布。

示例 2：下一个 token 概率分布

import torchimport torch.nn.functional as F# 待预测的 token 列表tokens = ["改变", "发展", "影响", "推动"]# 模型输出的原始分数（logits）logits = torch.tensor([3.0, 2.0, 1.0, 0.5])# 应用 softmax 将 logits 转换为概率分布probs = F.softmax(logits, dim=-1)# 输出每个 token 对应的概率for token, prob in zip(tokens, probs):    print(token, float(prob))

这个例子说明：GPT 生成时通常会得到候选 token 的概率分布。

模型可以选择概率最高的 token，也可以按采样策略生成更多样的结果。

示例 3：贪心解码

import torch# token 列表tokens = ["改变", "发展", "影响", "推动"]# 模型输出的概率分布probs = torch.tensor([0.60, 0.25, 0.10, 0.05])# 贪婪采样：选择概率最大的 token 索引selected_index = torch.argmax(probs).item()print("选择 token：", tokens[selected_index])

贪心解码每次选择概率最高的 token。它通常更稳定，但可能缺少变化。

示例 4：采样生成

import torch# token 列表tokens = ["改变", "发展", "影响", "推动"]# 模型输出的概率分布probs = torch.tensor([0.60, 0.25, 0.10, 0.05])# 按概率分布随机采样一个 token 的索引（不放回）sampled_index = torch.multinomial(    probs,    num_samples=1   # 采样 1 个).item()print("采样 token：", tokens[sampled_index])

采样生成会按照概率随机选择 token。它可以增加多样性，但也可能带来不稳定。

示例 5：提示词影响输出

prompts = [    "解释什么是机器学习。",    "请面向小学生解释什么是机器学习。",    "请用教材风格解释什么是机器学习，并举一个例子。"]for prompt in prompts:    print("提示词：", prompt)

这个例子说明：同一个模型在不同提示词下，可能生成不同风格、深度和结构的回答。

GPT 的实际使用效果，很大程度上取决于提示词、上下文和任务约束。

📘 小结

GPT 是生成式预训练 Transformer，核心思想是根据已有上下文预测下一个 token，并通过自回归方式逐步生成文本。它基于 Transformer Decoder，适合对话、写作、摘要、翻译、代码生成和开放式问答等生成任务。对初学者而言，可以把 GPT 理解为：一个先通过大量文本学会语言规律，再根据提示词逐步生成回答的预训练语言模型。

“点赞有美意，赞赏是鼓励”