生成式AI到底是什么?微软工程师用21课带你从零入门(第一课)

# 生成式AI到底是什么？微软工程师用21课带你从零入门（第一课）

这是微软开源课程《Generative AI for Beginners》的中文精讲系列，第1篇，对应原课第1-3课：生成式AI是什么、如何选模型、怎么负责任地使用。

先聊聊为什么要学这个

你现在打开手机，随手发一段话给 ChatGPT，它能帮你写代码、改邮件、出方案、做翻译——这事放在五年前根本不敢想。

但你知道它背后是怎么工作的吗？

不少人用了很久 AI 工具，但对它的运作原理一无所知，于是：

不知道怎么写提示词（Prompt）才能得到好结果

不知道为什么 AI 会"一本正经地胡说八道"

不知道什么场景该选哪个模型

更不知道怎么把 AI 能力集成进自己的产品

微软 Cloud Advocates 团队开源了一套完整的课程——Generative AI for Beginners，共 21 课，GitHub 上已经有 70,000+ Star。今天我来把前三课的核心内容，给你讲清楚。

一、生成式 AI 是怎么来的？

生成式 AI（Generative AI） 是一种能够生成文字、图片、代码等内容的人工智能技术。

但它不是一夜之间蹦出来的，而是有几十年的演化历史：

1960s — 规则时代

最早的 AI 是"专家系统"，把人类知识编成规则库，用关键词触发答案。能用，但根本没法扩展。

1990s — 机器学习时代

统计方法出现了。机器开始从数据中学习模式，不需要人手写规则。这是一次质的飞跃。

2010s — 深度学习时代

神经网络崛起，特别是 RNN（循环神经网络），让机器能处理上下文语义。Siri、Alexa 这类助手就是这个时代的产物。

现在 — Transformer + 生成式 AI

2017 年，谷歌发布论文《Attention is All You Need》，提出了 Transformer 架构。它最大的突破是"注意力机制"——模型能同时关注一段文字里所有词的关系，而不是像 RNN 那样一个字一个字地读。

基于这个架构，大语言模型（LLM）诞生了。ChatGPT、GPT-4、Claude、Gemini，都是 Transformer 架构的产物。

AI ⊃ 机器学习 ⊃ 深度学习 ⊃ 生成式AI

二、LLM 内部是怎么工作的？

很多人觉得 AI "很神秘"，其实它的工作原理可以用三步说清楚：

第一步：把文字变成数字（Tokenization）

LLM 本质上是数学模型，不认识文字，只认识数字。

所以你输入的每一段话，都会被"分词器（Tokenizer）"拆成一个个 Token，再映射成数字。

比如 "Hello, world!" 可能被拆成：["Hello", ",", " world", "!"]，每个 Token 对应一个数字 ID。

第二步：预测下一个 Token

模型的核心任务，就是根据已有的 Token 序列，预测下一个最可能的 Token。

这就是为什么你在 ChatGPT 里看到它是"一个字一个字往外蹦"——它每次只预测一个 Token，然后把这个 Token 加到输入里，再预测下一个。

第三步：概率采样 + 温度控制

预测下一个 Token 时，模型会给所有可能的词算一个概率分布，然后从中采样。

这里有个关键参数：Temperature（温度）

温度越低（趋近 0）：输出越确定、稳定，适合写代码、做分析

温度越高（趋近 1 或以上）：输出越随机、有创意，适合写故事、头脑风暴

这也解释了一个现象：同样的问题问两遍，得到的回答可能略有不同——因为模型是概率采样，不是查字典。

三、LLM 能做什么？

原课程以一个"教育类创业公司"为例，列举了 LLM 的典型应用场景：

输入类型	用途举例
指令	总结文章、提取数据、生成报告
问题	类似对话的问答，知识检索
待补全文本	续写、改写、润色
代码	生成代码、解释代码、调试

但有一点要记住：LLM 不是完美的。它会：

幻觉（Hallucination）：自信地说出错误信息

不一致：同一问题不同时间答案可能不同

无法推理：复杂数学、逻辑推理容易出错

这不是缺陷，是这类模型的根本特性。你得把它当"聪明但会犯错的实习生"用，而不是当"权威数据库"用。

四、如何选择合适的 LLM？

市面上模型这么多，怎么选？微软课程给了一个分类框架：

按用途分

用途	推荐模型类型
文字生成/对话	GPT-4o、Claude、Gemini
图像生成	DALL-E 3、Midjourney、Stable Diffusion
语音识别	Whisper
代码生成	GPT-4、Claude 3.5 Sonnet、Codex
多模态（图文混合）	GPT-4o、Gemini 1.5 Pro

按开源/闭源分

开源模型（LLaMA、Mistral、Bloom 等）

✅ 可以本地部署，数据不出门

✅ 可以自定义微调

❌ 需要自备硬件，维护成本高

闭源/商业模型（GPT-4、Claude、Gemini 等）

✅ 开箱即用，性能更优

✅ 有完整的安全机制

❌ 按用量收费，数据交由第三方处理

按架构分

仅解码器（Decoder-only）：GPT 系列。擅长生成，不擅长理解。

仅编码器（Encoder-only）：BERT 系列。擅长理解文本，不擅长生成。

编码器-解码器（Encoder-Decoder）：T5、BART。两头都能干，适合翻译、摘要。

五、负责任地使用 AI（重要！）

这是微软课程第三课的核心，也是最容易被初学者忽视的部分。

微软提出了负责任 AI 的六大原则：

公平性（Fairness）：不对任何群体产生歧视或偏见

包容性（Inclusiveness）：面向所有用户，不排斥边缘群体

可靠性/安全性（Reliability/Safety）：输出结果可信，不产生危害

隐私与安全（Security & Privacy）：保护用户数据

透明性（Transparency）：让用户知道他们在和 AI 交互

问责性（Accountability）：出了问题有人负责

三大风险你必须知道

幻觉（Hallucinations）

AI 会生成听起来很有道理、但实际上完全错误的内容。课程举了个例子：问"泰坦尼克号唯一的幸存者是谁"，AI 给出了一个有名有姓的错误答案，而且说得非常自信。

有害内容

如果不加控制，模型可能生成仇恨言论、暴力指引、违法内容等。

不公平性

模型训练数据的偏见会被放大，可能强化对某些群体的刻板印象。

四层防护策略

微软课程给出了一个"缓解循环"框架，分四层来降低风险：

模型层 → 安全系统层 → 元提示词层 → 用户体验层

模型层：选合适的模型，用微调减少有害输出

安全系统层：启用 Azure AI Content Safety 等内容过滤

元提示词层：通过 System Prompt 限制模型行为边界

用户体验层：在 UI/UX 设计上限制输入类型，明确告知用户 AI 的能力边界

小结

这三课讲完，你应该能回答这几个问题：

✅ 生成式 AI 是从 60 年代一步步演化来的，Transformer 是关键转折点

✅ LLM 通过"分词→预测下一个Token→概率采样"工作，Temperature 控制随机性

✅ 不同场景选不同模型：生成选 GPT/Claude，理解选 BERT，本地部署选开源

✅ AI 会幻觉、会出错，负责任地使用需要从模型、系统、提示词、UX 四个层面防护

下一篇预告

下一篇我们进入Prompt Engineering（提示词工程）——这是普通用户和高手之间差距最大的地方。同样的需求，会写提示词的人能得到完美答案，不会写的只能得到废话。

关注不迷路，下期见。

本文基于微软开源课程《Generative AI for Beginners》第1-3课整理，原课程地址：https://github.com/microsoft/generative-ai-for-beginners