# 生成式AI到底是什么?微软工程师用21课带你从零入门(第一课)
这是微软开源课程《Generative AI for Beginners》的中文精讲系列,第1篇,对应原课第1-3课:生成式AI是什么、如何选模型、怎么负责任地使用。
先聊聊为什么要学这个
你现在打开手机,随手发一段话给 ChatGPT,它能帮你写代码、改邮件、出方案、做翻译——这事放在五年前根本不敢想。
但你知道它背后是怎么工作的吗?
不少人用了很久 AI 工具,但对它的运作原理一无所知,于是:
不知道怎么写提示词(Prompt)才能得到好结果
不知道为什么 AI 会"一本正经地胡说八道"
不知道什么场景该选哪个模型
更不知道怎么把 AI 能力集成进自己的产品
微软 Cloud Advocates 团队开源了一套完整的课程——Generative AI for Beginners,共 21 课,GitHub 上已经有 70,000+ Star。今天我来把前三课的核心内容,给你讲清楚。
一、生成式 AI 是怎么来的?
生成式 AI(Generative AI) 是一种能够生成文字、图片、代码等内容的人工智能技术。但它不是一夜之间蹦出来的,而是有几十年的演化历史:
1960s — 规则时代最早的 AI 是"专家系统",把人类知识编成规则库,用关键词触发答案。能用,但根本没法扩展。
1990s — 机器学习时代统计方法出现了。机器开始从数据中学习模式,不需要人手写规则。这是一次质的飞跃。
2010s — 深度学习时代神经网络崛起,特别是 RNN(循环神经网络),让机器能处理上下文语义。Siri、Alexa 这类助手就是这个时代的产物。
现在 — Transformer + 生成式 AI2017 年,谷歌发布论文《Attention is All You Need》,提出了 Transformer 架构。它最大的突破是"注意力机制"——模型能同时关注一段文字里所有词的关系,而不是像 RNN 那样一个字一个字地读。
基于这个架构,大语言模型(LLM)诞生了。ChatGPT、GPT-4、Claude、Gemini,都是 Transformer 架构的产物。
`AI ⊃ 机器学习 ⊃ 深度学习 ⊃ 生成式AI
`二、LLM 内部是怎么工作的?
很多人觉得 AI "很神秘",其实它的工作原理可以用三步说清楚:
第一步:把文字变成数字(Tokenization)
LLM 本质上是数学模型,不认识文字,只认识数字。
所以你输入的每一段话,都会被"分词器(Tokenizer)"拆成一个个 Token,再映射成数字。
比如 "Hello, world!" 可能被拆成:["Hello", ",", " world", "!"],每个 Token 对应一个数字 ID。
第二步:预测下一个 Token
模型的核心任务,就是根据已有的 Token 序列,预测下一个最可能的 Token。
这就是为什么你在 ChatGPT 里看到它是"一个字一个字往外蹦"——它每次只预测一个 Token,然后把这个 Token 加到输入里,再预测下一个。
第三步:概率采样 + 温度控制
预测下一个 Token 时,模型会给所有可能的词算一个概率分布,然后从中采样。
这里有个关键参数:Temperature(温度)
温度越低(趋近 0):输出越确定、稳定,适合写代码、做分析
温度越高(趋近 1 或以上):输出越随机、有创意,适合写故事、头脑风暴
三、LLM 能做什么?
原课程以一个"教育类创业公司"为例,列举了 LLM 的典型应用场景:
| 指令 | |
| 问题 | |
| 待补全文本 | |
| 代码 |
但有一点要记住:LLM 不是完美的。它会:
- 幻觉(Hallucination):自信地说出错误信息
- 不一致:同一问题不同时间答案可能不同
- 无法推理:复杂数学、逻辑推理容易出错
这不是缺陷,是这类模型的根本特性。你得把它当"聪明但会犯错的实习生"用,而不是当"权威数据库"用。
四、如何选择合适的 LLM?
市面上模型这么多,怎么选?微软课程给了一个分类框架:
按用途分
按开源/闭源分
开源模型(LLaMA、Mistral、Bloom 等)✅ 可以本地部署,数据不出门
✅ 可以自定义微调
❌ 需要自备硬件,维护成本高
✅ 开箱即用,性能更优
✅ 有完整的安全机制
❌ 按用量收费,数据交由第三方处理
按架构分
- 仅解码器(Decoder-only):GPT 系列。擅长生成,不擅长理解。
- 仅编码器(Encoder-only):BERT 系列。擅长理解文本,不擅长生成。
- 编码器-解码器(Encoder-Decoder):T5、BART。两头都能干,适合翻译、摘要。
五、负责任地使用 AI(重要!)
这是微软课程第三课的核心,也是最容易被初学者忽视的部分。
微软提出了负责任 AI 的六大原则:
- 公平性(Fairness):不对任何群体产生歧视或偏见
- 包容性(Inclusiveness):面向所有用户,不排斥边缘群体
- 可靠性/安全性(Reliability/Safety):输出结果可信,不产生危害
- 隐私与安全(Security & Privacy):保护用户数据
- 透明性(Transparency):让用户知道他们在和 AI 交互
- 问责性(Accountability):出了问题有人负责
三大风险你必须知道
幻觉(Hallucinations)AI 会生成听起来很有道理、但实际上完全错误的内容。课程举了个例子:问"泰坦尼克号唯一的幸存者是谁",AI 给出了一个有名有姓的错误答案,而且说得非常自信。
有害内容如果不加控制,模型可能生成仇恨言论、暴力指引、违法内容等。
不公平性模型训练数据的偏见会被放大,可能强化对某些群体的刻板印象。
四层防护策略
微软课程给出了一个"缓解循环"框架,分四层来降低风险:
`模型层 → 安全系统层 → 元提示词层 → 用户体验层
`- 模型层:选合适的模型,用微调减少有害输出
- 安全系统层:启用 Azure AI Content Safety 等内容过滤
- 元提示词层:通过 System Prompt 限制模型行为边界
- 用户体验层:在 UI/UX 设计上限制输入类型,明确告知用户 AI 的能力边界
小结
这三课讲完,你应该能回答这几个问题:
✅ 生成式 AI 是从 60 年代一步步演化来的,Transformer 是关键转折点
✅ LLM 通过"分词→预测下一个Token→概率采样"工作,Temperature 控制随机性
✅ 不同场景选不同模型:生成选 GPT/Claude,理解选 BERT,本地部署选开源
✅ AI 会幻觉、会出错,负责任地使用需要从模型、系统、提示词、UX 四个层面防护
下一篇预告
下一篇我们进入Prompt Engineering(提示词工程)——这是普通用户和高手之间差距最大的地方。同样的需求,会写提示词的人能得到完美答案,不会写的只能得到废话。
关注不迷路,下期见。本文基于微软开源课程《Generative AI for Beginners》第1-3课整理,原课程地址:https://github.com/microsoft/generative-ai-for-beginners
夜雨聆风