当前位置：首页>文档>沪科教信息技术选修4高清教材_4-教培资料-26年最新资料-同步更新_初中高中教资_03科三专项（进去保存报考的学科即可）_02科三专项（笔记真题思维导图教学设计版本二）
沪科教信息技术选修4高清教材_4-教培资料-26年最新资料-同步更新_初中高中教资_03科三专项（进去保存报考的学科即可）_02科三专项（笔记真题思维导图教学设计版本二）

2026-07-31 11:37:44
文档预览

沪科教信息技术选修4高清教材_4-教培资料-26年最新资料-同步更新_初中高中教资_03科三专项（进去保存报考的学科即可）_02科三专项（笔记真题思维导图教学设计版本二）
文档信息

文档格式
pdf
文档大小
9.874 MB
文档页数
134 页
上传时间
2026-02-08 12:24:17
下载文档
文档内容

                            PUTONG GAOZHONG JIAOKESHU 普 普通高中教科书
通
XINXIJISHU
高
中
教 信信息息技技术术
科
书
信信
息息
选择性必修 4
技技
术术
人工智能初步
选
择
性
必
ISBN 978-7-5428-7413-9
修
4
ISBN 978-7-5428-7413-9 人
9 787542 874139>
工
智
能
初
9 787542 874139> 步
普通高中教科书
信息技术 选择性必修4
人工智能初步
上海科技教育出版社有限公司出版发行
普通高中教科书
（上海市闵行区号景路 弄 座 楼 邮政编码 ）
信息技术 选择性必修4 159 A 8 201101
湖南省新华书店经销 湖南长沙鸿发印务实业有限公司印刷
人工智能初步
开本 印张
上海科技教育出版社有限公司出版发行 8I9SB0N×192748-07-514/2186-7413-9 8.25
年 月第 版 年 月第 次印刷
（上海市闵行区号景路 弄 座 楼 邮政编码 ） 2021 1 1 2021 12 3 上
159 A 8 201101 海
湖南省新华书店经销 湖南长沙鸿发印务实业有限公司印刷 ISBN978-7-5428-7413-9/G·4351 科
定价： 元
开本 印张 10.37 技
890×1240 1/16 8.25 批准文号：湘发改价费〔 〕 号 举报电话： 教
年 月第 版 年 月第 次印刷 9 7875240217873441339> 12315
2021 1 1 2021 12 3 育
出
ISBN978-7-5428-7413-9/G·4351
定价： 元 此书如有印、装质量问题，请向印厂调换 版
10.37 社 上海科技教育出版社
批准文号：湘发改价费〔 〕 号 举报电话： 印厂地址：长沙黄花印刷工业园三号 电话：
2017 343 12315 0731-82755298
此书如有印、装质量问题，请向印厂调换
印厂地址：长沙黄花印刷工业园三号 电话：
0731-82755298
普通高中教科书
信息技术 选择性必修4
人工智能初步
上海科技教育出版社有限公司出版发行
（上海市柳州路 号 邮政编码 ）
218 200235
湖南省新华书店经销 湖南长沙鸿发印务实业有限公司印刷
开本 印张
890×1240 1/16 8.25
年 月第 版 年 月第 次印刷
2021 1 1 2021 1 1
ISBN978-7-5428-7413-9/G·4351
定价： 元
10.37
批准文号：湘发改价费〔 〕 号 举报电话：
2017 343 12358
此书如有印、装质量问题，请向印厂调换
印厂地址：长沙黄花印刷工业园三号 电话：
0731-82755298普通高中教科书
信息技术
选择性必修 4
人工智能初步
上海科技教育出版社编写人员名单
主 编： 郑 骏
分册主编： 杨小康
主要编写人员（以姓氏笔画为序）：
宋 利 倪冰冰 徐 奕
翟广涛
欢迎广大师生来电来函指出教材的差错和不足，提出宝贵意见。
上海科技教育出版社地址： 上海市闵行区号景路 弄 座 楼
159 A 8
邮政编码：
201101
联系电话：
021-64702058
邮件地址：
office@sste.com写给学生的话
亲爱的同学：
不知你是否留意，近年来生活中涌现了许多与科技相关的新名
词：无人驾驶、刷脸支付、城市大脑、阿尔法狗、聊天机器人、智
能语音助手、机器学习、深度学习、人工神经网络……其实，这些
名词都与你将要学习的人工智能相关，它们有的指人工智能的应用，
有的指人工智能的产品，有的指人工智能的算法。
在《人工智能初步》的学习中，我们将为你揭开人工智能的神
秘面纱，带你一起走进人工智能的世界。你将探索人工智能的起源
和发展历程，思考未来的发展之路；你将了解当前人工智能系统背
后的原理，领略其中蕴含的基本思想和方法；你将尝试开发简单的
人工智能系统，体验人工智能开发的基本过程与方法。
为了让你在学习《人工智能初步》的过程中获得更大的成功，
请浏览本书的栏目介绍。
单元引言、学习目标和单元挑战
从生活经验出发引入本单元将要学习的内容，提出本单元学习
要达成的学习目标，预告学习完本单元后要接受的单元挑战。
项目引言和项目学习目标
描述项目产生的背景和意义，介绍项目学习的主要内容，并提
出一些具体问题，引导你带着问题探究。
项目学习指引
通过剖析真实的项目实施过程，帮助你了解学科思想方法，理
解相关概念，掌握具体技能。
核心概念和小贴士
解释一些重要概念和术语，或提示相关知识和技术，帮助你抓住重点，扫除认知障碍。
?
?
思考与讨论
提出若干问题引导你对技术背后的原理以及人、信息技术与社
会的关系等进行思考和讨论。
数字化学习
引导你利用网络、数字化工具和数字资源进行学习。
活 动
提出活动任务，并引导你运用所学知识，使用信息技术工具进
行探究、总结和展示。
知识链接
系统整理和归纳本项目的知识要点，方便你学习。
拓展阅读
补充更丰富的阅读材料，开阔你的视野。
单元挑战
布置面向真实情境的项目任务，希望你综合运用本单元所学的
知识与技能去解决问题。
单元小结
用思维导图可视化呈现本单元的知识脉络，提供基于学科核心
素养的评价表，为你的学习表现进行自我评价。
在学习过程中，希望你勤实践体验、多思考讨论，借助各种数
字化工具、资源进行学习与创新，不仅要理解和掌握具体的信息技
术知识与技能，还要把握用信息技术解决问题的思想方法，并思考
将信息技术应用于社会时所引发的各种挑战，以开放、包容的心态
与信息技术、信息社会一起进步。
编 者目 录
第一单元 走进人工智能的世界........................................................................................
1
项目一 初识人工智能——了解人工智能的发展历史与现状..........................................
2
通过实例感受人工智能............................................................................................
1. 3
回顾人工智能的发展历程........................................................................................
2. 5
了解当前人工智能技术应用状况............................................................................
3. 9
知识链接............................................................................................................
10
项目二 探秘智能车——认识人工智能系统...............................................................
12
了解人工智能系统的基本技术要素................................................................
1. 13
分析智能车的机构组成..................................................................................
2. 16
明确人工智能的特征......................................................................................
3. 20
知识链接............................................................................................................
21
单元挑战 探究服务机器人........................................................................................
23
单元小结.....................................................................................................................
24
第二单元 理解人工智能技术的思想与方法.................................................................
25
项目三 让智能车能够“刷脸”开车门——探究图像识别与理解..............................
26
了解图像识别与人脸识别技术.......................................................................
1. 27
获取、表示人脸特征......................................................................................
2. 29
解析人脸识别原理..........................................................................................
3. 33
评价人脸识别性能..........................................................................................
4. 37
知识链接............................................................................................................
38
项目四 让智能车与用户对话——探究语音交互技术................................................
42
认识语音交互.................................................................................................
1. 43
让机器理解语音..............................................................................................
2. 45
用算法实现语音识别......................................................................................
3. 47
应用语音交互技术..........................................................................................
4. 48
知识链接............................................................................................................
50
项目五 让智能车自动规划路径——探究智能决策与搜索算法.................................
52
用人工智能实现路径规划...............................................................................
1. 53
预测交通流量.................................................................................................
2. 54
根据路况进行智能决策..................................................................................
3. 56
搜索最佳路线.................................................................................................
4. 59知识链接............................................................................................................
63
项目六 让智能车识别道路障碍物——认识人工神经网络与深度学习......................
66
初识人工神经网络..........................................................................................
1. 67
了解深度学习及其基本操作...........................................................................
2. 70
探索深度学习的最新发展...............................................................................
3. 73
知识链接............................................................................................................
77
项目七 在车展中实现“车以类聚”——探究无监督学习与聚类算法......................
82
认识无监督学习与聚类算法...........................................................................
1. 83
剖析 均值聚类算法....................................................................................
2. k- 84
知识链接............................................................................................................
90
单元挑战 用 算法及深度学习给图像分类........................................................
SVM 92
单元小结.....................................................................................................................
93
第三单元 开发简单人工智能系统..................................................................................
95
项目八 搭建可“刷脸”启动的循迹智能车——设计简单的人工智能系统...............
96
进行总体设计，确定基本开发方案................................................................
1. 97
设计人脸识别启动系统..................................................................................
2. 98
设计智能车循迹系统.....................................................................................
3. 100
测试智能车....................................................................................................
4. 105
知识链接...........................................................................................................
106
单元挑战 设计智能车避障系统...............................................................................
109
单元小结....................................................................................................................
110
第四单元 推动人工智能健康发展.................................................................................
111
项目九 认识人工智能的巨大价值和潜在威胁——辩证看待人工智能.....................
112
了解人工智能技术的应用现状......................................................................
1. 113
直面人工智能的安全、伦理问题...................................................................
2. 115
展望人工智能的未来.....................................................................................
3. 119
知识链接...........................................................................................................
121
单元挑战 设计无人驾驶时代的交通准则................................................................
123
单元小结....................................................................................................................
124
附录 部分名词术语中英文对照.........................................................................................
125第一单元
走进人工智能的世界
2016 年，AlphaGo( 一款下围棋的人工智能程序 )
的横空出世掀起了人工智能的新一轮热潮，人工智能再
一次成为社会各界关注的焦点。这距离 1956 年人工智
能概念首次提出已经有 60 年了。人工智能的发展由于受
到智能算法、任务相关数据以及机器计算能力等因素影
响，历经了多次起伏。直到 2006 年，以深度学习为代
表的智能算法在计算机视觉和自然语言处理等领域取得
了重大突破，同时，大数据、云计算等技术为人工智能
的发展提供了丰富的数据资源与计算资源，人工智能才
开始全面爆发，在众多应用领域都取得了极大的成功。
在本单元中，我们将走进人工智能的世界，了解人
工智能的发展历史、重要事件及其在现实世界中的应用。
同时，我们将通过剖析典型的人工智能系统，认识人工
智能的要素以及智能系统的组成。
单元挑战
学习目标
探究服务机器人
◆ 能描述人工智能的概念与基本特征。
◆ 知道人工智能的历史、典型应用与发展趋势。项目一
初识人工智能
——了解人工智能的发展历史与现状
棋类运动一直被看作人类的高智商游戏，围棋更被视为人类最
后的智慧堡垒。然而在过去短短 年内，人类在各种棋类运动中
20
相继被人工智能击败。 年，“深蓝”超级计算机战胜了当时排
1997
名世界第一的国际象棋大师卡斯帕罗夫。 年， 位中国象棋特
2006 5
级大师与超级计算机“浪潮天梭”展开对决，最终败给了计算机。
年， 以 比 的比分战胜了韩国围棋棋手李世石；仅
2016 AlphaGo 4 1
仅过了一年，升级版的 又以 比 击败了当时排名世界第
AlphaGo 3 0
一的中国围棋棋手柯洁（图 ）。
1-1
的成就再度点燃了人们对人工智能的热情。放眼望去，
AlphaGo
在现实世界中，智能视频监控、自动对话机器人、自动装配机器人、
无人机等各种人工智能系统已经广泛应用于生产和管理的多个领
域。这也在告诉我们，人工智能的春天到来了！
图1-1 柯洁与AlphaGo对弈
项目学习目标
在本项目中，我们将了解什么是人工智能，回顾人工智能的发
展历史，探索当前人工智能技术的应用状况。
完成本项目学习，须能回答以下问题
：
．什么是人工智能？
1
．人工智能学科是怎样诞生的？
2
．人工智能的发展经历了哪些阶段？
3
．人工智能发展各阶段的特征是什么？
4第一单元 走进人工智能的世界
项目学习指引
学会制造与使用工具，是人类发展历程上的重要突破。
让机器具备“人类的智能”，是人类自古以来追求的梦想。
从中国古代的“偃师人偶”的传说，到希腊神话中的机械人
和人造人，无不体现人类对于制造出智能机器的渴望。现代
意义上的人工智能，始于哲学家与数学家用机械符号处理的
观点解释人类思考过程的尝试。 年的达特茅斯会议，标
1956
志着现代人工智能作为一门学科的诞生。
通过实例感受人工智能
1.
人工智能是当前非常热门的研究领域。经过几十年的发 核心概念
展，目前人工智能的研究涵盖了从感知、学习、决策等通用
人 工 智 能（
Artificial
方法到自动驾驶、人脸识别、医疗辅助诊断等专门领域。那么，
，简称 ）是一
Intelligence AI
什么是人工智能呢？ 门前沿交叉学科，对其定义
（ ）从自动驾驶系统看环境感知 一直存有不同的观点。一般
1
认为，它是利用计算机或者
汽车司机要想做到安全熟练的驾驶，不仅仅要准确识别
计算机控制的机器，模拟、
道路上的各种标识与符号，更重要的是在行驶过程中，对周
延伸和扩展人的智能，感知
围的行人和车辆等动态物体的行为进行预判，据此进行决策。
环境、获取知识并使用知识
这种预判能力在人流密集的道路上尤为重要。人类驾驶员在
获得最佳结果的理论、方法、
行车过程中会对行人的移动轨迹进行预判，以保持一个安全 技术及应用系统。
距离。以此类比，一个自动驾驶系统若想要代替人类驾驶员，
不仅需要识别出静态的交通标识与物体，对周边行驶环境进
行准确的感知，还要对时刻变化的路况进行预判。
环境感知，是自动驾驶汽车认路的关键组成部分。自动
驾驶系统中用于环境感知的部件有许多种类，如视频摄像机、
激光测距仪、车载雷达、速度传感器等多种车载传感器。自
动驾驶系统依靠这些传感器收集周围的路面环境信息，供决
策系统进行分析，进而作出相应的路径规划，如图 所示。
1-2
图1-2 某自动驾驶汽车利用车载传感器“看”到的环境
3人工智能初步
?
?
思考与讨论
各种车载传感器是自动驾驶汽车感知外部环
境的关键。这些传感器分别采集哪些类型的信息？
环境感知不仅是自动驾驶系统的关键组成部分，还是无
人机、对话机器人等人工智能系统中的重要部分。人工智能
系统要体现出“智能”，必须先感知周围的情况，这样才能
进一步作出相应的决策。比如智能翻译系统只有先采集并感
知语音信息，才能进行后续的翻译处理。
（ ）从答题机器人看智能决策
2
在各类电视节目中，一些答题类的综艺节目往往会吸引
大量的参赛者与观众。在现实中，人工智能系统也曾作为参
赛者参与过这类综艺节目。 年，一款答题机器人——
2011
沃森系统（ ）参与了答题类综艺节目《危险边缘》，
Watson
并击败人类冠军选手，如图 所示。节目中，沃森的抢
1-3
答速度始终快于人类选手，对于绝大多数问题均可以给出正
确答案，展现了它的决策速度与决策能力。
环境感知是一个智能系统拥有“视觉”“听觉”“触觉”
等知觉能力的基础，而智能决策部分则可看作是一个智能系
图1-3 沃森系统参与 统能够进行深度思考的核心。沃森系统拥有这样强大的智能
答题类综艺节目 决策能力：对于用双关语提出的甚至对很多观众而言都很费
解的问题，它依然能作出分析和推理，并在巨大的自然语言
数据库中寻找线索，然后将这些线索合成答案，最后用自然
语音进行回答。
?
?
思考与讨论
你认为智能答题系统需要哪些关键部分来完
成“听到题目—作出判断—回答问题”的过程？
（ ）认识人工智能和人工智能系统
3
人工智能一般定义为研究和开发用于模拟、延伸和扩展
人的智能的理论、方法、技术及应用系统的一门技术科学。
在现实生活中，人们总是主动或被动地感受周围的环境
并作出相应的反应。例如看到一只猫，大多数人会下意识地
觉得可爱，产生想去抚摸的愿望；又如听到有人叫唤自己的
4第一单元 走进人工智能的世界
名字，便会情不自禁地转头去寻找声音来源。与此对应，可
把人工智能系统看成是一个能够进行环境感知，并根据采集
到的信息作出决策以达到特定目标的机器系统。自动驾驶系
统和沃森系统就是这样的人工智能系统，它们能够感知外界
信息，并根据信息作出决策，从而实现自动驾驶和自动答题。
．回顾人工智能的发展历程
2
（ ）人工智能的诞生（ 年）
1 1956
人工智能在正式诞生之前，经历了漫长的孕育期，这甚
至可以追溯到 世纪莱布尼茨发明的二进制表示规则。到
17
世纪 年代，一些研究人员已经开始探索如何让机器具
20 40
有智能。
年，阿兰·图灵（ ）提出著名的图灵测 参见 知识链接“图
P10
1950 Alan Turing
灵测试”
试（ ）：如果一台机器能够与人类展开交互
The Turing Test
而不被辨别出其机器身份，那么就称这台机器具有智能。图
灵测试被认为是检测一台机器是否具有智能的重要标准。
年，马文·明斯基（ ）等人搭建了第
1951 Marvin Minsky
一个神经网络模拟器—— （随机神经网络模拟加固计
SNARC
算器），它使用 个真空管来模拟 个神经元（ ）
3000 40 neuron 小贴士
的活动。虽然当时还没有“人工智能”这个概念，但这项开
达特茅斯学院研讨会的
创性工作为后来的人工智能发展奠定了深远的基础。
提案声明：
年夏天，约翰·麦卡锡（ ）、马文·明
1956 John McCarthy 我们提议 年夏天
1956
斯基、克劳德·香农（ ）与内森尼尔·罗切
在新罕布什尔州汉诺威镇的
Claude Shannon
斯特（ ）等多位科学家在美国达特茅斯学 达特茅斯学院开展一次由
Nathaniel Rochester 10
院里组织了一个为期两个月的研讨会，研究让机器来模拟智 个人组成的为期两个月的人
工智能研究。这项研究基于
能的可能性。在会上，麦卡锡首次提出“人工智能”的概念，
这样的推测：原则上可精确
这被认为是人工智能正式诞生的标志。参会的赫伯特·西蒙
地描述学习对象的每个方面
（ ）和艾伦·纽厄尔（ ）展示了他
或智能体的任何特征，从而
Herbert Simon Allen Newell
们编写的推理程序——“逻辑理论家”（ ），
能够建造一台机器来模拟它。
Logic Theorist
该程序因可以证明《数学原理》中的多个定理而受到了高度 该研究将尝试发现如何使机
关注。正是这些与会人员的深入讨论与集思广益，使得人工 器使用语言，形成抽象与概
念，求解多种现在注定由人
智能成为一门独立的学科。因此， 年被视为人工智能元
1956 来求解的问题，提升自我（机
年。随后，人工智能的发展经历了一段曲折的过程，如图
1-4 器）。我们认为：如果仔细
所示。
选择一组科学家对这些问题
（ ）第一个黄金期（ — 年） 一起研究一个夏天，那么对
2 1957 1974
人工智能概念的诞生让人们看到了使机器具有智能的可 其中的一个或多个问题就能
取得意义重大的进展。
能性。研究人员开始以极大的热情开展人工智能相关领域的
5人工智能初步
图1-4 人工智能发展历程
研究。很快，人工智能就迎来了第一个发展高峰期。这一时
核心概念
期的人工智能研究认为只要赋予机器一定的逻辑推理能力就
机器学习是一种让机器
可以实现机器智能。 年，纽厄尔和西蒙在“逻辑理论
从数据或者行动中学习以获 1957
家”的基础上发明了“通用问题求解器”（
得预测或判断能力的方法。
general problem
），它通过模仿人类求解问题的逻辑来解决问题。 年，
solver 1959
赫伯特·格伦特（ ）建造了一个几何定理证
Herbert Gelernter
明器，能够自动证明一些数学专业学生都感到棘手的定理。
小贴士 除了让机器具有逻辑推理能力的研究外，许多研究人员
尝试通过其他方法实现机器智能。比如， 年，康奈尔
20世纪70年代后期，
1957
我国数学家吴文俊提出用计 大学的弗兰克·罗森布拉特（ ）完成第一个
Frank Rosenblatt
算机证明几何定理的“吴方 神经网络模型——感知机，实现了识别（或分类）输入信号
法”，开创了现代数学史上
中的简单图案。 年，阿瑟·萨缪尔（ ）提
第一个由中国人原创的研究 1959 Arthur Samuel
出了“机器学习”（ ， ），并将机器学
领域——数学机械化，实现 Machine Learning ML
习定义为让计算机不需显式编程也可以自动学习的领域。
了将繁琐的数学运算证明交
由计算机来完成的目标，使 年， 的约瑟夫·魏泽鲍姆（ ）展
1966 MIT Joseph Weizenbaum
得机器在相关问题上具有了 示了早期最知名的人机对话程序—— ，它可以模拟心理
Eliza
与人类相似甚至比普通人更 医生与人类展开简单的对话。
强的推理能力。
虽然这段时期涌现了许多的相关成果，一些简单的推理
6第一单元 走进人工智能的世界
任务也可以通过机器智能程序自动完成，但在稍显复杂的问
题上，人工智能一直无法取得进展。主要原因在于当时的计
算机计算性能不足，受限的内存容量和处理速度导致计算机
程序无法解决复杂问题。由于数据的严重缺失，计算机程序
无法从数据中学习到足够的知识。因此，研究进展逐渐减慢，
当初许多科学家的预期迟迟无法实现，人们开始对人工智能
感到失望。许多机构停止了对人工智能研究的资助，人工智
能进入了一段艰难的低谷期。
参见 知识链接“人
（ ）第二个黄金期（ — 年）
P11
3 1980 1987 工智能主要流派”
随着研究的推进，人们逐渐意识到，仅仅使机器具有推
理能力是实现不了人工智能的。要想真正使机器具有智能，
一个重要前提是要让机器具有知识。正是在这种思想的指导
下，专家系统诞生了。它是人工智能三个主要研究流派中的
小贴士
符号主义流派的代表性系统。
第一个实用的专家系统是 年发布的 ，用 专家系统（ ，
1969 DENDRAL Expert System
）是一类具有某个领域内
以帮助化学家推断物质的分子结构。进入 世纪 年代后，
ES
20 80 专家水平的知识与经验的智
专家系统快速发展，使得人们对人工智能的热情再度高涨，
能计算机程序系统。专家系
人工智能迎来了第二个黄金期。当时著名的专家系统之一是
统根据领域内一个或多个专
由卡内基梅隆大学在 年为 公司设计的 系统，
家提供的知识和经验，模拟
1980 DEC XCON
它可以根据用户的需求自动组合配件，为用户组装计算机。 人类专家的决策过程进行推
该专家系统为 公司显著地节省了开支。 理判断。简而言之，专家系
DEC
统是一种模拟人类专家解决
与此同时，在连接主义研究流派中，神经网络方面的研
其领域内相关问题的计算机
究进展也让人们重新看到了人工智能的潜力。 年提出的
1957 程序系统。
感知机，结构过于简单，能力非常有限。 年，加州理工
1982
学院的约翰·霍普菲尔德（ ）提出一种新的神经
John Hopfield
网络，可以用来解决多种模式识别问题，神经网络研究界因 小贴士
此振奋。由于不知道如何有效调整中间层的网络结构参数，
神经网络（ ，
早期的神经网络往往比较简单。 年，戴维·鲁梅尔哈特 Neural Network
）指人工神经网络，是模
1986
NN
（ ）、杰弗里·辛顿（ ）和罗纳德·威 仿活体生物体系统神经元网
David Rumelhart Geoffrey Hinton
廉姆斯（ ）利用反向传播（ ， 络的模型，用来模拟人类大
Ronald Williams Back Propagation
脑神经系统的结构和功能。
）算法，较好地解决了大规模神经网络的训练问题。
BP 这是人工智能中一个重
然而，到 世纪 年代初，个人计算机出现了，因其
20 80 要的研究领域。
价格远远低于专家系统等人工智能系统，且通用性远超专家
系统，人们对人工智能系统的热情开始下降。专家系统需要
人工定义规则，这项工作不但费时费力，而且在语音识别、
图像识别等自然输入的应用场合中难以实施。专家系统很多
功能很容易被个人计算机的通用软件所替代。 世纪 年
20 80
7人工智能初步
代末期，因美国国防高级研究计划局（ ）的人工智
DARPA
能计算机没能达到研究目标，美国政府开始缩减对人工智能
方向的投入，将资助转向了其他更容易出成果的项目。人工
智能进入第二个低谷期，大量的人工智能公司倒闭。
（ ）第三个黄金期（ 年至今）
4 1993
年开始，人工智能研究逐渐走出“寒冬”。这一时期，
1993
研究人员逐渐建立起人工智能的严格数学基础，人工智能转
变成一门严格的科学分支。人工智能的研究领域不断扩大，
形成了专家系统、机器学习、计算机视觉、自然语言理解等
方向。人工智能研究逐渐到达一个稳定的阶段，研究重点由
教给机器某领域内的特定知识变为让机器自动学习知识。
作为一种让机器自动学习知识的重要方式，机器学习从
人工智能诞生起就一直是研究的重点。机器学习的基本思想
是让机器从数据或者行动中学习，获得进行预测或判断的
能力。从数据中学习，指利用算法从大量的训练数据中学习
知识，并通过学习不断优化程序的性能，然后用经训练而优
化过的程序对真实世界中的待测试数据作出判决。典型的算
法包括决策树、聚类、贝叶斯分类、神经网络等。从行动中
学习，指智能体在跟环境的交互过程中，根据回报情况来学
习一套指导行动的策略。这样的机器学习方式称为强化学习
（ ）。小孩学走路、学下棋的过程是典
reinforcement learning
型的强化学习， 系统超越人类的围棋博弈能力也主
AlphaGo
要是通过强化学习训练出来的。
小贴士
年，杰弗里·辛顿等人提出深度学习方法，使得人
2006
深度学习（ ， 工智能研究取得突破性进展。神经网络的隐藏层越多，学习
Deep Learning
）是一系列算法的统称。
能力越强，但计算的复杂度也急剧增加。先前的神经网络一
DL
深度学习算法通过组合多层
般只有一到两层隐藏层，辛顿等人提出逐层预训练以及降维
的神经网络，来模拟人脑在
的方法，减少了对人类先验知识的依赖，使得神经网络学习
处理数据时由底层到高层的
知识的能力显著提升，引发了研究深度学习的浪潮。深度学
抽象过程。
与传统神经网络等相关 习在人工智能的诸多领域取得巨大成功。以车牌检测为例，
方法相比，深度学习的网络 运用深度学习可以实现自动学习矩形的车牌形状、突出的数
层数更多、网络规模更大、
字 字母、不同的底色、车牌规定的尺寸等特征，性能显著
学习能力更强。深度学习是 /
优于基于人工特征的方法。
机器学习的重要分支。
年，得益于人工智能 三要素［先进的深度学
2012 ABC
习算法（ ）、海量的数据（ ）以及强大的计
Algorithm Big data
算能力（ ）］的发展，人工智能开始突飞猛
Computing power
进。 年，深度学习在图像识别和语音识别领域取得突破，
2013
8第一单元 走进人工智能的世界
标志着人工智能实现了感知智能。
年， 横空出世，它借助深度学习及先进搜
2016 AlphaGo
索算法的强大威力，横扫围棋界，攻克棋类运动中人类最后
的智慧堡垒。人工智能领域中又一次掀起了新的浪潮。
．了解当前人工智能技术应用状况
3
自深度学习出现后，人工智能开始渗透到生产生活的方
方面面，赋予各行各业新的能量。它降低了生产成本，加快
了产品与技术的迭代速度，提高了经济效益和社会效益。在
我国，人工智能在众多行业和领域中得到广泛应用，图
1-5
呈现的是 年 个行业中 个领域的人工智能技术应
2018 13 61
用商业化程度及技术应用深度的情况。
图1-5 人工智能在各领域的应用情况（摘自亿欧智库《2018中国人工智能商业落地研究报告》）
9人工智能初步
人工智能已成为国家的重要发展战略。 — 年，
2016 2017
我国政府陆续发布了《“互联网 ”人工智能三年行动实施
+
方案》《新一代人工智能发展规划》《促进新一代人工智能
产业发展三年行动计划（ — 年）》等政策文件，
2018 2020
促进人工智能技术的发展，培育人工智能新兴产业，鼓励人
工智能化创新创业，带动我国产业升级和经济转型。我国政
府还确定了百度“自动驾驶”、阿里云“城市大脑”、腾讯
“医疗影像”、科大讯飞“智能语音”四个首批国家新一代
人工智能开放创新平台，期望它们在汇聚创新资源、促进众
创共享方面发挥更大的作用。
活 动
在人工智能发展历程图中选择其中的一段
1.1
时期，查找相关资料，串讲人工智能在该时期内的
发展历程。要求：阐明这段时期的人工智能发展的
特征；介绍该段时期内发生的代表性事件以及这些
事件背后的原理技术。
知识链接
图灵测试
图灵测试是由阿兰·图灵在 年发表的著
1950
名论文《计算机器与智能》中提出的用于判断“机
被测试者
器是否具有智能”的方法。
简单来说，图灵测试是这样的过程：被测试
者［包括一台被测试的机器（图 中的 ）和
1-6 A
一个人（图 中的 ）］与测试人员（图
测试人员
1-6 B 1-6
中的 ）隔离，然后测试人员通过一些装置向被
C
测试者随意提问。如果测试人员在问完全部问题
图1-6 图灵测试图解
后不能判断被测试者中哪个是机器哪个是人，那
么这台机器（ ）就通过了测试，被认为具有智能。
A
10第一单元 走进人工智能的世界
人工智能主要流派
在人工智能的研究发展期间，不同学科或学科背景的学者对人工智能提出了各自的理
解及不同的观点，由此产生了不同的学术流派。其中，对人工智能研究影响较大的主要有
符号主义、连接主义和行为主义三大流派。
（ ）符号主义，又称逻辑主义、心理学派或计算机学派，其核心思想是使用符号、
1
规则和逻辑来表达知识并进行推理，代表成果是专家系统。
（ ）连接主义，又称仿生学派或生理学派，其核心思想是利用神经网络之间的连接
2
机制模拟智能。深度神经网络是其典型代表。
（ ）行为主义，又称进化主义或控制论学派，它是一种基于“感知—行动”的行为
3
智能模拟方法。行为主义认为人工智能源于控制论，推崇控制及感知系统，主要成就是智
能控制和智能机器人系统。
拓展阅读
吴文俊与数学机械化
吴文俊（ 年 月 日— 年 月 日，图 ），浙
1919 5 12 2017 5 7 1-7
江嘉兴人，出生于上海。 年毕业于上海交通大学， 年获得
1940 1949
法国斯特拉斯堡大学博士学位。我国著名数学家、人工智能专家。
吴文俊的研究工作涉及数学的诸多领域，其主要成就表现在拓
扑学和数学机械化两个领域。他为拓扑学做了奠基性的工作，他的
示性类和示嵌类研究被国际数学界称为“吴公式”“吴示性类”“吴
图1-7 吴文俊
示嵌类”，至今仍被国际同行广泛引用。
世纪 年代后期，在计算机技术大发展的背景下，他继承和发展了中国古代数学的传
20 70
统（即算法化思想），开始研究几何定理的机器证明，彻底改变了该领域的面貌。他的研究是
国际自动推理界先驱性的工作，被称为“吴特征列方法”，产生了巨大影响。
他在拓扑学、自动推理、机器证明、代数几何、中国数学史、对策论等研究领域均有杰出
的贡献，在国内外享有盛誉。他的“吴方法”在国际机器证明领域产生了巨大的影响，有广泛
而重要的应用价值。当前国际流行的主要符号计算软件都实现了吴文俊的算法。
——摘自科学技术文献出版社《信念 创新 奉献——国家最高科学
技术奖获奖者风采》
11项目二
探秘智能车
——认识人工智能系统
由于智能算法的突破、数据量的增加、计算能力的提升，服务
机器人、智能医疗辅助系统、智能视频监控系统、智能新闻与广告
编辑、智能客服、扫地机器人、智能车、无人机等众多人工智能系
统已经走进人类的生产和生活。
近年来，智能车（图 ）已经成为世界车辆工程领域研究的
1-8
热点和汽车工业增长的新动力，很多国家都将其纳入到各自重点发
展的智能交通系统中。所谓“智能车”，就是在普通车辆的基础上
增加了先进的传感器（如车载雷达、摄像头）、车载计算机等装置，
使车辆具备智能的车内外态势感知能力，能够自动分析车内外状态，
并使车辆按照人的意愿自动行驶到目的地，最终实现替代人来操作
的目的。
图1-8 某品牌智能车
项目学习目标
在本项目中，我们将剖析智能车这个典型的人工智能系统，探
究人工智能系统的基本技术要素以及人工智能系统的主要组成机
构，归纳人工智能的基本特征。
完成本项目学习，须能回答以下问题
：
．人工智能系统的基本技术要素有哪些？
1
．人工智能系统的主要组成机构有哪些？
2
人工智能系统的主要组成机构之间有怎样的联系？
3.
．人工智能的基本特征有哪些？
4第一单元 走进人工智能
项目学习指引
每一个人工智能系统都由基本的技术要素和机构组成，
智能车作为一个人工智能系统同样如此。它离不开算法、数
据与计算能力等基本技术要素的支撑，也不能缺少感知、决
策与执行等组成机构的支持与配合。只有这些基本技术要素
与组成机构相辅相成，紧密结合，智能车才能稳定地工作，
展现它的智慧和能力。
活 动
以小组为单位，收集我国大学生智能车竞赛
2.1
的相关资料，了解大赛的规则，观看历届大赛视频，
对智能车设计形成初步印象。
了解人工智能系统的基本技术要素
1.
人工智能目前取得的巨大成就和最新突破离不开以深度
学习为代表的先进智能算法、大数据时代带来的海量数据以
及以并行计算、云计算为代表的强大计算能力的支持。其中，
算法、数据以及计算能力被认为是一个典型的人工智能系统
的基本技术要素。
（ ）人工智能系统中的典型智能算法
1
智能算法已经渗透到我们日常生活的方方面面。监控系
统中的人脸识别，智能手机上的自动语音识别，网上购物时
的商品推荐，音乐软件中的歌单推荐，其背后都是一系列智
能算法。
对人工智能而言，智能算法通常包含两个部分，第一是
指从海量数据中学习相关知识的方法，第二是用学习到的知
识解决实际应用问题的方法。
在人工智能概念提出后，涌现了大批的智能算法，比如
决策算法、聚类算法、分类算法、搜索算法、人工神经网络
以及深度学习算法等。在众多的智能算法中，掀起最近一次
人工智能浪潮并且让人工智能产生广泛落地应用的算法是深
度学习算法。
常用的深度学习算法包括卷积神经网络（
Convolutional
13人工智能初步
活 动
针对不同的人工智能技术（可自行扩充），分组搜索其所涉及的智能算法，
2.2
并且根据理解列举该技术可能的应用领域，记录于表 中。
1-1
表1-1 智能算法的应用领域
技术 算法 应用领域
例：朴素贝叶斯，支持 例：新闻分类，垃圾邮件分类，搜索
文本分类
向量机，决策树 引擎
图像识别
语音处理
行为识别
， ）、 循 环 神 经 网 络（
Neural Networks CNN Recurrent Neural
， ）等。深度学习算法在图像识别、自然语言处
Networks RNN
理等领域取得了极大的成功，比如，采用深度学习算法的人
脸识别系统的准确率已经可以超过人类自身的识别准确率。
（ ）数据在人工智能系统中的作用
2
数据是人工智能得以成长的“养分”。人工智能提出后，
前期的发展一直比较缓慢，其中一个原因是缺乏足够的数据
供算法进行学习，导致算法对实际问题的适应能力一直不强，
难以满足人们对人工智能的期待。例如 世纪 年代提出
20 80
的神经网络，早期由于训练数据的缺乏，研究人员只能训练
小规模的神经网络，无法付诸实用。进入 世纪后，有了
21
大量的数据可供大规模的多层神经网络训练时使用，从而使
神经网络巨大的能力得以彰显。
直至进入 世纪，由于互联网、物联网、数码相机、
21
智能手机等技术和设备的普及，人类开始进入大数据时代，
全球数据出现爆炸式增长。研究人员终于可以获得大量的数
据来训练复杂的智能算法，使其从海量的数据中学习丰富的
知识。比如，在 系统的学习过程中，核心训练数据
AlphaGo
是来自互联网的 万例棋谱。
3000
14第一单元 走进人工智能的世界
（ ）人工智能需要的计算能力 小贴士
3
限制人工智能早期发展的另一个原因是当时计算机的计
：
算能力不足以支撑算法获得足够的智能去解决实际问题。随 CPU Central Processing
，中央处理器
Unit
着芯片技术的进步，计算机 计算能力显著提升，特别 ：
CPU GPU Graphics Processing
是 在深度学习上的大规模使用，使得人工智能突飞猛 ，图形处理器
GPU Unit
：
进。深度学习中的神经网络在训练时涉及大量可以并行处理
FPGA Field Programmable
，现场可编程门阵列
的矩阵运算，而 专门设计的架构拥有成千上万的内核， Gate Array
GPU ：
非常适合多核并行的计算模式，显著加速了深度学习的计算 ASIC Application Specific
，专用集成电路
Integrated Circuit
效率。 、 、 、 等不同类型的芯片的综合
CPU GPU FPGA ASIC
集成，进一步提升了计算能力，具有代表性的是我国自行研
制的“神威 · 太湖之光”（图 ）和“天河二号”超级计
1-9
算机系统。
由此看到，计算能力的大幅提升使得人工智能的先进算
参见 知识链接“超
P21
法能够得以实现，相关大数据能够得以处理。 级计算机”
?
?
思考与讨论
“神威·太湖之光”超级计算机系统的计算
能力怎样？它可以应用于哪些领域？
（ ）以智能车为例剖析三个基本技术要素
4
作为一个典型的人工智能系统，智能车的实现离不开人
工智能的算法、巨量的数据和强大的计算能力。
首先看算法。智能车中智能功能的实现需要人工智能算
法的支持。比如，要实现“刷脸”上车的功能，必须使用人
脸识别算法；要让智能车能够根据采集到的数据理解当前的 图1-9 “神威·太湖之光”
路况，必须使用图像识别、物体识别等计算机视觉算法；要 超级计算机系统
为当前车辆规划出一条最佳行驶路径，必须使用决策算法。
参见 知识链接“与
在未来的智慧城市中，人工智能还能统筹分析各个路口的交 P21
智能车相关的人工智
通状况，为车辆动态地规划最佳路线，在保证顺畅行驶的同
能算法”
时，最大化地发挥道路的运载能力。
其次看数据。智能车在行驶时需要收集巨量的数据，一
小贴士
般每秒钟收集到的数据都是以 为单位。据统计，每台在
GB ；
路上行驶的无人驾驶的智能车每天要处理的数据量为 多 1PB=1024TB
10 ；
个 ，而在上路测试之前更是需要在各种外部环境以及路 1TB=1024GB
；
TB
1GB=1024MB
况下采集数据以进行训练，这种训练数据可达到成百上
为 万到 万部蓝
1PB 2 3
千个 。 光电影的容量。
PB
15人工智能初步
最后看计算能力。面对收集到的巨量数据，智能车必
须配备足够的计算能力。普通汽车的微控制单元（
Micro
， ）已经不能满足智能车数据实时处理的要
Control Unit MCU
求。因此，智能车大多采用 、 与 配合使用的
CPU GPU MCU
综合控制单元，每种处理器对应处理适合的计算过程。
由此看到，只有算法、数据和计算能力这三大基本技术
要素联合发展，才能实现人工智能的突破，才能涌现更多的
人工智能系统。
活 动
上网搜索，了解中国在智能车领域的最新发
2.3
展。举例分析中国智能车的发展与算法、数据和计算
能力提升的关系。
分析智能车的机构组成
2.
智能车的基本工作原理如图 所示。通过视频摄像
1-10
头、激光测距仪、车载雷达、速度传感器等传感设备，车辆
可以获取行驶状态以及周边路况，分析自身所处的位置、与
周围汽车的距离和相对速度等，进而实时规划行驶路径，让
小贴士
汽车能针对不同情况选择不同的应对措施，同时向电机、转
感知机构、决策机构和 向轴发送控制信号，以准确执行规划的行驶策略。在此过程
执行机构是支持人工智能系
中，摄像头等传感器会不断地将捕获到的画面和车辆运行状
统稳定工作的三大主要机构
态传递给智能汽车的“决策中枢”，从而实时调整智能车的
组成。
控制策略，以得到最安全、快捷的行车路径。
图1-10 智能车的工作原理
16第一单元 走进人工智能的世界
上述过程也体现了智能车的主要组成部分：感知机构、
决策机构和执行机构。
（ ）智能车的感知机构
1
人类时时刻刻都在通过耳、鼻、眼等器官来感知、理解
外界环境，以进行学习与交流。通过眼睛，观察到自然界的
色彩与光线；通过鼻子，感受到自然界的气味；通过耳朵，
聆听周围的声音。这些形式多样的信息在大脑中共同交织成
完整的环境感知景象，成为认知与决策的基础。
类似于人类，智能车的感知机构（图 ）也具有相似
1-11
的感知功能，但它不是通过眼睛、鼻子、耳朵这类器官，而
是通过各种各样的传感设备来实现。例如，外视摄像头可用
于侦测交通信号灯，以及行人、自行车等车辆行驶路线上遭
遇的移动障碍；内视摄像头可用于感知驾驶员的状态，如是
否打瞌睡；车载麦克风可用以识别驾驶员的控制指令，如“启
动”“加速”等；车载雷达可探测较远处的固定路障；车轮
上的速度传感器则负责监控车辆的运行速度；激光测距仪能
够及时、精确地绘制出周边的 地形图。智能车的感知机
3D
构为其决策机构提供数据支撑。
图1-11 智能车感知机构的组成
（ ）智能车的决策机构
2
人类大脑皮层约有 亿个神经元，掌控学习、记忆等
140
活动。人的感知器官将收集到的信息通过神经系统传到大脑
皮层，大脑根据这些信息解析出看到的物体、听到的声音、
闻到的气味，进而对机体进行控制。大脑就是人类的决策中
心，专门负责分析感知到的信息，控制机体进行反应。
17人工智能初步
同样，对于一个智能系统，决策机构是至关重要的部分，
它掌控着整个系统的运转。决策机构不仅涉及诸如微处理器、
计算机等硬件设备，还涉及处理、识别及控制等算法。
智能车的决策机构如图 所示。各类传感器像神经
1-12
细胞一样与决策中心连接，收集到的信息或者发出的控制信
号像电刺激一样在“神经元”间传输。如上所述，智能车的
“眼睛”拍摄到的行车路况，或者速度传感器测到的实时行
车速度，实质上是一组数字信号，它们经过预处理，以电平
差的方式传输给决策中心。决策机构获取信号后进行处理与
分析，识别出目标的类别和状态，根据目标点的坐标或者车
辆期望速度，进行路径规划，选取控制策略。之后根据规划
和策略，得到下一时刻的目标点坐标、车辆的期望速度、加
速度等，向汽车电机以及转向轴输出控制信号，决定其前进、
后退、旋转等。
图1-12 智能车决策机构结构示意图
（ ）智能车的执行机构
3
我们的决策中枢——大脑，在分析感知信号之后，会得
18第一单元 走进人工智能的世界
到一个控制策略，例如行走、调节内分泌等。这些策略的实现，
需要有力的执行机构。在人体中，大到关节、器官，小到细胞，
都是可完成具体任务的执行器。执行机构使得大脑的决断变
为现实，使智能体具有行动力。
智能车的执行机构具有同样的作用。电机、转向轴如同
我们的关节。决策机构发出改变速度、角度的控制信号，然
后由电机来改变速度，由转向轴来改变行驶方向。车内的空
调、交互屏幕等类似于器官，控制改善着车辆的内部环境。
从微观角度看，构成这些“关节”“器官”的机械零件或电
子元件，如同细胞一样，通过精密配合构造出一个完整的执
行机构。智能车的执行机构赋予了智能算法、智能策略可靠
的执行力。有了执行机构的配合，算法才可能被实施。
（ ）理解智能系统组成机构的关系
4
人工智能系统能稳定运行需要感知机构、决策机构和执
行机构这三大机构相互配合。除此之外，还需要反馈机制的
配合。
对于智能车来说，在控制车辆行驶速度或者旋转角度时，
设定的目标速度或角度与实际行驶的状态是有差距的。因此，
车辆通过采集速度及角度的传感器实时地对车辆的状态进行
监测，实时计算当前运行状态与目标状态之间的差值，再利
用这个差值对电机和转向轴进行控制，适当调整，减小差值，
从而使车辆能够稳定运行。这种实时调整策略便是一种反馈
机制（图 ），该机制保证了行驶的稳定性与流畅性。
1-13
?
?
思考与讨论
理解智能系统的反馈机制，并使用自己的语
言来描述智能车的反馈调节过程。
图1-13 智能车反馈示意图
再如智能搜索引擎，当人们在搜索框中输入目标文字之
后，搜索引擎终端会根据输入信息在互联网中进行检索比对，
这个过程可以看作搜索引擎的感知过程。提取到初步的信息
条文后，搜索引擎对其进一步筛选并且根据相关程度进行排
序，最终确定在屏幕或者人机交互界面上呈现的信息，这一
步为搜索引擎的决策过程；而搜索引擎在互联网中检索的过
19人工智能初步
程，在屏幕上呈现结果的过程，则是执行过程；用户根据呈
小贴士 现在屏幕上的搜索排序结果，决定是否点击某一个结果，先
点哪个后点哪个，这是用户对搜索结果的反馈过程。系统可
在实际应用中，人工
智能系统不仅仅局限于智能 以根据反馈情况判断用户的偏好以及搜索条目排序的合理性。
车、机器人这类能够看得见 可见，对典型的人工智能系统而言，感知机构是基础，
摸得着的智能实体，还包括
决策机构是核心，执行机构是动力，反馈机制是保障。这四
与工作生活息息相关的智能
者相辅相成，才能构造出一个真正稳定的智能系统，从而保
应用程序，例如网络搜索、
证智能系统能走进千家万户和工厂企业，为我们的生活带来
语音助手等。
便利，为生产带来效率。
活 动
分组搜索相关资料，了解现在人工智能在各
2.4
个领域的应用实例，举例分析智能系统的组成，用自
己的话来解释感知机构、决策机构、执行机构与反馈
机制之间的关系。
明确人工智能的特征
3.
在三大基本技术要素的支持、三大机构的配合以及反馈
机制的保障下，当前的人工智能正在蓬勃发展。新时期的人
工智能具备了以下特征：
（ ）由人类设计，为人类服务，本质为计算，基础为数据。
1
人工智能系统是由人类设计，以人为本的系统。这些系统按
照人类预先设计的算法通过人类发明的硬件载体来计算或者
工作。它们通过对数据的采集、处理、挖掘，形成有价值的
信息和知识，为人类提供延伸人类能力的服务。
（ ）能感知环境，能产生反应，能与人交互，能与人
2
互补。人工智能系统应该能够借助多种传感器对外部环境进
行感知，收集多种信息，同时能够对外界的输入做出不同的
反应。此外，人工智能系统还需要具有通过一些外部设备与
人类进行交互的能力，与人类合作，优势互补。
（ ）有适应特性，有学习能力，能演化迭代，能连接扩展。
小贴士 3
人工智能系统要有一定的自适应能力和学习能力，即要有随
鲁棒性是 的音 任务变化、数据变化而自适应调节模型参数的能力。同时，
Robust
译，指系统的健壮性。
能够与云端、客户端等实现数字化连接，不断进行演化迭代，
提高系统的鲁棒性、稳定性、通用性。
20第一单元 走进人工智能的世界
?
?
思考与讨论
根据自己对人工智能特征的理解，举例说明
人工智能的特征。
知识链接
超级计算机
超级计算机的基本组成部件与个人计算机的组成部件无太大差异，但规格与性能则强
大许多，具有很强的计算和处理数据的能力。其主要特点表现为高速度和大容量，配有多
种外部和外围设备以及丰富的、高功能的软件系统。目前，“神威· 太湖之光”超级计算
机的计算速度最高可达到 亿亿次每秒，位于国际领先水平。超级计算机通常应用于天
12.5
气预测、大气环流分析、天体物理模拟、密码分析等科学研究和国计民生问题。
与智能车相关的人工智能算法
智能车的主要功能模块包括物体识别、语音控制、人脸识别和自动决策等，如图
1-14
所示。
图1-14 智能车的主要功能模块
物体识别模块在智能车中可实现对交通标志物、行人等目标的识别。它也可以应用在
工业的残次品识别、医学的肺结节识别等情景。本书涉及物体识别模块的主要算法是神经
网络和深度学习算法。
语音控制模块在智能车中可实现接收、处理和理解人发出的语音指令。它还可以应用
在同声翻译、智能家居的控制等领域。本书涉及语音控制的算法是隐马尔可夫模型（ ）
HMM
算法。
21人工智能初步
人脸识别模块可实现智能车的刷脸开车门、乘客识别、安全认证等功能。它还可以应
用在安防、金融等领域。例如，通过人脸识别来识别犯罪嫌疑人，或者在进行大额支付
时，实现远程刷脸认证，以保证资金安全，防止资金被盗。本书在人脸识别模块主要介绍
最近邻算法（ ， ）和支持向量机算法（ ，
k k-Nearest Neighbor kNN Support Vector Machine
）。深度学习等更先进的算法也已被应用于人脸识别。
SVM
自动决策模块在智能车中进行路径规划，找到最优路径。它也可以应用在商业的营销
战略规划、游戏策略设计等领域。本书主要介绍决策树、 寻路等自动决策和搜索算法。
A*
拓展阅读
人工智能的研究
人工智能与社会生产生活关系紧密，它的发展离不开各个方面的研究。人工智能的研究可
以分为：基础层、技术层和应用层，如图 所示。
1-15
图1-15 人工智能的研究层次
基础层：包括硬件 计算能力和大数据等研究。
/
技术层：包括赋予计算机感知分析能力的计算机视觉技术和语音技术、提供理解思考能力
的自然语言处理技术、提供决策交互能力的规划决策系统、大数据分析技术，以及机器学习算
法等研究。
应用层：包括金融、医疗、安防、交通、工业等行业的应用研究。
——摘自中国人民大学出版社《人工智能：国家人工智能战略行动抓手》
22第一单元 走进人工智能的世界
单元挑战 探究服务机器人
一、项目任务
服务机器人可以分为专业领域服务机器人和个人 家庭服务机器
/
人。服务机器人的应用范围很广，主要从事维护保养、修理、运输、
清洗、保安、救援、监护等工作。它由感知、决策、执行机构组成，
并且要由算法、数据和计算能力这样的基本技术要素支撑。参考图
所示的家庭服务机器人，分组进行资料收集并讨论其三个基本
1-16
技术要素的情况，然后对该机器人进行“拆解”，针对某一智能功
能阐述它的主要机构组成。
图1-16 家庭服务机器人
二、项目指引
．查阅资料，了解家庭服务机器人的各项指标，关注三个基本技术要素的信息。
1
．查阅资料，了解家庭服务机器人可以实现的功能，任选一个智能功能进行分析。
2
关注服务机器人在运行某功能时调用的模块，理解这些模块的具体工作逻辑。根据具体工
作逻辑将这些模块与主要组成机构相对应。
家庭服务机器人智能功能：
_____________________________________________
分析：
．整理资料内容，形成一份关于服务机器人的调查报告。或制作一个演示文稿，用
3
于班级交流。
三、交流评价与展示
．每组展示交流各自选取的服务机器人的功能及分类结果。
1
．互相交流心得体会，加深对人工智能系统三个基本技术要素及主要组成机构的理解。
2
23人工智能初步
单元小结
一、主要内容梳理
二、单元评价
评价内容 达成情况
能用自己的语言阐述人工智能的概念（ 、 ）
A I
能列举应用了人工智能技术的系统（ 、 、 ）
A I R
能说出人工智能的发展历史及各时期的特点（ 、 、 ）
A I R
能说出 年达特茅斯会议的意义（ 、 、 ）
1956 A I R
能以智能车为例描述人工智能系统的主要机构组成（ 、 、 ）
A I R
能阐述人工智能系统的几个基本技术要素之间的关系（ 、 、 ）
A I R
能用自己的语言阐述人工智能的特征（ 、 、 ）
A I R
能说出神经网络、机器学习和深度学习之间的关系（ 、 、 ）
A I R
说明： —信息意识， —计算思维， —数字化学习与创新， —信息社会责任
A T I R
24第二单元
理解人工智能技术的思想与方法
人工智能技术涉及面很广，主要包括感知、学习、
推理、决策等方面。在实际应用中，人工智能最核心的
一种能力是根据给定的输入作出判断或预测。当前，人
工智能普遍利用计算机自我学习（机器学习）的方式来
获得预测或判断的能力。机器学习已经成为基础性的人
工智能技术，并已应用于计算机视觉、语音识别、自然
语言处理等相关人工智能问题的求解。除了目前流行的
机器学习算法，人工智能在几十年的发展过程中还积累
了不少经典算法，虽然有些算法已经较少应用，但这些
算法蕴含的算法思想至今仍然值得学习。
算法思想与应用方法构成了人工智能技术的精髓。
本单元中，我们将通过剖析智能车的几种典型应用，如
刷脸开门、道路流量预测、路况识别、路径决策、声音
控制和车辆聚类等，学习人工智能的经典算法，了解人
工智能的经典基础算法思想以及应用方法。
单元挑战
用 算法及深
SVM
学习目标
度学习给图像分类
◆ 了解人工智能的核心算法。
◆ 了解人工智能技术应用的基本过程和原理。项目三
让智能车能够“刷脸”开车门
—— 探究图像识别与理解
人脸识别技术是计算机视觉领域中图像识别的一个非常重要的
研究方向。近些年，伴随着人工智能技术的进步和应用普及，人脸
识别技术发展迅速，在金融、安防、商业等领域得到广泛应用。将
人脸识别技术应用于智能车的设计，能实现“刷脸”开车门（图 ）。
2-1
这样的智能车可以没有车门把手，只需要车主脸部面对着车门的某
个部位一照，车门便会随即打开；若是非车主，则车门不会开启。
这既方便了车主，又提高了车辆的安全防盗性能。
图2-1 用人工智能取代车门钥匙
项目学习目标
在本项目中，我们将探究把人脸识别技术应用于智能车的基本
思想和方法。
完成本项目学习，须能回答以下问题：
什么是图像识别技术？
1.
人脸识别是如何实现的？
2.
如何提取特征？
3.
人脸识别的常见算法有哪些？
4.
人脸识别的技术评价标准是什么？
5.第二单元 理解人工智能技术的思想与方法
项目学习指引
小贴士
从万千人中识别出熟人，这对普通人来说是一件很容易
特征（ ）是人工
的事情。人类判断“你是谁”，包括两个“处理步骤”：先 feature
智能中非常重要的概念。在
找出人脸上具有区分度的特征；然后，根据观察到的人脸特
计算机视觉领域，特征蕴含
征，把它和大脑里记忆中的某个人的特点匹配起来，得出“她 着图像中的核心信息。
或他是谁”的结论。这个过程，翻译成计算机的语言，其实
就是“特征提取”与“分类器设计”两个步骤。“特征提取”
即把对象示例的特征进行数据量化；“分类器设计”即产生
一个从量化的特征数据到语义标签的映射关系。事实上，很
多识别问题的解决都可以采用这两个步骤。
1．了解图像识别与人脸识别技术
（ ）图像识别技术
1
图像识别（ ）技术是指利用计算机对图
image recognition
像进行处理、分析和理解，以识别各种不同模式的目标和对
象的技术。它一般利用数学模型，结合图像处理的技术来分
析图像的底层特征和上层的语义信息，从而提取具有一定表
达能力与区分能力的信息。
图像识别技术是“计算机视觉”研究领域的重要组
成部分。生活中常见的图像识别应用有：人脸识别（ 图2-2 常见的图像识别应用
face
）、表情识别、光学字符识别、手写体识别、医
recognition
学图像分析、图像 视频内容检索等，如图 所示。 参见 知识链接“图
/ 2-2 P38
（ ）人脸识别技术 像识别”
2
要实现人脸识别，一般要经过以下三个流程（图 ）：
2-3
图2-3 人脸识别的流程
①检测与配准
基于人的面部特征，对输入的图像或者视频流，判断其
中是否存在人脸，精确给出每张脸的位置框信息，以及五官、
27人工智能初步
轮廓的关键点位置信息。
②特征提取
根据人脸框与五官点位置，结合图片本身，提取每个人
脸中所蕴含的能表达身份特征的信息（如五官的尺寸、间距、
纹理等），形成一个向量形式的人脸表征。
③识别
将需要被识别的人脸与已知的人脸数据库中的源人脸进
行对比，计算与数据库中人脸的相似度，根据相似度分数确
定该人脸的身份，人脸识别结果示例如图 所示。
2-4
图2-4 人脸识别结果示例
活 动
体验人脸识别。
3.1
在网上找到可进行人脸识别的 开放平台（图 ）。在此平台上找到人脸识
AI 2-5
别体验模块，体验人脸识别技术的多种应用，比如多人脸检测，思考其原理及日常
应用
。
图2-5 某AI开放平台的人脸识别体验模块
28第二单元 理解人工智能技术的思想与方法
2. 获取、表示人脸特征
要比较两张照片上人脸“长得像不像”，人是通过大脑
的直观感觉来作出判断的，而人脸识别系统大多是通过将照
片中人脸的有效特征（即可区分性特征）进行数字量化，然
后分析代表这些人脸特征的数据值来进行身份判断。
特征的提取是指从目标对象中获取对于要做的任务有帮
助的信息。特征提取是对图像理解和识别的关键步骤，是人
脸识别技术的基础。
（ ）提取人脸特征
1
人在探索世界时会通过耳朵、眼睛、鼻子等来获取外界
的特征，形成听觉、视觉、嗅觉等感觉。神经系统将这些感
觉转化成电信号传递给大脑。大脑会对比这些特征，并度量
分析，从而得到外界的相关信息。为了让计算机完成特征提
取，可以将这个过程抽象成具体步骤（图 ）：特征采集、
2-6
特征使用、特征转换和特征度量。
①特征采集
特征的采集通常需要使用“传感器”。在人脸识别中，
一般使用摄像头来获取人脸信息的全部特征，获得的特征以
图2-6 提取特征的流程
图像像素形式作电子存储。
?
?
思考与讨论
你认为还有什么方式能够采集人脸特征？
②特征使用
经典寓言“盲人摸象”告诉我们，通常情况下，仅依靠
象的牙齿、耳朵、腿、尾巴等一个个孤立的形状特征并不能
进行智能分析。人脸识别同样如此。
曹操 窦尔敦
以图 中的京剧脸谱为例，画师通过夸张的方式反映
2-7
出某个人物角色的脸部特征，比如：关羽红脸、张飞面凶、
曹操短须等。在进行脸谱判断时，如果只关注某一个特征，
而忽略其他特征，往往会造成错误判断，如只看窦尔敦和张
飞的下颌胡须，则很可能认为这是同一个角色。人脸识别系
统也一样，需要对人脸的特征进行综合考察，才能得出最终
张飞 关羽
的决策。如图 所示，目前的人脸识别系统，既会关注脸
2-8 图2-7 京剧脸谱
部的整体轮廓特征，也会关注五官的单个局部特征。
29人工智能初步
轮廓特征 局部特征
图2-8 人脸识别系统中的人脸特征
③特征转换与度量
获取的特征需要被转换成电信号人脑才能够处理，同样，
“眼睛大”“皮肤白”等用自然语言描述的人脸特征也需要
转换成计算机能够处理的数字形式特征。以对眼睛大小的描
述为例，通常用自然语言可把眼睛分成“大”“中”“小”
三类。若要将它们转换为计算机能处理的数字形式特征，可
将“大”“中”“小”分别用数字 、 、 来表示（大小程
1 2 3
度可以用整数，也可以用小数），从而形成一个计算机能处
理的特征值。同样，其他特征也可以用数字来表示各自的属
性类别或者等级程度。将这些特征值组合在一起写成向量的
小贴士
形式，就形成特征向量。有了特征向量，就可用它来描述物
特征向量（ ）
feature vector 体的特征了。
可将特征用数字化表示。二
有时候，等级不足以充分表示信息量，可选择用具体的
维、三维的特征向量与数学
数值直接作为特征值。以图 为例，假设收集到关于人脸
中的平面、空间坐标点的表
2-9
示相似（高维的向量也可以 的三个特征，分别是眼睛宽度 、瞳距 、鼻宽 ，它的
X1 X2 X3
类似地对等为高维空间的坐 特征向量可由如下方式形成：
标点）。
特征向量
X1
X1
X2
X3
X2
X3
图2-9 特征向量的形成
实际应用中特征向量维度通常不止三个维度，还可能包
含表示其他内容的维度，以反映更多的特征信息。
30第二单元 理解人工智能技术的思想与方法
通过这样的方式，将不同的特征组成为一个数字向量，
可方便后续的计算机处理运算。这是一种常用的特征向量构
建方法。
（ ）用特征表示人脸
2
提取人脸特征之后，还需要根据应用需要，通过特征将
人脸表示出来。
①采用全局特征结构表示人脸
人们对人脸特征常这样描述：小张宽鼻梁，小李眼线比
较长，小王下巴比较尖等。在人脸识别研究刚刚兴起的时候，
科研人员关注的人脸几何特征也主要是眼、鼻、嘴等的形状
以及它们之间的几何关系（如相互之间的距离、角度），然
后将这些特征的数值与数据库中的人脸特征数值进行比对。
因特征数目少，该方法所占用的内存很小，且识别速度
很快。但它其实是盲目机械地模仿人类直观的相互识别方法，
简单浅显地分析人脸的部分表层结构特征，因此特征的表达
能力有限，无法精确识别人脸（比如符合“宽鼻梁、长眼线、
尖下巴”特征的人，可以找出成千上万），识别效果较差，
不能将人脸所具备的如肤色、纹理、形状等丰富信息展现出
来。目前，该方法已经很少应用。
为了获得全局的特征及结构，需先得到整张人脸的数据。
首先需要将人脸的二维像素阵转化为一个一维向量。图像处
理早期一般使用线扫（ ）的方法来实现，图 展
Zig-Zag 2-10
示了线扫的基本思想。
线扫方法的优点是方便简单，但是维度高，处理速度慢，
容易被些许噪声以及几何变化如移动、旋转等所影响。为了
免受这些影响，人们通过数据降维的数学处理方法，将原始 图2-10 线扫方法
图片像素进行变换，从而得到能够表征图片全局结构、形状、
样式信息的特征。
数据降维的一种代表性方法是 算法。 算法的
PCA PCA
小贴士
原理类似“投影”。比如三维空间的一个球，往二维平面投
影，则变成了圆。球是三维，圆是二维。在这个投影过程中， 算法，即主成分分
PCA
丢失了原来物体（球）的一部分特征（例如圆不再立体）， 析算法（
Principal Component
），它利用
但保留了原来物体的主要特征［例如圆（球）上每一点到圆
Analysis algorithm
数学变换将人脸高维数据投
心（球心）的距离相等］。
影压缩到低维空间，并保留
同理，人脸特征降维以后，人脸图像中的“噪声”、特
数据的主要特征（主成分）。
征冗余和一些由细微的几何变化所导致的局部变化都被抑制
掉了，最后得到的是能反映人脸全局结构、可用以区分的低
31人工智能初步
维度特征。这样既提高了人脸识别的计算速度，
又降低了存储的复杂度。如图 所示，经
2-11
算法降维后图片虽然细节模糊，但完整地
PCA
保留了人脸的结构。
②采用局部特征表示人脸
很多时候，人脸的一个区分度非常高的局部
特征能够帮助我们迅速、精确地识别这个人。在
计算机视觉中，与全局特征对应的是局部特征。
局部特征提取算法是相对精细的特征描述方法，它利用局
部像素与整体像素之间的关系或者局部图像块之间的关系
来获取某种变化信息。
算法（ ）就是一种典型
LBP Local Binary Pattern algorithm
的局部特征算法。该算法通过比较中心像素和邻域像素的大
小关系来得到人脸图像的角点和边缘等局部变化特征，然后
根据这些局部变化特征区分人脸。
最初的 算法定义在像素 × 邻域内，以该邻域中
LBP 3 3
心像素为阈值，将周围 个像素的灰度值与其进行比较，若
8
周围像素值小于中心像素值，则该像素点的位置被标记为 ，
0
否则为 。这样， × 邻域内的 个点经比较可产生一个
1 3 3 8 8
位二进制数（这里从左上角开始，按顺时针方向数），即得
到该邻域中心像素点的 值，这个值可用来反映该区域
LBP
的纹理信息。如图 和图 所示：
2-12 2-13
原始人脸 降维后的人脸
图2-11 使用PCA算法对人脸数据降维
参见 知识链接“图
P39
像像素”
图2-12 LBP算法示例
图2-13 LBP特征提取算法的输出效果
32第二单元 理解人工智能技术的思想与方法
?
?
思考与讨论
经 算法处理后的结果有何特点？为什
LBP
么它可以反映纹理信息？
算法具有灰度不变性、旋转不变性、计算速度快等
LBP
突出的优点，因而在特征提取方面得到广泛应用。
通过以上几种方法对一张照片进行特征处理，就能得到
该照片的一些关键信息点的数字信息（特征值）。人们通常
将由一系列特征值组成的一个样本数据记为一个特征向量
… 。这些特征向量将是接下来进行分类、制定识
x=(x1, x2, , xn )
别决策的依据。
3．解析人脸识别原理
（ ）分类问题
1
智能车的人脸自动识别解锁系统在获得了人脸的多个特
征之后，需要对输入的特征进行处理，从而判断特征所属的
人脸是不是车主的，并作出是否开启车门的决策。决策的内
容实际上是将结果分成两类，即“是车主”和“不是车主”。
这种智能决策问题被称为分类问题，这是机器学习领域非常
重要的一个研究课题。分类的目标是判断一个新的样本属于
数据库中的哪种已知样本类。
最普遍的分类问题是二分类问题，即类别数为 （通常 小贴士
2
这两个类别分别用 和 表示）。当然，在很多时候，需要
1 0 判断前方是否有障碍
分类的类别不止两个，比如要开发一个可以容纳 位车主的
4 物、预测某种产品市场价格
人脸识别系统，那么需要分类的类别数就可能是 （车主 、
的涨跌、判断某个病人是否
5 A
车主 、车主 、车主 、不是车主）。 得了某种疾病、分析某种药
B C D
通过这样的分类，智能车可以识别人脸是否属于车主， 物是否有效等，均是典型的
二分类问题。
判断并决定是否允许对此人开启车门。
（ ）人脸识别决策的方法之 算法
2 kNN
要利用提取的特征进行分类，可采用 最近邻分类算法。
k
该方法的流程如图 所示。 参见 知识链接“计
P39
2-14
简单地说， 算法就是给出一个样本，计算在训练样 算机视觉”
kNN
本集中与该样本距离最近（最相似）的 个邻居，然后根据
k
个邻居所属的类别判定样本所属的类别。这里的距离具体
k
33人工智能初步
图2-14 使用kNN算法进行识别的流程
到人脸识别中就是人脸的特征向量间的距离。
如图 ，在样本集中有“关羽”类（用 表示）和“曹操”
2-15
类（用 表示）两个类别。（用 表示）为待识别样本人脸，
X
现要做的是判断该人脸是“关羽”类还是“曹操”类。按照
算法，假定 取值 ，然后计算出特征向量与之距离最
kNN k 5
近的 张人脸（图 中虚线所包围的人脸），从中可以发现，
5 2-15
张人脸中“关羽”所占比例较大，那么这个未知人脸 将
5 X
被归为“关羽”类。
?
?
思考与讨论
图2-15 kNN分类算法示意图
上述案例中，如果 取值 ，那么分类结果
k 3
会怎样？
算法的主要思想：先计算待分类样本与已知类别的
kNN
训练样本集之间的距离（相似度），找到与待分类样本距离
（相似度）最近的 个邻居；然后，根据这些邻居所属的类别，
k
按照“少数服从多数”的原则，判断待分类样本的所属类别。
主要步骤如图 所示。
2-16
图2-16 kNN算法主要步骤
34第二单元 理解人工智能技术的思想与方法
根据 算法的思想，能很容易将一个新输入的特征归 小贴士
kNN
类到它最近邻的特征中，即找到最相似的人脸。如果新输入
当两个类别的数目一样
的人脸在数据库中并没有可以匹配的车主人脸，那么应将该
多时，则给 随机指定一个
X
特征归类到“不是车主”一类。智能车相应执行“不开车门” 类别。
的命令。通常，我们通过对比特征距离是否超出同一个人的
特征变动范围阈值（这个阈值通常是我们根据经验和实验尝
试设定好的）来实施相关操作。对于超过了阈值的人脸，我
们认为特征不匹配，即该人不是车主，不执行开门操作。对
于没有超过阈值的人脸，并且通过 算法顺利归类，则
kNN
认为特征匹配，即判断该人是车主，然后执行开门操作。
活 动
假设数据库中有四张采集到的人脸的特征，四
3.2
个特征向量分别为（ ， ）、（ ， ）、（ ，
0.1 2.8 0.4 3.1 2.5
）、（ ， ）（这里为了简化问题，假定每张人脸
0.9 2.8 0.7
只有两个数字表示的特征），四张人脸的身份被认定为
‘ ’‘ ’‘ ’‘ ’，即前两张人
Guan , Guan , Zhang , Zhang
脸特征被认为是‘ ’（关羽），后两张人脸特征被
Guan
认为是‘ ’（张飞）。
Zhang
现在有一张新输入的人脸特征（ ），大家试着
0.7,2.6
运行配套资源中的代码，用 算法对之进行身份识别。
kNN
（ ）人脸识别决策的方法之支持向量机算法
y
3
虽然 算法理论简单、有效，且易于实现，但它具有
kNN
一些不可避免的缺点，如计算复杂度高，不同类别样本数量
不均匀时预测偏差较大等。特别是在数据库庞大时，待识别
的样本需要与数据库所有的样本进行比对，运算量非常大，
以至于无法做到实时识别。
有一类算法，无论数据库多大，待识别的数据只需要被
比对一次。这就是有参数分类器的算法，其中比较有代表性 0 图2-17 用直线分类 x
的是支持向量机（ ）算法。
SVM
如图 中，关羽和曹操两类人脸的特征数据点（假
2-17
设特征数据是二维的）分布于坐标系中，我们可以通过在坐
标系中画出一条直线来区分这两类人脸的数据，并按此直线
35人工智能初步
来对后续输入的人脸进行分类。因为在平面中，直线的函数
表达式是： ，其中 是斜率， 是截距。如果能计
y=kx + b k b
算出比较合适的（ ）组合，那么就可以使用这条直线对
k,b
后续输入的样本进行分类。简单来说，就是当 大于 时，
kx+b 0
可以判为正样本，反之，则判为负样本。
其实，满足分类要求的划分方法不止一种，也就是说这
里可以有无数组的（ ）组合，能产生无数条划分线。
y
k,b
?
?
思考与讨论
如图 所示，红、绿两条直线都可以达
2-18
到划分的效果，那该选择哪条划分线呢？你认为
图中黄色问号处该属于哪种分类？理由是什么？
x
图02-18 不止一种的分类划分方法
最小边界距离
使用 算法可以帮助我们选择合适的划分线。以图
y
SVM
为例，可以从图中直观地对比出红、绿两条划分线与
2-19
正负样本点的最小边界距离。显然，绿色直线离最近的正负
样本点的边界距离更大，它的两边所能留出的分类“缓冲”
区域能够最大化。这样，即使出现一些模棱两可的样本，也
能尽量以最大的概率留在“正确”的一边，增加了分类正确
的概率。例如图中问号处为新输入数据，该数据处在模棱两
x 可的边缘地带。如果按照绿色分类器（缓冲区域大），该数
0
图2-19 找最小边界距离中最
据为关羽；如果按照红色分类器（缓冲区域小），该数据为
大的分类器
曹操。但是通过直观判断，这个数据显然更符合关羽（与关
羽数据团簇距离更近），由此可认为绿色分类器更优。也就
是说，最小边界距离越大，缓冲区域就越大，分类准确性也
y
就越高。因此在实际分类时，需要找到最小边界距离最大的
分类器。
要找到最大缓冲区域的边界，就一定要找到缓冲边界上
的边界点。在这里，影响边界选择的几个数据点（数据向量），
称为支持向量。简单地说，即这几个点影响了最终的边界距
离，进一步决定了分类器的选择。这也是支持向量机算法的
名称的由来。图 中，黑圈中的数据点即为支持向量。
x 2-20
0
图2-20 支持向量 支持向量决定了支持向量机的参数以及分类性能。
36第二单元 理解人工智能技术的思想与方法
4．评价人脸识别性能
人脸识别性能在实际应用时可通过以下评价指标（表
）来衡量。人们可据此来对人脸识别方法作出最佳的
2-1
选择。
表2-1 评价人脸识别性能的标准
指标 说明
误识率是将其他人员误作指定人员的概率，例如把非车主误认为车主的
概率。这个概率越低越好。从安全考虑，需要重点降低这个误识率，在
误识率
系统设定中可以体现为降低判断阈值。误识率的计算公式为：
(False Accept Rate, FAR) 误识为车主次数
×
FAR= 车主识别总次数 100%
拒识率是将指定人员误作其他人员的概率，例如把车主误认为非车主的
概率。这个概率过高会影响使用人员的体验，因此需要尽量降低。拒识
拒识率
率的计算公式为：
(False Reject Rate, FRR) 误识为非车主次数
×
FRR= 车主识别总次数 100%
识别正确率 识别正确率是正确识别人次与参与识别的总人次之比。这是一个整体的
（ ） 判断量，往往需要与误识率和拒识率综合考量。
Identification Rate
识别速度可理解为识别一幅人脸图像的时间或识别一个人的时间。这个
时间越短，说明该系统的性能越好。然而，在其他因素不变的基础上，
识别速度
识别速度提高，往往会造成识别精度的降低。为此，需要更多地寻求硬
件和算法上的改进。
在判断人脸识别的性能时，一般会结合以上四个指标进
行综合考量。或根据需要，重点考量某个或某几个标准。如
人脸识别技术用于私人场所门禁（车门、家门）时，误识率
是一个更重要的标准。这时，误识率必须接近为 ，否则将
0
非主人识别为主人，会导致很严重的后果。而在另一种情况
下，比如非关键通道的刷脸闸机（高铁入口），拒识率是一
个更重要的量。因高铁闸口需要人流量快速通行，这时需要
拒识率尽可能地低，否则大量乘客无法刷脸通过，不但影响
乘客体验，也容易造成拥堵。
37人工智能初步
活 动
假定车主为关羽。如果让曹操进行五次车主身份人脸识别，结果如图
3.3 2-21
所示，请计算误识率。说说面对这个误识率，你会使用该产品吗？
图2-21 活动3.3识别结果
假定车主为关羽。如果让关羽进行五次车主身份人脸识别，结果如图
3.4 2-22
所示，请计算拒识率。说说面对这个拒识率，你会使用该产品吗？
图2-22 活动3.4识别结果
知识链接
图像识别
图像识别是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标
和对象的技术。这是计算机视觉领域非常重要的一项技术。
图像识别技术是以图像的主要特征为基础。每个图像都有它的特征，如关羽脸谱图像
的胡须长度、脸部颜色等。
38第二单元 理解人工智能技术的思想与方法
图像识别大致需要经过四个步骤：①图像采集；②对图像预处理得到特征；③训练算法；
④识别。
常见的图像识别应用有：物体识别、文本识别（图 ）、车牌识别（图 ）、
2-23 2-24
人脸识别等。
图2-23 手写文本识别 图2-24 车牌识别
图像像素
如果大倍率放大计算机或手机上的图片，你会发现它们是由一个个细小的方块组成的。
每一个小的方块就是一个像素（ ），每个小方块都有一个明确的位置和被分配的色彩
pixel
数值，所有小方块的颜色和位置决定了该图像所呈现出来的样子。
像素是组成图像的最小单位。每幅图像都包含了一定量的像素，这些像素决定了图像
在屏幕上所呈现的大小。同样尺寸的图片，像素分布密集的图片会显得更加清晰，像素分
布稀疏的图片会显得更加模糊，如图 、图 所示。实际上，计算机对图像进行处
2-25 2-26
理就是对图片中的一个个像素值构成的向量进行处理。
图2-25 像素分布密集（高像素）的图片 图2-26 像素分布稀疏（低像素）的图片
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学，是使用计算机模仿人类视觉系统的
科学。它的目标是让计算机拥有类似人类提取、处理、理解和分析图像及图像序列的能力。
在人工智能领域，计算机视觉主要研究用摄影机和计算机等代替人眼对目标进行识别、
跟踪和测量等，并进一步进行图像处理，以模拟人眼的特性甚至延伸人眼的视觉范围，从
而为人工智能系统获取信息。
人工智能系统的计算机视觉包括两部分功能：
（ ）模拟人眼——让机器去看。
1
（ ）模拟大脑视觉皮层——让机器去理解。
2
计算机视觉在“看”的过程中有个很大的挑战，就是要跨越从最底层的像素值与高层
39人工智能初步
次的语义之间的“鸿沟”。摄影机不像人眼，它“看到”的并不是一个场景或者一个物体，
而是一个完全由数字构成的像素表，如图 所示。
2-27
人眼看到的 机器看到的
图2-27 “看”的人机对比
除了“看”，计算机视觉的另一项任务是透过这一组数字，去挖掘出其中蕴含的语义
信息。因此，计算机视觉中的各种算法和处理过程，本质上都是对数字的运算和处理。
目前，人工智能中计算机视觉领域的研究方向如图 所示。
2-28
图2-28 计算机视觉的研究方向
40第二单元 理解人工智能技术的思想与方法
拓展阅读
图像分割
图像分割（ ）问题是计算机视觉领域中的一个重要课题，它是很多视觉研究内
segmentation
容的基础和关键步骤。
图像分割指的是将数字图像细分为
多个图像子区域（像素的集合）的过程，
即把图像分成若干个特定的、具有独特
性质的区域，并在其中提出感兴趣的目
标的技术和过程。图 是一个篮球赛
2-29
场景的图像分割实例。
从技术层面看，图像分割其实是一
个对图像中的每个像素加标签的过程，
图2-29 图像分割实例
它把属于同一区域的像素赋予相同的编
号，便于后续的处理分析。例如可使具有相同标签的像素具有某种共同的视觉特性，比如同一
颜色，以此来可视化分割结果。
图像分割可分为语义分割和实例分割。语义分割是根据图片内的语义内涵来对物体进行分
割。实例分割则是根据场景中出现的不同的独立物体、事物来进行分割。
原图 语义分割 实例分割
图2-30 图像分割对比
——参考
Ronghang Hu,et al.Learning to Segment Everything.2017
41项目四
让智能车与用户对话
—— 探究语音交互技术
在我们的生活中，应用人工智能技术的产品已经非常多见，如
各种智能音箱。通过与用户对话，智能音箱能按照用户的意愿播放
音乐、新闻、故事等，它的背后是人工智能中语音交互技术的应用。
设想如果将该技术应用于汽车，汽车也就能像人类的好伙伴一样跟
人类进行交流（图 ）。用户只要通过语音即可命令汽车开窗、
2-31
停车、开关空调以及播放音乐等。
图2-31 让人工智能产品听懂语音
项目学习目标
在本项目中，我们将探究把语音交互技术应用于智能车的基本
思想和方法。
完成本项目学习，须能回答以下问题：
．什么是语音识别？
1
．语音识别在生活中有哪些应用案例？
2
．隐马尔可夫模型对语音识别有什么作用？
3
． 算法的作用是什么？
4 Viterbi第二单元 理解人工智能技术的思想与方法
项目学习指引
人机交互，简单来说，就是人与机器“沟通交流”。
从汽车诞生之日到汽车工业高度发达的今天，工程师一
直在努力研究更好用的人与汽车的交互形式。人在开车的时
候，手、眼都已经被占用，如果需要操作某些设备，如空调、
雨刷器，语言交互显然有着比手动操作更方便也更安全的优
势。现今，车载智能语音交互成为研究热点，并开始进入应
用阶段。
活 动
了解当前车载语音交互的使用情况及人们的
4.1
看法。
1．认识语音交互
要实现智能设备与人的语音交流互动，必须要有语音交 小贴士
互技术的支持。它既可将人类的声音变换为计算机可以理解
“交互”的意思是交流
的信息，也可令计算机生成自然语言，并通过语音的形式对
互动。语音交互指的是人类
人类进行回应。
和机器通过语音交流互动的
（ ）语音交互系统中的主要模块 方式来实现某种功能。
1
语音交互系统（图 ）通常涉及多个模块，如语音的
2-32
识别与理解［语音识别（ ， ）
Automatic Speech Recognition ASR
和自然语言理解（ ， ）］模块、
Natural Language Understanding NLU
对话决策模块（参考历史输入信息），以及最终的自然语言
生成（ ， ）和语音合成（
Natural Language Generation NLG Speech
， ）模块等，详见表 。
Synthesis Technology SST 2-2
图2-32 语音交互系统
43人工智能初步
表2-2 语音交互系统中的主要技术模块
模块 说明
语音识别也称为语音转文本识别（ ， ），它负责将
Speech To Text STT
收集到的语音信息转换为对应的文本信息，为机器进行下一步的自然语
语音识别 言理解作准备。这是机器具备“听懂”人说话的能力的基础。
语音识别技术被广泛应用在车载导航、外语教育和需人声验证的
场合。
自然语言理解可使机器理解文本，从而可理解语音识别模块输出的
自然语言理解 文本的含义，并确认需要完成的任务。
自然语言理解技术被广泛应用在搜索引擎、输入法中。
对话决策的任务是使机器完成语音指定的功能，或者确定与用户下
一步的交互内容。一般来说，对话决策需要借鉴历史输入信息来完成判断，
对话决策
以使机器能更精准地与用户进行交互并且完成任务。
对话决策模块是语音交互系统的中心决策模块。
自然语言生成可以看作是自然语言理解的逆过程，它负责把要阐述
的概念以一定的语义和语法规则生成一段自然语言文本。
自然语言生成
自然语言生成技术被广泛地应用在人机对话系统、新闻内容生成等
方面。
语音合成又称为文本转语音（ ， ），它可根据文本
语音合成 Text To Speech TTS
生成对应的人声语音，使机器具备模仿人“说话”的能力。
语音合成技术已经被广泛应用在地图导航、语言翻译等方面。
（ ）语音交互过程
2
若要实现如图 所示的人与智能车的对话情景，智
2-33
能车系统大致需要经历如下的过程。
首先，利用语音识别模块将人发出的声音变换为文本，
接着通过自然语言理解模块确定语音指令内容。比如人的第
一句语音指令内容“智能车，播放音乐！”可被理解为“播
放音乐：音乐题目未指定，音乐风格未指定，歌手未指定……”
然后，根据语音指令内容，对话决策执行相应操作。比
图2-33 人与智能车 如对话决策会向用户征询是否播放其最常听的音乐类型。这
的对话情景模拟 个过程中，为了利用语音同人进行交流互动，系统会生成自
然语言，并且模拟人声播放出来。应注意到，对话是一个连
续的交互过程，因此，有时候需要借鉴历史输入信息进行判
断。比如智能车在得到指令“换一首古典的吧！”之后，会
44第二单元 理解人工智能技术的思想与方法
根据历史输入内容“播放音乐”将指令内容更新为“播放音乐： 参见 知识链接“语
P50
音乐类型指定为古典”。 音合成”“自然语言理
语音交互中的这几种技术在机器和人之间的交互中发挥 解与生成”
着重大的作用。这些技术如今被广泛应用在我们的生活中，
并逐渐改变着我们的生活方式。
?
?
思考与讨论
语音交互技术如何改变人们的日常生活？它
主要应用于哪些方面？
没有自然语言理解，机器能真正实现语音识
别吗？为什么？
活 动
在网上找到可进行语音识别的 开放平台（图 ），体验将语音变成
4.2 AI 2-34
文本的语音识别和将文本变为声音的语音合成效果。
图2-34 某AI开放平台的语音识别体验模块
2．让机器理解语音
语音交互技术中，自然语言理解环节非常关键。只有准
确理解了语音内容，才能进行之后的决策和输出。
人类听到某句话之后，可能会根据往日的经验，在脑海
中把这句话切分成一个一个的单字，然后根据这些字的读音，
按先后顺序恢复出对应的汉字。
45人工智能初步
这看起来是一个简单的声音到文本的变换过程，但在该
过程中存在一个难点：在汉字中，每一个字音对应的汉字
可能不止一个（即同音字）。如发音“ uè”的字可能是
y
“乐”“越”“月”等。对于人类而言，仅凭单字音也很难
确定文字，但如果给出这个字前后的一个字或者几个字，人类
便可以根据上下文的含义确定该字，如在前面给出了“ ī ”，
小贴士
y n
“ uè”的候选范围就大大缩小，最终可确定为“（音）乐”。
马尔可夫模型（ y
Markov 如今，人们使用隐马尔可夫模型（ ）来让机器模拟
， ）指的是一条连 HMM
Model MM
人类这样的智能过程。
续的状态链，其中状态和状
态之间可以相互转化并且每 当一个人想说某句话时，会首先在脑海中形成这句话的
一个状态都只由前一个状态 每一个字，然后通过声音传达这句话。听者在听到这句话的
转移得到。
时候，是不能直接观测到说话者脑海中的文本信息（隐含节
隐马尔可夫模型（
Hidden 点）的，但是可以听到说话人的声音（可见节点），并且将
， ）中的“隐”
Markov Model HMM 每一小段声音同文本对应起来。听者通过猜想所有可能的文
的意思是它的状态不可被直
本，再将其与听到的上下文信息进行比对，选取最有可能的
接观测到。
文本序列。
隐马尔可夫模型正是站在人类听者的角度对文字进
行识别。如图 所示，隐含节点按照字的先后顺序
2-35
链接成单向链，并且每个隐含节点产生一个可见节点。
“播”“放”“音”“乐”四个字是 中的隐含节点，
HMM
而由这些字生成的语音片段就是可见节点。
隐含节点
↓
小贴士
在实际的 算法应
HMM
用中，隐含节点代表的往往
↑
是音素（比单字音更小的
可见节点
语音单位）的不同状态。另
图2-35 隐马尔可夫模型示例
外，语音片段在输入到可见
的特点在于每一个隐含节点只与前一个隐含节点
节点时，还需要对其进行特
HMM
征提取等预处理操作（参 以及当前的可见节点输出相连。比如例子中的“乐”这一隐
见 拓展阅读“语音识 含节点只与“音”隐含节点以及对应的声音输出片段“ uè”
P51 y
别特征——梅尔频率倒谱系
有关，与“播”“放”等隐含节点以及“ ō”“ à ”“ ī ”
数”）。 b f ng y n
等可见节点无关。这样的设计，使得在计算隐含节点的概率
时，可以从当前发音和上文内容推算出对应当前隐含节点的
可能性最大的文本。
46第二单元 理解人工智能技术的思想与方法
活 动
尝试在图 中从
4.3 2-36
左到右连接所有可能的词组
（如图中的“歌曲”和“很懂”），
再选出最有可能的句子来。体
验了解隐马尔可夫模型的识别
过程。
图2-36 活动4.3配图
3．用算法实现语音识别
在语音识别中， 的作用是找到可能性最高的隐含
HMM
节点序列。 可以极大地减小目标隐含节点的搜索范围，
HMM
这得益于 搜索算法。
Viterbi
中文每一个字音都可能对应很多候选字，因此，所有字
的组合结果数量极其庞大。如“古典音乐”，单纯从字音对
应过来的组合有（古、鼓、谷、股、骨……） （点、电、典、
+
碘、店……） （音、因、茵……） （越、月、乐、悦……）。
+ +
若使用穷举的暴力搜索方式会产生巨大消耗，导致问题的难度
大大提升。 算法正是为解决这一点而提出来的。
Viterbi
如图 所示， 算法可计算一个隐含节点（字）
2-37 Viterbi
转移到另一个隐含节点（字）的可能性大小，并且剔除可能
性（概率）小的枝节，使它们不会被继续搜索。例如，对于
“典”字这一节点的状态而言，“谷典”这个词出现的概率（或
者说出现从“谷”到“典”这一组合的可能性）是非常低的，
因此，“典”这一节点会剔除掉从“谷”而来的隐含节点路径，
只选取概率比较大的“古”这一路径（图中以粗点线标注）。
图2-37 简单的两层
对该层每一个字进行这样的操作，在猜测每一个字时只保留
Viterbi的例子
概率最高的路径，一直进行到最后一层，将可能性最高的序
列作为搜索结果输出。
?
?
思考与讨论
算法还可以用在哪些搜索情景中？
Viterbi
47人工智能初步
粗线表示组成概率高
图2-38 穷举（左）和Viterbi算法（右）在四个隐含节点下的计算量
从图 还可以看到，“音”这一节点有来自上一节
2-38
点的“典”和“电”两条概率比较高的路线（不一定要组成
词，也可能是经常一起按顺序出现的字），但是由于“电”
之前的候选字没有和“电”组成概率比较高的路径，因此，
从“电”传来的路径的概率比从“典”传递来的要低。这是
该模型后续能正确选择下一条路径的基础。另外，从图中可
看到，会出现两条概率相对较高的路线——“古典音乐”和“鼓
点映月”。尽管后者在语义上说不通，但由于隐马尔可夫模
型仅关注相邻字之间的转移可能性，后者仍有非常高的概率，
这对隐马尔可夫模型语音识别的鲁棒性和准确率造成不利影
响。在实际操作中，后一情况可以通过更长的隐含节点链以
及更精准的字音（比如音调、翘舌音和前后鼻音）推断来避
免。为了对每个字的上下文基于更多的历史数据进行分析，
参见 知识链接“循
P50 现在通常使用循环神经网络（ ，
环神经网络（ ）” Recurrent Neural Network
RNN ）及其改进算法“长短期记忆网络”（
RNN Long Short Term
， ）来提高识别准确率。 和 能够比
Memory LSTM RNN LSTM
隐马尔可夫模型回顾更长的时间序列信息。
4．应用语音交互技术
基于 搜索算法的隐马尔可夫模型在语音识别中发
Viterbi
挥着核心作用。语音识别作为语音交互的重要一环，其识别
准确性的提升使得语音交互技术在日常生活中大有可为。如
48第二单元 理解人工智能技术的思想与方法
图2-39 语音交互应用一览
图 所示，语音识别技术不仅可以作为一种辅助的文本
2-39
输入方式，还可以用在声纹识别等安全防护领域。除此之外，
其他语音交互技术在生活中也应用广泛，如自然语言理解技
术用在机器翻译、评论分析等情境中，语音合成技用于自动
合成外语、音乐等，自然语言生成技术用于生成天气预报和
新闻稿件等，这些应用不仅方便了人类生活，也节省了大量
人力资源成本。
语音交互技术属于计算机科学领域与人工智能领域的一
个研究方向，它仍然存在很多问题亟待有效解决，比如短语
音的有效识别、识别系统对口音的适应性以及在复杂环境下
的抗干扰语音识别等。
另外，语音交互常用于安防，这让人们关注到语音攻击
（比如重播录制的目标声音以欺骗语音识别系统，或超声波
干扰语音识别），并对其展开防卫研究。
活 动
尝试进行简单的语音识别分类。打开配套资源，按照语音识别的步骤提示
4.4
准备数据并运行代码，查看模型的分类准确率。
注意：可自己录制简单的音频样本进行训练和测试。数据应存储于 代
Python
码同级目录下的“ ”和“ ”文件夹（分别存放训练和测试用的音频文件）。
train test
音频文件名格式为“类别号 序号 ”。
_ .wav
以小组为单位探讨为智能车设计语音交互系统的技术方法，包括该方法的
4.5
工作流程、各流程环节可能用到的技术及技术原理，在班级中交流介绍。
49人工智能初步
知识链接
语音合成
语音合成是语音交互系统的“嘴巴”，它负责将机器生成的文本通过声音的形式表达
出来。语音合成的评价指标包括：语句意思是否被准确表达，生成的语音是否接近人声。
前一个评价指标衡量声音是否能被人听懂，而后一个指标衡量生成的声音与人声的相似度。
语音合成最简单的方法是根据文本找到预先录好的对应语音片段，再将这些语音片段
串起来。这种做法虽然简单，但是发音效果不够流畅，发音相对比较生硬，与人的自然发
音存在明显的差距。随着大数据时代的到来，当前主流的语音合成方法是基于深度学习的
语音合成。这样的语音合成可学习更多的历史数据，从而使得发音更加准确、自然。
语音合成技术现已得到广泛应用，给人类带来很多帮助。比如结合了语音合成技术的
智能手机，让盲人使用手机成为可能。语音合成技术还可帮助发音障碍人士与他人进行交
流，比如丧失语言能力的霍金曾依靠语音合成输出设备与世界各地的人们顺畅沟通。
自然语言理解与生成
自然语言理解与生成是语音交互系统的“翻译器”，它负责使计算机能够理解并使用
人的语言。自然语言理解通常使用编码器实现“人类语言”到“机器编码”的转换，反之，
自然语言生成则使用解码器实现“机器编码”到“人类语言”的翻译，如图 所示。
2-40
图2-40 人类语言与机器编码的转换
目前自然语言理解与生成技术被广泛应用在文本翻译以及搜索引擎中。该技术的引入
使得翻译结果更加“人性化”，也使得搜索结果能够更加精确地指导用户找到信息。相比
于传统技术，该技术能够使机器更智能地理解人类的需求，与人类进行更加高级的交互。
循环神经网络 （RNN）
在语音识别中，分帧单独运用 的方法可以获得一定的识别准确率，但 对
HMM HMM
于一个字只与相邻字相关的假设影响了其识别准确率。改进的方法是对连续多个字之间的
关联性进行关系建模，并且从前向和反向（比如前文中提到的从“古”到“典”以及反向
50第二单元 理解人工智能技术的思想与方法
从“典”到“古”）同时分析。基于这一目的， 作为 的辅助被提出作为语音识
RNN HMM
别的模型。
结构简单（图 中， 表示相同的 处理单元），其工作原理是对时序的
RNN 2-41 A RNN
每一次输入都使用相同的迭代单元结构进行建模。 接受每一小段语音的特征，输出结合
A
历史信息后的 特征，并将“记忆”传递到下一阶段。 相对于单独使用 而言，
RNN RNN HMM
可对时间间隔更长的先前节点状态进行分析建模，从而避免犯“鼓点映月”这种错误。
图2-41 RNN结构
拓展阅读
语音识别特征——梅尔频率倒谱系数
与人类不同，机器在执行识别任务时，不是直接进行识别，而是先对输入信息进行特征提
取。语音识别特征提取的作用是滤除掉一些与语音识别任务无关的干扰或者噪声，从而使机器
能够更“专心”地训练语音识别技能。常见的语音识别特征是梅尔频率倒谱系数（
Mel-Frequency
， ）。梅尔频率倒谱系数利用人耳对不同频率声音（音调）的敏感程
Cepstral Coefficients MFCC
度不同，将声音的音调信息通过非线性的方式映射到梅尔频谱中。在该频谱中，人所能感知的
音调变化是线性的，比如该频谱上差两倍，人类感觉上的音调变化也是两倍。
梅尔频率倒谱系数的产生过程是：将音频数据分帧，采集其频率数据，再用滤波器得到梅
尔频率数据，最后得到 系数。该特征提取算法的前提假设较少，适用情景非常广阔。梅
MFCC
尔倒谱系数经试验证明有着相对较好的识别性能，因此作为一种语音识别特征被广泛使用。
图2-42 梅尔频率倒谱系数的产生过程
——摘译自
Xuedong Huang,et al.Spoken Language Processing: A Guide
to Theory,Algorithm and System Development .2001
51项目五
让智能车自动规划路径
—— 探究智能决策与搜索算法
智能车要实现无人驾驶，必须要能够自动规划路径，即能根据
起止地点，自动寻找最佳路径，并行驶到达。路径规划技术在我们
日常生活中的很多领域已经得到广泛应用，比如手机地图导航软件
里的路径规划（图 ）、扫地机器人的清扫路线规划、电子游
2-43
戏中游戏角色的移动路线规划等。
图2-43 地图导航软件的路径规划
项目学习目标
在本项目中，我们将探究把自动路径规划技术应用于智能车的
基本思想和方法。
完成本项目学习，须能回答以下问题：
要实现自动路径规划需要解决哪些问题？
1.
什么是时间序列？
2.
什么是决策树？
3.
启发式搜索的基本思想是什么？
4.第二单元 理解人工智能技术的思想与方法
项目学习指引
自动路径规划是实现汽车智能化的关键技术之一，其主
要任务是依据环境感知系统处理后的环境信号以及相应的地
图信息，在满足汽车行驶诸多约束的前提下，以某种性能指
标（如最少时间、最短距离）最优为目的，规划出车辆的运
动路径。
在车辆实际行驶的过程中，交通路网状态会随时间变化
而变化，其中包含了静态交通限制信息（如短期施工）和动
态交通流量信息（如交通流量状况、各路段限速状态），这
些都是不确定因素，需要采集实时信息。在智能车的路径规
划研究中，核心是路径规划的算法，算法的选择将直接影响
到路径规划质量的优劣。
1．用人工智能实现路径规划
路径指连接起点位置和终点位置的序列点或曲线，而构
成路径的策略称为路径规划（ ）。在人工智能
path planning
小贴士
领域，路径规划是让智能设备具有自动规划路径的能力的
技术。 交通流量预测、智能决
通常路径规划的流程为：先通过交通流量预测判断道路 策和搜索算法是路径规划中
的三个重要部分。
的拥堵情况，再结合其他因素进行智能决策以排除交通状况
不佳的路段，最后采用搜索算法找到一条路程最短的路线。
图2-44 路径规划的流程
如图 所示，从起点到终点至少有四条路线可以选
2-44
择（分别用红、绿、黄、蓝四种颜色表示），但其中有一条
路线（绿线）正在施工。交通流量预测模块首先预测每一个
路段的车流量，车流量过大的路段被认为可能会拥堵（如蓝
线所示路线）。接着智能决策模块会将难以行驶的施工路段
（绿线）、拥堵路段（蓝线）筛选掉。随后搜索模块从剩下
可以通行的两条路线（红线和黄线）中选出路程最短的一条。
53人工智能初步
活 动
选择一种在线地图，搜索本市（县）地图。
5.1
在地图中规划从家到学校的路线，比较不同方式（步
行、骑车、公交、自驾等）及不同时间点地图给出
的不同信息，思考其原因及路径规划的侧重点。
小贴士
时间序列指将同一统计 2．预测交通流量
指标的数值按其发生的时间
通常，路口的车流量并不是恒定不变的。交通流量预测
先后顺序排列而成的数列。
如图 所示，车流量可 是利用时间序列预测的一种应用，即通过统计路口的历史车
2-45
以看成一组按时间先后顺序 流量数据和跟流量相关的一些特征数据来进行交通流量预测。
排列的数列，即时间序列。 （ ）用线性回归方法预测
1
线性回归（ 交通流量预测可采用线性回归方法。
linear reg-
）是一种应用较为 回归，即是“由果索因”。这是一种归纳的思想，即根
ression
广泛的回归算法，它可以用 据大量数据所呈现的状态，推断出数据之间蕴含的数学关系。
来预测或者分类，主要是解
例如在地球表面上抛掷一个苹果，它的高度与运动时间总是
决线性问题。非线性回归
呈现二次函数的关系。回归有两类，当这个数学关系为线性
（ ）也
nonlinear regression 关系时称之为线性回归，否则称之为非线性回归。回归方法
可以通过某种分析方式转化
主要解决如何通过样本来获取最佳的拟合线。
为线性回归。
图2-45 某路口某日1时至8时的车流量统计图
如果把车流量的预测抽象成线性回归问题，通过对时间（用
自变量 表示）和车流量（用因变量 表示）进行建模，则可
x y
54第二单元 理解人工智能技术的思想与方法
建立车流量 与时间 的关系函数 。像这种自变量只有
y x y=f(x)
一个的线性回归被称为单变量线性回归。若是多个自变量的
线性回归则称为多变量线性回归。本项目假定车流量只和时
间有关，因此路口车流量预测是一个单变量线性回归问题。
以表 为例，对于表中的变量关系，可假设关系函数
2-3
为 ，当 ， 时，这个假设的函数即为 。
y=ax+b a=2 b=2 y=2x+2
如果输入 为 ，输出的预测值 为 ，与右表中 值（ ）
x 1 y 4 y 7
的差值为 。这说明这个由 ， 构建的关系函数不是
3 a=2 b=2
特别理想。所以我们应努力调整参数 和 的值，让函数的
a b
输出预测值与真实值差距最小。 参见 知识链接“多
P63
变量线性回归及梯度
表2-3 单变量线性回归示例
下降”
（ ）优化函数的方法
2
人们一般通过构建代价函数（ ）来衡量预测
cost function
值与真实值的差距。这里采用一种常用方法：最小二乘法。
最小二乘法（ ，又称最小平方法）
least-squares method
小贴士
是一种数学优化技术。它通过使误差（预测值与真实值的差
值）的平方和最小化来寻找数据和函数的最佳匹配。利用最 当 （ ， ）最小时，可得
J a b
小二乘法可以简便地求得未知的数据，并使得这些求得的数
据与实际数据之间误差的平方和为最小。
从公式角度理解，就是要在给定数据对 ， ， ，
(1) (1) (2)
(x y ) (x
(2) ⋯ (m) ， (m) 及假设函数 的条件下，求得 和
y ) (x y ) y=ax+b a
的值，使得代价函数的值 ，
(1) (1) 2 (2)
b J (a b)=(y -ax -b) +(y -
(2) 2 ⋯ (m) (m) 2 达到最小。将上例表中的数
ax -b) + +(y -ax -b)
据代入，可求得 ， ，故上例使用最小
a=1.339 b=4.449
二乘法回归得出的自变量 与因变量 的关系为：
x y
。
y=1.339x+4.449
如图 所示，回归得到的直线与数据点的趋势
2-46
一致。这说明用最小二乘法所计算出来的参数 、 较
a b
好地反映了数据的分布，这是一条最佳的拟合线。
同理，我们也可以利用最小二乘法来计算车流量的
、 值，进而预测图 中某路口 点至 点的车流量。 图2-46 例题中线性回归的结果
a b 2-45 8 9
55人工智能初步
活 动
参考图 ，尝试利用线性回归的方
5.2 2-47
法对图 上的某路口车流量进行预测，计
2-45
算出回归直线的参数 、 的值，并算出 点到
a b 8
点预计的车流量（实际值为 ）。对比一
9 1890
下预测值和实际值的差别，说说你对这个差别
的思考。
尝试了解 中的 、
5.3 Python Pandas sklearn
等工具包。利用它们，用计算机模拟的方式重
新计算 的问题。运行配套资源中的代码最
5.2 图2-47 某路口车流量线性回归的结果
终得到预测值和回归后的图形。
3．根据路况进行智能决策
智能车的智能决策模块可以根据目标以及问题特征进行
决策。进行路径规划时，智能决策模块需要对有关路况的各
个特征进行判断，这些特征包括施工情况、所处区域的位置
情况、通过的时间点等，如图 所示。只有综合考虑所
2-48
有相关特征才能准确地进行决策。
图2-48 典型智能决策系统模块图
（ ）了解决策树算法
1
为了综合考虑多种特征进行决策，最简单的做法是对所
有特征逐个进行判断。决策树（ ）算法正是遵循
decision tree
这样的思路。
56第二单元 理解人工智能技术的思想与方法
决策树算法从“树根”开始利用某一特征将样本分类，
接着根据分类结果“生长”出数条“树枝”，再利用其他特
征进行分类。这样反复“生长”，直到长出“叶子”，即最
终的分类结果。决策树用图形来表示即是由多个判断节点组
成的（倒置的）树形。
以图 的决策树为例，它的基本原理是：首先选取
2-49
施工情况作为判断变量（根节点， ），根据是否施工，
root node
决策树生成两个分叉，也就是树枝。由于只要道路施工，无
论其他因素如何，道路均难以通行，因此走到“施工”这个
分叉的所有样本，都会直接被判为“不可通行”。如果道路
未施工，则无法直接确定可不可以通行，这时需要利用另一
个特征属性进一步判断。比如考虑道路日常车流量，如果该
区域车流量小，那么不需要考虑其他条件或者特征属性，均
可以输出决策“可以通行”。若该区域车流量大，需要接着
图2-49 决策树示例
判断其他特征属性。样本被最终判定为“不可通行”或“可
以通行”的子节点（ ）无法再继续生成分叉，被称
child node
为叶节点（ ）。我们把可以继续形成分叉（即拥有
leaf node
子节点）的树节点称为“非叶节点（ ）”。
nonleaf node
当输入一个样本 … 后，决策树算法会根据每
x=(x1,x2, ,xD)
个节点预设的特征属性 以及分叉生长规则走到下面一层的
xi
节点，接着根据这个新寻到的节点的预设特征属性以及分叉
规则，继续往决策树的下一层走，直到某个叶节点，整个行
程结束。
每个样本依据其特定的特征取值，在决策树上都有唯一
确定的路径（自根节点至叶节点）。在叶节点上，完成最终
的决策，如决定是否可通行。
（ ）了解决策树的构建方法
2
决策树需要根据特征属性设置节点，每个节点提一个问
题，通过判断将数据分为两类，直到不可再分为止。目前，
通常采用下面两种方法来确定特征属性，构建决策树。
①使用专家规则
在一些情况下，如果问题相关的特征类型不多，而且我
们又具备一定的专家知识，那么可以通过这些专家知识，“手
动”地建立一棵决策树。
具体实施中，可以人为地规定在生成决策树时所考虑特
征的先后顺序，同时对每个分叉节点人为地设置我们认为最
合适的分叉判别条件。例如在上述的例子中，一般认为只要
57人工智能初步
道路施工就应设为不可通行，因此应该先判断道路施工情况，
然后考虑其他因素。使用专家规则构建决策树时，所有特征
属性的先后判断顺序，以及每个节点分叉条件，都需要人工
事先规定好。
②使用数据训练
小贴士
在很多情况下，我们并不具备专家的能力。例如某个分
决策树训练的具体过程
类问题有 多种特征属性，这时，人工设置分叉条件显
如下： 1000
然很难做到。在这种情况下，可以让机器使用大量历史数据
①初始化一个根节点。
（带有最终分类标签的样本）来自动构建决策树。这种方式
②寻找一个合适的特征
属性作为该节点往下分叉的 通常称作决策树训练。
判别变量，并且对该变量设 决策树训练通常是逐层地通过选择某个属性，设置某个
置一个分叉判别函数。 阈值或分叉条件来训练每个节点。
③根据判别函数对数据
图 展示一个通过数据训练生成决策树的例子。表
进行分析，将当前节点上的 2-50
中包含了判断某道路是否可通行的历史记录，共有 例
数据往下面的子节点推送， 2-4 5
可以通行和 例不可通行的样本。可以发现，凡是包含“施
并重复②的操作。
7
④当数据达到某个节点 工”这一特征的样本均不可通行，因此先利用施工情况进行
无法继续分类（全属于一个 判断。这时“施工”分支成为了叶节点，而“未施工”分支
分类标签），则这个节点成
还有 例样本。再利用预计车流量，将“未施工”分支中可
为叶节点，不再继续生成子 8
以通行和不可通行的样本分开。当预计车流量小于 时，
节点。 79
样本均为可以通行，否则均为不可通行，因此将阈值设置为
。至此所有数据均已到达叶节点，决策树生成完毕。
79
表2-4 判断某道路是否可通行的历史记录
特征属性 决策结果
施工情况 预期车流量 是否可通行
施工 不可通行
48
未施工 不可通行
80
施工 不可通行
83
施工 不可通行
29
未施工 可以通行
71
未施工 可以通行
78
未施工 可以通行
47
未施工 不可通行
87
未施工 可以通行
68
施工 不可通行
75
未施工 可以通行
73
未施工 不可通行
图2-50 利用表2-4的历史数据生成决策树
90
58第二单元 理解人工智能技术的思想与方法
4．搜索最佳路线
利用决策树算法对道路进行筛选之后，需要在剩下的“可
以通行”的道路中对从起点到终点的路径进行搜索，选择其
中最优（最短）的一条。这时，路径搜索系统就发挥作用了。
（ ）了解基本的搜索算法思想
1
为了便于搜索，首先将地图简化，用方格表示地图中的
区域，每个方格的状态只有可以通行和不可通行两种。存在
障碍物和智能决策排除的道路均标为不可通行。每一步可以
从一个方格移动到相邻的可以通行方格。我们将方格称为图 图2-51 一张简单的地图
中的节点。智能车所在的起点与终点公园之间隔着一条河（图
），车子必须从桥上通过，这种情况可以抽象成图
2-51 2-52
的样子（深灰色格子为不可通行，其他格子为可以通行）。
路径搜索算法在地图上进行搜索的过程类似于走迷宫。
要找到最短的路径需要策略。一般有两类搜索算法：一是盲
目型搜索，二是启发式搜索。
盲目型搜索分为两种：深度优先搜索（
depth-first
）和广度优先搜索（ ）。
search breadth-first Search
深度优先搜索（图 ）算法的思路是一条路走到底，
图2-52 抽象后的地图
2-53
尽可能地往纵深方向的节点走，直到终点为止，然后再回头
尝试其他走法。经过多次尝试之后能够找到一条比较短的路
线，但是为了保证找到最短路线，必须走遍所有的路线。
广度优先搜索（图 ）算法的思路是先尽可能横向探
2-54
索周边的区域，若没有找到终点，则到下一层的节点继续横
向探索周边的区域，直到探索到终点为止。这样可能要探索
很多地方，但不一定需要走遍地图就可以找到最短的路线。
图2-53 深度优先搜索 图2-54 广度优先搜索
59人工智能初步
小贴士 启发式搜索（ ）算法与盲目型搜索不同，它
heuristic search
像明眼人走迷宫，有信息提示它终点在哪，它会优先朝着终
启发式搜索也称为有信
点的方向移动或探索。由于有外部信息的支持，所以每一步
息搜索，它利用了问题中的
可以选择较好的方向，最终用较少的步数找到最短路径。一
额外信息来指导搜索方向。
尽管启发式搜索有时也会出 般启发式搜索的效率大大高于其他搜索方法。
错，导致沿着错误的路径进 （ ）了解一种启发式搜索—— 算法
2 A*
行探索，但一般而言启发式
算法是一种启发式搜索算法。它像广度优先搜索那样
搜索仍然能够达到远超盲目 A*
先对周边的区域进行探索，但在探索的时候不是每次都向所
型搜索的效率。
有可能的方向探索，而是优先朝着最有可能位于最短路径上
的位置探索。该算法能够跳过一些明显较差的区域，缩小搜
索范围，进而提高搜索效率。它的流程如图 所示。
2-55
图2-55 A*算法流程
算法是为每一步选取与已探索区域相邻节点中的最优
A*
节点，并探索该最优节点。障碍物和已探索过的节点不再探索。
重复以上过程，直到探索到目标节点，找到最优路径。
为了寻找到最优的下一步（最优节点），需要估计经过某
候选节点的从起点到终点的路径总长度。这一路径可以分为
两部分，即从起点到该节点的路径和从该节点到终点的路径。
用公式表示为： 。其中 是路径总长度， 为起点到
F=G+H F G
该节点的最短路径长度（已知）， 为该候选节点到终点的
H
路径长度（估计）。与探索区域相邻的区域中 值最小的节点，
F
即为我们下一步探索的最优节点。一般情况下，距离终点越
近的节点到终点的路径长度也越短，为了便于估计，可以令
为该节点到终点的直线距离。如图 所示，左上角粉红
H 2-56
色节点为起点，右下角蓝色节点为终点，那么绿色实线的长
度为橙色节点的 值，蓝色虚线的长度为橙色节点的 值。
G H
可见，越接近图中对角线的橙色节点，蓝线和绿线的总长度
也越短。因此，接近对角线的节点比起其他节点更有可能位
于最佳路径上。
图2-56 G值和H值的示意图
60第二单元 理解人工智能技术的思想与方法
（ ）使用 算法搜索最短路径
3 A*
在图 所示的抽象地图上，红色表示起点，深蓝色表
2-57
示终点，浅蓝色表示候选节点，橙色表示当前节点，深灰色
表示障碍物和已探索节点。图中数字为该节点的 值。
F
参见 知识链接“
P64 A*
算法的路程估计”
图2-57 使用A*算法搜索最短路径之1
首先，将起点作为第一个已探索节点，把与它相邻的节点
加入候选列表，并计算它们的 值。
F
起点右侧的节点具有最小的 值，所以第二步选择该节点
F
为当前节点（橙色节点）。将与橙色节点相邻的节点加入候选
列表。这一步没有新的节点加入候选列表，因此下一步选择
F
值仅次于当前节点的节点，即起点右下方的节点。
第三步，将起点右下方节点设为当前节点，把与该当前节
点相邻的节点加入候选列表，并计算 值，如图 所示。
F 2-58
第四步，选择 值最小的起点下方的那个节点（如图 小贴士
F 2-59
中的橙色节点），并更新候选列表。
图中节点的 值计算方
F
法：水平和竖直方向的一步
距离为 ，对角线方向的一
1
步距离按 计算。
1.4
第四步中并没有新的节
点被加入候选列表，但是起
点下方第二个节点的 值改
F
变了。这是因为原本的 值
G
是按照起点—右下—左下的
路线计算的，而探索了起点
图2-58 使用A*算法搜索 图2-59 使用A*算法搜索 下方节点后就可以选择直接
向下的路径， 值可以得到
最短路径之2 最短路径之3
G
减小，因此该节点的 值和
G
值被更新。
反复以上的探索过程，直到探索到终点为止，即可找到
F
从起点到终点的最短路径。
本项目中，为了实现路径规划，我们先采用线性回归预
61人工智能初步
测道路的车流量，再通过决策树综合多种因素，排除难以通
行的道路，最后利用启发式搜索找到前往终点的最短路径。
这三种算法在社会其他领域也有着非常广泛的应用（图 ）。
2-60
图2-60 路径规划所涉算法的社会应用
本项目中，我们只是了解了单变量线性回归的应用。但
在实际生活中，影响车流量的因素还有很多。社会生活中的
问题往往更加复杂，可能需要用多变量线性回归来进行预测。
线性回归能够反映数据的变化趋势，经常用于预测各种指标，
例如商品价格变动趋势、人口情况发展趋势等。
决策树算法能够综合多种因素作出决策，常常用于分析
大量数据，以辅助公司运营决策。另外，决策树本质上是对
样本进行分类，因此它也可以用于一般意义上的分类识别，
例如图像和文本的分类等。
启发式搜索能够高效地从数量巨大的可能情况中找出最
优解，这使它在智能路径规划中起到不可代替的作用。除此
之外，像需要在非常多的走法中找出最优解的棋类游戏和需
要在网络中高效地爬取数据的搜索引擎等应用领域中，启发
式搜索也发挥了作用。
活 动
尝试使用 算法，在本项目的地图（图 ）上找出从红色节点到蓝色
5.4 A* 2-52
节点的最短路径。算出各个必要节点的 值，并最终找出一条最短的路径。
F
完成后与图 对照验证其正确性，并思考：本例中最短路径不止一条，为
2-61
什么最短路径选择的是图中的这一条？
62第二单元 理解人工智能技术的思想与方法
图2-61 最短路径结果
尝试用计算机运行决策树算法和 算法。配套资源中给出了运行程序
5.5 A*
所需的函数、保存地图信息的“ ”和所需代码。指定决策策略后，体验用
map.txt
决策筛选和路径搜索找出从起点到终点的最短路径的过程。
知识链接
多变量线性回归及梯度下降
一个路口的车流量不仅仅与时间有关，还与附近居住的人口、城市的繁华程度等因素
有关。将两个或两个以上的影响因素作为自变量，并推测它们与因变量变化之间关系的回
归，称为多变量回归。如果它们之间的关系是线性的，则称为多变量线性回归。具体地说，
就是要找到如图 所示的一个平面，使所有的真实数据点到这个平面的距离之和 最小。
2-62 J
图2-62 多变量线性回归
63人工智能初步
人们常用梯度下降法来帮助找到这个平面。梯度下降法是沿梯度相反方向（下降最快
方向）求解函数的极小值。梯度下降的算法有两个可调参数，学习率 η 和迭代次数 。
N
学习率η决定了每次梯度下降的幅度，迭代次数 决定了迭代的次数。如图 所示，
N 2-63
假设从 点出发，要找到一条快速到达最低值 点的路。梯度下降的思想是环顾四周找
A D
到一个下降最快的方向然后走一步。接着，再环顾四周沿着新的下降最快的方向走一步。
不断这样重复，直到发现周围都比我们高了，那么就认为走到最低点了。当然有时候，如
果学习率和迭代次数设置不当，如从 点出发，也是按照当前下降最快的方向下降，却可
B
能落到局部最低点 。正常情况下，可通过多试几组学习率和迭代次数来尽量避免落入局
C
部最低点。最后，通过设置好梯度下降的学习率和迭代次数，不断重复下降的过程，就能
找到最优的参数使距离之和 最小。
J
图2-63 梯度下降法示例
A* 算法的路程估计
在 算法中，我们必须对候选节点到终点的路径长度进行估计。由于无法得知具体
A*
路线，通常都用距离来估计路程。项目正文采用的是直线距离，又称为欧氏距离（
Euclidean
），但事实上还有两种距离在路径规划中应用得更为广泛：曼哈顿距离（
distance manhattan
）和对角线距离（ ），如图 所示。
distance diagonal distance 2-64
曼哈顿距离是指两点在水平方向和竖直方向的距离之和，也就是只能进行水平和竖直
两个方向移动时的最短路径长度。由于城市中的道路通常横平竖直，曼哈顿距离用于估计
城市中的路径长度较为准确，因此也被称为城市街区距离。
和曼哈顿距离相比，对角线距离还允许沿方格对角线方向的移动 这和正文例子中每
,
一步的移动方式一致，因此是最适合本项目例子中路程估计的距离。下图给出了欧氏距离、
曼哈顿距离和对角线距离下的最短路径。
欧氏距离 曼哈顿距离 对角线距离
图2-64 三种距离下的最短路径
64第二单元 理解人工智能技术的思想与方法
拓展阅读
自回归滑动平均(Auto Regressive Moving Average，ARMA)模型
对于如图 所示的复杂时间序列分析和预测，通常需要引入自回归滑动平均之类的更
2-65
复杂模型来进行预测。
年份
图2-65 某地区火车乘客数量统计图
我们可以直观地看到这个地区火车乘客数量变化有两个特点：
（ ）趋势：从长期来看，乘坐火车的人数是不断增长的。
1
（ ）周期性：在春节等假期期间，乘坐火车的人数会增加。
2
对于具有这样特性的时间序列，自回归滑动平均模型处理方法是先将趋势和季节性等影
响序列的因素通过建模的方法移除，形成一个简单的时间序列，然后对这个简单的时间序列
进行预测，将得到的预测值再加上建模后的季节性和趋势的约束，得到最终的预测值（图
2-65
中红色部分）。从图 中可以看到，预测值很好地延续了历史数据的周期性和趋势。
2-65
自回归滑动平均模型广泛应用于经济活动和自然现象的预测。比如，用于对国际原油价
格的预测、对具有季节性变动特征的商品销售量的预测、对小麦产量的预测等。
——摘译自
Aarshay Jain.A comprehensive beginner's guide to Create
a Time Series Forecast(with codes in Python).2016
65项目六
让智能车识别道路障碍物
—— 认识人工神经网络与深度学习
要让智能车能够上路，并且在遇到行人时，可以自主地减速停
车，待行人通过后再启动，就必须让智能车能识别障碍物，其本质
是对障碍物的图像进行识别，如图 所示。因此，智能车需要
2-66
具备物体识别系统。目前大多数接近实用的人工智能物体识别系统，
如车牌识别、人脸识别、交通标志识别等，都基于人工神经网络和
深度学习。
图2-66 基于人工神经网络的智能车障碍物识别过程
项目学习目标
在本项目中，我们将通过探究如何让智能车识别障碍物，来学
习人工神经网络和深度学习的思想、方法及相关技术。
完成本项目学习，须能回答以下问题：
．什么是人工神经网络？其基本原理是什么？
1
．什么是深度学习？其基本原理是什么？
2
．人工神经网络如何进行图像识别？
3
．深度学习和人工神经网络之间的关系是什么？
4第二单元 理解人工智能技术的思想与方法
项目学习指引
智能车上路时，必须采集车辆周边的实时信息，对周围
的每个物体、交通标识进行辨认、分析。如果车辆前方有障
碍物，首先要在车辆运动的前提下，确定障碍物是人还是物，
是静止的还是运动的。这些都需要能在极短的时间里加以识
别、判断。由于天气、道路环境等条件复杂，这种识别和判
断还会受到光线变化、遮挡等问题的干扰。
相比简单的静态人脸识别，运动状态下的智能车对周围
障碍物的识别难度高得多。在过去数十年里，一些研究人员
致力于从人脑的神经系统汲取灵感，设计人工神经网络来解
决复杂的图像识别问题。目前，人工神经网络和深度学习技
术在模拟人类认知的道路上得到深入发展，也被广泛用于解
决智能车障碍物的识别问题上。
1．初识人工神经网络
（ ）人工神经网络的结构
1
人工神经网络在结构和原理方面模仿了人类的大脑神经
网络。图 展示了现代主流人工神经网络的基本结构。
2-67
图中每个圆圈代表一个神经元，纵向的几个神经元组成一层
神经网络，各层神经网络间互相连接（可以顺次，也可以不
顺次），上一层的输出作为下一层的输入，这样互相联系，
组成最终的神经网络。
图2-67 人工神经网络组成结构示意图
67人工智能初步
小贴士 一个完整的人工神经网络通常包括一个输入层、若干个
隐含层（也称为中间层）以及一个输出层。输入层的神经元
分层是神经网络的一个
与输入信息的所有维度相连接，例如图片识别中，每个输
重要概念。神经网络的层级
结构具有非常强大的特征抽 入层的神经元均与每个像素点连接。输入层与隐含层的所有
象能力，是决定神经网络性 节点两两相互连接。输出层的节点通常指示所要识别的语
能优越程度的关键。
义标签。对于图片识别来说，如果有 个类别（图 中
C 2-67
），输出层通常就有 个神经元。每个神经元输出的值
C=2 C
在 与 之间，表明所输出的图片属于某个类别的概率。这
0 1
种上一层所有节点都和下一层任意节点相连的人工神经网络
参见 知识链接“行
也称作全连接神经网络。以行人识别为例，其本质就是图像
P77
人检测”
识别：神经网络判断当前路段是否有行人，实际上就是用许
多神经元处理输入的当前道路图像的像素，并从中提取特征
信息，进而作出判断。
小贴士 （ ）人工神经网络的基本单元：神经元和激活函数
2
人工神经网络的提出最初是受到人脑信息处理方式的启
人工神经元只是人脑神
发（图 ）。人脑神经网络的基本单元（神经元）负责
经元的数学模型。在实际使
2-68
信息的感受、激活和传输。人工神经网络模仿人脑的神经元
用中，主流的人工神经网络
与人脑的神经网络并没有直 构建了相似的基本单元，用于承担信息的感受、激活和传输
接关系。 三大基本任务。
图2-68 人脑神经元与人工神经网络神经元对比
人工神经网络中的神经元将输入信息线性组合后（感
小贴士
受），经过非线性变换（激活），再传给下一层（传输）。
激 活 函 数（ 如将输入写作（ ， ，⋯， ），将输出写作 ，那么他
activation a1 a2 aN aout
）在提升人工神经网 们之间的关系可以用数学表达式表示为：
function
络性能方面起着至关重要的
（ ⋯ ）
作用。激活函数可以认为是 aout=g b+w1a1+ +wNaN
在这个数学表达式中， 和 是神经元的参数，代表了
人工神经网络必不可少的一 wi b
信息的处理过程；函数 是非线性函数，也称激活函数。
部分。这里“激活”的意思
g
实际上是指对于不同输入范 下页图 为四种常用的激活函数。 函数对于负
2-69 ReLU
围的信号，产生不同的响应 向信号没有响应，而完全保留了正向信号； 函数则
Sigmoid
机制。
不同，它对于幅度较小的信号有响应（在 与 之间近
-0.5 0.5
68第二单元 理解人工智能技术的思想与方法
似线性），而对于幅度过大的信号则相应饱和（输出近似为 ）。
1
图2-69 四种常用的激活函数
（ ）人工神经网络的功能：前向计算
3
如果输入一张有障碍物的道路图片，人工神经网络如何
输出“前方有障碍物”的标签呢？这可以用到人工神经网络
的主要计算功能——前向计算。人工神经网络计算的发生顺
序是不断地将刺激由一层传向下一层，即按照从输入层，经
过隐含层，最后到输出层这样向前的顺序。而每个节点的输
出值计算过程就是神经元的处理过程。通过这种方法，一层
层不断地运算，最终得到输出层结果。
人工神经网络的前向计算可以看作是一种静态非线性映
射。通过简单非线性处理单元的复合映射，可获得复杂的非
线性处理能力。实际上，如给予人工神经网络足够多的神经
元和层数，人工神经网络能够以任意精度逼近（模仿）任意
连续函数，得出足够精确的结果。
（ ）人工神经网络的训练方法：反向传播 小贴士
4
人工神经网络需要具备最佳参数来进行有效的图像识
反向传播算法于 世
别，这个寻找最佳参数的过程就是训练。反向传播算法是一 20
纪 年代由机器学习研究
80
种很好的训练人工神经网络的算法。
者们提出。
反向传播以误差减小为准则，旨在得到最优的参数矩阵，
进而将多层人工神经网络应用到分类或者回归任务中去。以
图 所示的一个两层人工神经网络为例，该人工神经网
2-70
络包含两个输入节点 和 ，两个隐含节点 和 ，一个输
a b c d
出节点 。相应每个节点的输出是 、 、 、 和 。相
e ya yb yc yd ye
邻两层节点由权重 连接，如节点 和节点 之间的权重用
w a c
69人工智能初步
小贴士
图2-70 两层人工神经网络示例
更新权重参数的目的是
表示。图中实线灰色箭头代表了信息传播方向，即从人
将人工神经网络的预测输出
wac
工神经网络第一层向前传播至第三层；而反向传播就是按相
与真实值进行比较（如做差
运算），然后将误差通过反 反方向，即从第三层向第一层不断更新权重参数。
向传播一层层地向人工神经
网络的前面层传播。通过传
2．了解深度学习及其基本操作
播的信号，修改网络权重参
数，使误差变小。 下面以卷积神经网络（ ）为例，理解深度学习的基
CNN
本思想。
（ ）深度学习
1
使用人工神经网络识别车前方障碍物时，我们会发现，
小贴士
一个 × 像素的红绿蓝三色图像，包含的像素非常
卷积神经网络是深度学 640 480
多，这说明其参数量巨大。由于相邻两层节点两两相连，
习技术中极具代表性的网络
假设第一个隐藏层节点数为 （通常隐含层的神经元
结构之一，它在图像处理领
1000000
数目会更多），仅第一层参数量就达到了（ × × ）
域取得了很大的成功，在自
640 480 3
然语言处理等领域中也有重 × × 。如果算上所有层的参数，整个人工
11
1000000=9.216 10
要应用。 神经网络会非常巨大，给计算和存储带来极大的挑战。随着
大数据时代的到来，数据的量和复杂度已超出浅层人工神经
小贴士 网络的学习能力，导致浅层人工神经网络在大型数据集上的
表现不能令人满意。这就要求人工神经网络必须越来越“深”。
深度学习的“深”既表
示人工神经网络的层次多， 人类大脑的神经元“各司其职”，即每个区域的神经元
也表示模型参数多。 只对特定的输入进行响应。同时，人类的神经网络层级连接
非常“深”，且随着层级加深，神经元的感受野逐渐变大。
浅层的神经元可能只对形状和方向有响应，深层的神经元对
方向和运动均有响应，而更深层次的神经元则对复杂的复
小贴士
合运动有响应。通俗地说，就是前一层每个神经元只处理
在图像识别中，感受野
× 大小的区域，后一层的神经元可处理 ×
（ ）用来表示神 1cm 1cm 10cm 10cm
receptive field 的区域，感受野不断变大，最后的几个少量神经元可以输出
经网络内部的不同神经元对
整个图像的抽象表达。换句话说，前面的层级处理比较局部
原图像的感受范围大小。人
工神经网络中，指每一层输 的表观信息，后面的层级处理更加高级的语义信息，最后的
出的像素点在原始图像上映 层级则完全理解图像的全局语义信息。受人类大脑的神经元
射的区域大小。
深层连接结构启发，人工智能科学家为人工神经网络设计了
70第二单元 理解人工智能技术的思想与方法
卷积操作和池化操作两大技术，使得深度神经网络变为可能。
（ ）深度学习的基本操作——卷积操作
2
在深度神经网络中，一类很重要的网络结构称为卷积核。
卷积核是这样来处理信息的：
图2-71 卷积操作图示
数字化学习
卷积核通常是远小于输入图像尺寸的数据矩阵，如图
所示的卷积核是一个 × 的数据矩阵，它与输入图像 上网查找卷积操作的案
2-71 3 3
例，理解其思想。
中的蓝色框内数据进行卷积（卷积核与相应输入位置相乘再
相加）操作，得到输出结果 。然后把卷积核平移到下一个
3
位置（红色框），进行相同的操作，得到下一个计算结果（ ）。
-1
以此类推，得到最终的输出结果（ × 的矩阵）。通俗地讲，
4 4
卷积核就像一个滑动窗口，沿着表示输入图像的矩阵逐格滑
动，进行点乘，最终根据滑动的位置生成相应的输出，这样
卷积核的权值被整个图像共享。相对于全连接神经网络，经
卷积操作的神经网络的参数量一下子从（ × ）×（ × ）
6 6 4 4
降低到（ × ） （即卷积核的大小）。像这样包含
= 576 3 3 = 9
卷积计算且具有深度结构的神经网络，称为卷积神经网络。
在道路障碍物识别时，卷积核是一张典型的障碍（如图
中的行人）照片，输入是前方的路况。卷积神经网络
2-72
就是拿着这张照片（卷积核）在前方道路上不断比对（对应
卷积操作时的平移滑动）。如果某一区域内的图像与照片足
够相似（输入的某一区域和卷积核足够相似），就判断该区
域内有行人（输出一个高响应），否则判断没有行人（输出
一个低响应），最终判断出当前道路上是否有障碍（行人）。
71人工智能初步
图2-72 利用卷积操作识别障碍物
（ ）深度学习的基本操作——池化操作
3
卷积操作的引入大大降低了人工神经网络特别是深度神
经网络的参数量。在深度学习中，池化操作能使人工神经网
络对于信号的处理也跟人脑一样，由低层次局部图像特征的
处理，不断向更大感受野、更多语义信息的处理发展。不同
于卷积操作，池化操作是一种非线性操作，它同时能够直接
改变输出特征的分辨率，将其映射到高维非线性空间。所以
池化操作在人工神经网络特征提取中是非常重要的一环。图
展示了两种常见的池化操作：平均池化和最大池化。
2-73
图2-73 平均池化和最大池化的感受野变化
最大池化是选择特征图中 × 区域内最大值作为输出；
2 2
而平均池化则是将 × 区域内的所有值平均后输出。两种
2 2
池化操作都把输入特征缩小了，同时对其进行非线性映射得
到输出，成为神经网络特征选择过程中的重要组成部分。通
72第二单元 理解人工智能技术的思想与方法
过池化操作，神经元的感受野随着层数不断增大。
从池化层的具体操作可以看出，池化操作具有非常直观
的物理含义。如图 所示，在输入特征中每一个色块都
2-73
可以看作一个“池子”（大小为 × ），最大池化就是从“池
2 2
子”中选取最大的那个值作为输出，而平均池化把“池子”
中的所有元素值平均后输出。
不同的池化操作实际上是从输入特征中抽取具有不同统
计特性的部分，从而强化网络的特征抽取能力。
图 是一个典型的深度神经网络图示，其中包含了
2-74
卷积操作和池化操作。从中可以看到，随着层级加深，学习
到的卷积核具有越来越明确的语义抽象含义（像素—边缘—
部件—轮廓—物体）。现代人工神经网络的成功证明人工神
经网络的层级结构具有非常强大的特征抽象能力，而这种抽
象能力也是神经网络性能如此优越的关键。
图2-74 典型深度神经网络图示
3．探索深度学习的最新发展
（ ）深度学习发展中的难题
1
人工神经网络在 世纪就有了较为完备的理论基础，
20
但在其发展过程中遇到很多难题。尤其是随着网络层数的增
加，其参数总量也在快速增长，这给人工神经网络的训练带
来了困难。
① 过拟合与欠拟合
在深度学习领域中，经常遇到的一个难题就是模型的学
习能力与数据的复杂度不匹配，进而导致模型精度下降的现
73人工智能初步
象。如果模型能力远超数据复杂度，那么在学习过程中模型
会将本不是特征的属性（如噪声）当作某种特征，从而遇到
测试数据时会因为“过度学习”而导致测试精度下降，我们
称之为过拟合（ ，图 ）。另外一种情况是模
over-fitting 2-75
型能力不足以学习到全部特征，某些与精度紧密相关的特征
没有被模型学习到，这同样会导致测试的精度下降，我们称
之为欠拟合（ ，图 ）。如何匹配模型能力
under-fitting 2-77
与数据复杂度，使其达到最优拟合（图 ），避免过拟
2-76
合与欠拟合，一直是深度学习甚至机器学习领域内的一个重
要问题。
图2-75 过拟合 图2-76 最优拟合 图2-77 欠拟合
② 梯度消失与局部最优解
深度神经网络另外一个需要面对的问
题是反向传播算法的失效。反向传播的梯
度信号在最初的几层神经网络具有较大的幅
度。通常距离输出层最近的几层神经网络可
以得到较好的更新。就好像图 中一辆
2-78
汽车的目的地在某个地势较低的地方，沿
着山坡向下行驶即可，地形能明确地指引
图2-78 汽车沿山坡下山
方向。
但是由于激活函数往往会限制信号的
幅度，导致反向传播的梯度信号也会随着
层数的增加而减弱。距离输出层较远的神
经网络参数基本得不到更新，进而导致模
型精度受损。就好比图 中汽车驶入平
2-79
原地形，失去了明确的地形作为指引，行
驶方向变得不明确。这就是深度学习中经
图2-79 汽车驶入平原 常遇到的“梯度消失问题”。
74第二单元 理解人工智能技术的思想与方法
类似于梯度消失，深度学习中还会遇到的一个问题是陷
入局部最优解（ ）。这是指模型参数被优化到某
local optima
个局部范围内的最优值，导致模型的性能无法进一步提高。
这好比汽车沿着地形行驶到某一个山谷底部并停了下来，但
是它的目的地（全局最优解）并不在这里。如何避免陷入局
部最优解也是深度学习需解决的一个关键问题。
这些难题在人工神经网络技术被提出的很长一段时间里
都没有很好地解决。但近年来，随着深度神经网络算法和结
构得到革新，数据量的迅猛增长，以及以 为代表的并
GPU
行计算技术的出现，梯度消失、陷入局部最优解等问题得到
一定程度的缓解，从而使得深度学习的理论得以发展。
（ ）深度学习的新技术和新机遇
2
①卷积神经网络共享权重和 加速训练
GPU
为了解决参数过多的问题，人们首先提出使用卷积神经
网络实现参数共享。卷积操作是卷积核在输入信息上进行空
间滑动，这其实就是实现了输入信息对于卷积核的共享。相
比于全连接神经网络，卷积神经网络大大降低了参数总量。
同时，以 为代表的并行计算技术的出现，实现了网络
GPU
训练的并行化。有并行计算的帮助，我们可以高效地处理多
个网络参数和数据。图 展示了近几年在 驱动下深
2-80 GPU
度学习计算速度的提升情况（第一列为 驱动下的深度
CPU
学习计算速度，假设为 ，则 年 月时，主流 驱
1 2015 12 GPU
动下深度学习计算速度为 ）。
53
深度学习计算速度
图2-80 GPU驱动下深度学习计算速度的提升情况
② 算法和结构上的革新
为了解决梯度消失难题，最近几年人们又提出了很多算
75人工智能初步
法和结构上的革新。如表 所示，人们使用了全新的激活
2-5
函数，同时增加了 层，还有批归一化处理技术和首
Dropout
次提出的跨层连接技术。
表2-5 深度学习相关技术革新情况表
解决的问题 采用的技术 原理简介
过拟合 多模型融合
Dropout
新的激活函数 非饱和函数保留梯度
梯度消失 跨层连接 多通路保证梯度幅度
批归一化处理 统一数据分布
人工神经网络技术提出初期，激活函数仅有 一
Sigmoid
种。为了解决优化算法的失效难题，人们提出了更为简单却
有效的激活函数（如 、 等）。它们很好地保证
ReLU Softplus
了误差信号在向后传播过程中的影响力，使人工神经网络的
性能得到保证。以 函数为例，它和 函数的最
ReLU Sigmoid
大不同在于正向信号（大于 区域）不饱和（输出范围不限），
0
这样可以有效保证梯度信号在经过非线性层时的幅度，从而
缓解梯度消失的问题。
随着新的数据处理技术的出现，如批归一化处理等，误
差在后向传播过程中的有效性得到进一步加强。直观地说，
批归一化处理技术保证了数据分布被归一化到一个合理的范
围内，在这个范围内可以将误差信号的影响力最大化，使得
深度神经网络的参数更新成为可能。
跨层连接是 年提出的。跨层连接实现方式较为简
2015
单（不相邻层之间存在信息通路），且经过大量实验证明它
在缓解梯度消失方面非常有效，现在已经成为解决此类问题
的重要手段。
数字化学习
在新型优化算法、海量数据和并行计算三驾马车的帮助
上网了解 和
ImageNet 下，以深度神经网络为主的深度学习在近几年大放异彩。如
错误率的含义。
TOP5 图 所示，从 年开始，人们不断尝试提高人工神经
2-81 2010
网络的层数，得到的网络性能不断攀升（错误率不断降低），
参见 知识链接“深
P78 甚至已经超越人类专家在 数据集上的表现（
度学习最新进展” ImageNet TOP5
错误率 ）。不仅如此，深度神经网络在物体检测、图
5.1%
像分割、图像生成等领域也有非常成功的应用。
76第二单元 理解人工智能技术的思想与方法
图2-81 历年Image Net竞赛TOP5错误率对比
活 动
结合配套资源，尝试利用深度神经网络检测样例图片中是否有行人。
6.1
活动步骤为：（ ）在计算机上搭建基本的深度学习运行环境。（ ）正确运行
1 2
所提供的 程序（ ），载入模型并读入图片。（ ）观察输入某一图
Python detector.py 3
片时的相应输出，检验深度神经网络的输出是否正确。
输出结果的格式为：（ ）如果判断含有行人，则输出“ 图片名称
1 xxx.png( )
”；（ ）如果判断没有行人，则输出“ 图片名称
contains person 2 xxx.png( ) does not
”。
contain person
在活动 的基础上，结合配套资源，尝试观察深度神经网络对图片的特征
6.2 6.1
提取结果。
活动步骤：（ ）回顾所学知识，尝试分析所抽取的特征具有的特点。（ ）运
1 2
行提供的 程序（ ），正确载入模型和读取样例图片。（ ）观察相
Python feat_vis.py 3
对应的特征提取结果并分析其特点。
注意：提取出的特征被分别保存在 个不同的图片中，同时对比观察这些图片
6
会有更加直观的感受。
率误错
%
28.2
25.8
16.4
11.7
7.3
6.7
人类
3.57
5.1
知识链接
行人检测
图 展示了将行人检测的特征进行可视化结果。在输出端，蓝色越深表示神经网
2-82
络响应越小，红色越深表示神经网络响应越大。当有行人存在时，神经网络的不同层对行
77人工智能初步
人的响应部位不同，也就是说有些层负责检测躯干，有些层负责检测头部，而有些层负责
检测四肢等。躯干、头部、四肢等都是人体的典型特征，将这些特征组合起来，在输出端
就可以看到一个大致的人体形状。可见，深度学习范畴下的神经网络学习过程是一个抽象
和理解目标物体典型特征的过程，可以认为深度学习赋予了人工神经网络很强的自主特征
学习能力。
图2-82 行人检测特征可视化
深度学习最新进展
随着深度学习在各个领域的广泛应用，多种多样的人工神经网络结构不断涌现，在相
关科研和应用方面大放异彩。以下简要介绍深度学习尤其是深度卷积神经网络在物体识别、
图像分割及图像生成等领域的最新进展。
1. 物体识别
年，有研究者提出了基于候选区域的卷积神经网络 （图 ）。不同于
2014 R-CNN 2-83
以往单阶段直接输出结果的识别网络， 首先针对输入图片产生大量候选区域作为
R-CNN
物体识别的中间结果，然后针对候选区域作进一步的识别。这种由粗到细的操作大大提高
了物体识别的精度，使得 成为物体识别领域内的标志性深度神经网络架构。
R-CNN
图2-83 R-CNN：基于候选区域的卷积神经网络
2. 图像分割
图像分割一直是计算机视觉领域内的热点研究问题。 年有研究者提出使用全卷积
2015
网络（ ）进行图像中的物体分割。如图 所示，神经网络的前半部分由卷积层组
FCNN 2-84
成，随着网络的加深，分辨率逐渐降低。为了保证输出掩膜与输入图像的分辨率一致，神
经网络的后半部分使用了上池化操作（增加特征分辨率）。这种设计方式使得 的精
FCNN
度远超之前的模型。而且 还引领了图像分割领域内的一股基于语义分割的浪潮。
FCNN
78第二单元 理解人工智能技术的思想与方法
图2-84 基于全卷积的图像分割网络
3. 图像生成
图像生成（图 ）是指利用一段随机噪声生成具有高级语义的自然图像，例如人脸、
2-85
物体等。 年若干研究者提出的对抗生成网络（ ）比较好地解决了这一问题。对抗
2014 GAN
生成网络利用一个判别网络判断由生成网络所生成图像的真实性，将它作为判断依据，不
断训练生成网络，提高其生成效果。而相反的生成网络则尽可能迷惑判别网络，从而形成
对抗。这种对抗生成的态势极大地提高了图像的生成质量，引发了图像生成领域内的一波
图2-85 图像生成
研究热潮。
图 展示了对抗生成网络所生成的人脸示例。可以看出几乎达到了以假乱真的效果。
2-86
图2-86 对抗生成网络所生成的人脸
79人工智能初步
拓展阅读
人工智能新高峰——AlphaGo
作为第一个战胜人类围棋职业棋手的人工智能程序， 在棋力上的飞速提升得益于
AlphaGo
很多人工智能技术，如深度学习、强化学习、蒙特卡洛树搜索等。
一、 的基本招式——蒙特卡洛树搜索
AlphaGo
相比于上一个被计算机程序攻克的棋类运动——国际象棋，围棋的复杂度要高几十个数量
级。如果穷举所有的可能性，国际象棋的复杂度在 种左右，而围棋在 种左右。在如
80 150
35 250
此高复杂度的情况下，使用穷举所有可能性来与人对弈围棋显然是不可取的。 采用了
AlphaGo
一种有效的搜索算法，即蒙特卡洛树搜索算法（图 ），来提高学习落子策略的效率。
2-87
首先，我们定义第（ ）次落子为
j-1
，第（ ）次落子后的棋面为 。而蒙
aj-1 j-1 sj
特卡洛树搜索的基本思想就是利用随机落子
探索围棋规律。假设初始为空白棋面 ，初
s0
始所有落子 的分值都为 ，即（ ） 。
a 1 s0,a =1
经过不断随机落子直到第 次落子分出胜负
n
后，我们把之前所有的落子策略（ ）…
s0,a0 , ,
（ ）的分值都加 ，至此完成一次蒙特
sn,an 1
卡洛树搜索。把这个过程重复多次（比如
万次），逐渐地，落子胜率较高的策略
100
相应分值就会比较高。在实际落子时，可以
根据学习到的策略进行，于是得到一个具有
图2-87 蒙特卡洛树搜索示意图
一定棋力的算法。
二、 的落子策略——深度学习
AlphaGo
然而仅有“基本招式”还不足以支撑起 。在蒙特卡洛树搜索中，每一次落子都是
AlphaGo
随机生成的，这使得整个搜索的过程并不难，进而导致学习到的落子策略并不十分高明。相应
地，人类棋手在下棋时，都会根据当前棋面判断局势，进而得出较优的落子策略。 团
AlphaGo
队由此联想到可使用深度神经网络模仿人类棋手的行为，代替蒙特卡洛树搜索过程中的随机落
子，提高搜索效率。于是
他们训练了一个 万
3000
个训练样本监督下的策略
网络。图 就展示了
2-88
以当前棋面作为输入时，
策略网络对不同落子位置
的概率估计。概率越高代
图2-88 策略网络输出的落子概率
80第二单元 理解人工智能技术的思想与方法
表人类棋手越有可能选择这个落子策略。在深度学习的帮助下， 已经可以战胜所有其
AlphaGo
他计算机，但是和人类职业选手还有一定的差距。
三、 的自我进化——强化学习
AlphaGo
强化学习（ ）是机器学习的一个分支。不同于监督学习，强化学习
Reinforcement Learning
主要用于生成控制个体的行动策略。强化学习一般包括状态、动作、奖励、方案等要素。以围
棋为例，个体是围棋程序，状态是棋面，奖励是输赢，动作是落子策略。 的强化学习
AlphaGo
过程是通过执行当前落子策略（动作）与棋面（状态）进行交互，根据输赢（奖励）不断改进
落子策略的过程。由此可以发现，强化学习的基本思路是在对游戏完全没有了解的情况下，通
过不断训练（进行多盘对弈，并获得做了动作后的分数反馈）来进行自我提升。
在强化学习的框架下， 团队设计了一个评价函数 。如图 所示，蓝色部分
AlphaGo v(s) 2-89
颜色越深，代表预测的落子胜率越高。此函数的功能是评估围棋局面的形势，以作为落子策略
参考的一部分。使用 可以让计算机在搜索的过程中不用走完全局（走完全盘耗时耗力，效
v(s)
率不高）即可判断胜负。这样可避免搜索到底，从效率（剪枝，优化算法时间复杂度）上进一
步增加蒙特卡洛树搜索的威力。为提高效率， 团队还使用机器和机器对弈的方法来创
AlphaGo
造新的对局，也就是 的左右互搏。
AlphaGo
图2-89 评价网络输出的落子胜率
在以上三大技术的帮助下， 在进行实际对弈时，首先利用蒙特卡洛树搜索算法预
AlphaGo
测棋局走势。在策略网络的帮助下， 不再随机预测落子，而是以更接近于人类棋手的思
AlphaGo
维推演棋局，以实现更加合理的棋面估计。同时在评价网络的帮助下， 可以更综合地考
AlphaGo
量具体每一个落子策略在当前棋面下的胜率，并把这一胜率也加入到棋局估计中。综合未来可
能走势和落子策略， 可以根据当前棋面进行模拟推演，从而完成一步蒙特卡洛树搜索。
AlphaGo
不断重复这样的步骤直至分出胜负，则得到当前棋面下落子策略的分值分布。在实际落子时，
采用的是分值最高的那一个落子策略。至此，融合了蒙塔卡洛树搜索、深度学习和强化
AlphaGo
学习的 不断进化，最终战胜了围棋职业高手，一战成名。
AlphaGo
——摘译自
David Silver,et al.Mastering the game of go without human
knowledge.2017
81项目七
在车展中实现“车以类聚”
——探究无监督学习与聚类算法
某城市要举办一场大型车展，参展的各类车辆有上千辆。主办
方希望根据车辆类型，将它们安排到不同的展区。然而，车辆种类
繁多，包括轿车、卡车、工程车、消防车，以及一些叫不出名字、
不知其功能的车辆。项目三中学到的方法可对车辆进行分类，但前
提是要有分类信息。如何能在没有分类信息的条件下将车辆分到不
同的展区呢？这就要用到人工智能无监督学习中的聚类算法来进行
车辆聚类（图 ）。
2-90
图2-90 车辆聚类
项目学习目标
在本项目中，我们将探究运用无监督学习中的聚类算法将车展
中的车辆安排到不同展区的基本思想和方法。
完成本项目学习，须能回答以下问题：
．无监督学习与监督学习的区别是什么？
1
．聚类与分类有什么不同？
2
． 均值算法的思想方法是什么？
3 k-
．如何度量聚类的好坏？
4第二单元 理解人工智能技术的思想与方法
项目学习指引
我们之前学习的算法均是有监督学习，它的一个鲜明特
征是通过给定的标签来学习从数据特征（如图像）到语义标
签的映射关系。但在很多实际问题中，数据并没有语义标签，
解决此类问题就要用到无监督学习。
无监督学习有很多技术方向，聚类是其中一个重要的方
向。聚类的本质就是把特征相近的数据样本放到一起，达到
“人以群分，物以类聚”的效果。将聚类应用在社交网络上，
可以根据上网习惯特征，把行为习惯类似的用户归为同一组
别，以便向同一组别的用户推荐相同的产品。
1．认识无监督学习与聚类算法
（ ）监督学习和无监督学习
1
机器学习分为监督学习（ ）和无监督 参见 知识链接“无
supervised Learning P90
学习（ ）。 监督学习”
unsupervised Learning
① 监督学习
项目三中，智能车会根据数据库中的人脸来识别车主。
在识别过程中，智能车将待识别对象与车主数据库中的标签
（备注信息，说明是车主或不是车主）对象进行对比，从而
判断输入的人脸是否属于车主。每次识别产生的明确答案（是
车主或不是车主）又会成为该识别对象的标签，成为之后进
行人脸识别分类的参考标准。
像这样需要根据类别的标注信息来进行分类的人工智能
属于监督学习。每次识别后形成的答案（对象的标签）成为
训练智能车的老师，教会智能车准确识别车主。
②无监督学习
根据分类标签，我们可以很快找到一条最优直线，对目
标对象进行分类。当数据量小的时候，先标注标签，然后再
分类，分类很快就能完成。但当数据量巨大时，用人工标注
方式来分类则非常繁琐，比如给成千上万的照片手动标注“是
什么”的标签，不但工作量巨大，而且标注过程中还可能产
生很多错误。因此，人在对物体进行分类的时候，有时不需
要分类标签信息。比如说电影鉴赏，没有人告诉我们某部电
影的类别，也不知道要把这部电影归于哪一类，但是在看完
83人工智能初步
很多电影之后，自然会把《宝莲灯》与《大闹天宫》归为一
类，把《叶问》与《霍元甲》归为另一类。
同理，人工智能在处理海量数据时，如果通过预处理（加
标签）使数据满足分类算法的要求很难实现，通常就采用无
监督学习。这样人工智能可以不需要分类标签，而是在不断
识别数据的过程中学会自己分类。这种不需要标注信息的学
习过程称为无监督学习。
（ ）分类与聚类
2
分类作为一种监督学习方法，要求必须事先明确知道各
个类别的信息，并且保证所有待分类项都有一个类别与之对
应。但是很多时候上述条件得不到满足，尤其是在处理海
量数据的时候。如果通过预处理使数据满足分类算法的要
求，代价非常大，那么就可以考虑使用聚类算法（
clustering
）。
algorithm
聚类算法是一类比较典型的无监督学习算法。它有一个
参见 知识链接“聚 前提假设：同一个类的样本，特征应该相似。这是符合生活
P90
类算法” 常识的，如恐怖片的情节、音乐都比较惊悚，喜剧片的情节、
音乐都比较欢快。基于这个假设，可以根据样本间的相似度，
将它们分到各个小组，并且让每个小组中的样本特征尽可能
相似，让不同小组的样本特征尽可能不相似。从上面的描述
可以看出，衡量样本间的相似度是聚类算法的基础。
2. 剖析 k- 均值聚类算法
（ ）计算特征相似度
1
计算样本间的相似度实际上是计算样本特征值的相似
度。计算特征值相似度通常分三步，如图 所示。
2-91
活 动
探究监督学习和无监督学习的区别。
7.1
（ ）分小组查阅相关资料，详细了解监督学习和无监督学习的特点。
1
（ ）根据生活经验，举生活中的案例说明监督学习和无监督学习。
2
（ ）形成小组探究报告。
3
84第二单元 理解人工智能技术的思想与方法
图2-91 计算特征值相似度的步骤
采集到的特征经过数学建模后会形成特征值，特征值通 小贴士
常可以用坐标系中的坐标点表示。在数学中，两个坐标点的
参考项目三中关于如何
远近可以通过计算它们的距离来衡量。同理，特征值的相似
采集特征及如何形成特征值
度也可用特征值坐标点间的距离来代表。距离越小，特征值 的内容。
越接近，即特征值所代表的物体越相似。
聚类算法在采集到特征值后，会计算特征值间的距离，
距离越小说明相似度越高，并以此为依据将样本分类。如图
所示，猩猩的特征值是（ ， ），鸟的特征值是（ ， ），
2-92 2 2 1 0
猴子的特征值是（ ， ）。从中可以看出，猴子与猩猩的特
1 2
征值距离最小，因此得出猴子与猩猩相似度最高。
图2-92 计算特征值距离示例
活 动
选择生活中的一些物品，如自行车、摩托车、汽车等，自己定义所需要统
7.2
计的物品特征，然后计算它们的相似度，并验证是否与生活常识相符。查阅相关
资料，查找还有哪些方式可以计算特征值相似度。
85人工智能初步
（ ） 均值聚类算法的思想
2 k-
均值（ ）算法是典型的聚类算法，
k- k-means clustering
它可根据物体的特征值相似度对物体进行分组。
均值算法的核心思想是：给定组别数 ，选 个组长，
k- k k
然后把所有待分组的样本分到与之距离最近的组长所在的
组。组长被称为聚类中心（ ）。“均值”的涵
参见 知识链接“聚
P90 cluster center
义在于每个组长的特征值为该组所有成员的特征平均值。由
类中心”
于每个样本与自己所在组的“组长”距离最近（即最“相似”），
可以预见同一组内的样本均比较相似。
这里有一个问题：每个组组长的特征值是该组样本特征
值的平均值，这意味着每个组的样本特征值决定了组长的特
征值。而每个样本又需要通过计算与组长的相似度（距离）
才能被分组。这就好比“先有鸡还是先有蛋”，成了循环依
小贴士
赖了。像这种循环依赖的问题，需要首先确定一方的情况，
针对“先有鸡还是先有 才能打破僵局。
蛋”这样的循环依赖问题， 均值聚类算法的核心思想在于“循环迭代”。首先随
k-
可选择每步固定一个变量，
机给出每组的聚类中心；然后计算对应的最佳组别分配；接
然后优化另一个变量，如此
着反过来再计算最佳的每组聚类中心。依次循环迭代，直至
交替迭代优化，直到得到一
最终的样本分组情况不再变化。
个收敛的解。判断其收敛的
均值聚类算法的步骤为：
依据是：两个变量在几次迭
k-
代中变化不大。 第一步，随机地从所有样本中选取 个样本，作为每一
k
个组的初始聚类中心。
第二步，将每一个样本分到与其距离最近的聚类中心所
在的组，得到新的划分方式。
第三步，重新计算每组样本的聚类中心。
不断重复第二、三步，直到聚类中心和样本分组情况不
再变化为止。
（ ）探究 均值聚类算法的迭代过程
3 k-
假设车站有 辆车，如图 所示，第一次分组时，
9 2-93
首先随机选取三辆车（带框的车）作为三个组长，并确定组
名分别为：美猴王、猪八戒、沙和尚。然后计算每辆车与三
个组长的距离，并将其分到距离最近的组长那一类。从图中
可以看到， 车与“猪八戒”的距离最近，因此被分到猪八
A
戒的那一组，其他的车类似，于是得到第一次迭代分类的结
果。
进行第二次迭代时，聚类中心不用随机选择，而是计算
每个组中车辆的平均特征值，并以它作为聚类中心。
86第二单元 理解人工智能技术的思想与方法
……
图2-93 k -均值聚类算法的迭代过程
然后根据新聚类中心对车辆重新分组。重复这两个步骤，
直到分组结果没有变化为止。
可以看出，有 个样本： … ， 均值聚类算法的
n x1,x2, ,xn k-
任务是将这 个样本聚类成 类，这 个类各自的聚类中心
n k k
分别为 …， 。其迭代过程主要分为两个步骤：
m1,m2, mk
第一步：选聚类中心。第一次迭代随机选择聚类中心；
其他时候，计算每个类的平均特征值作为新的聚类中心。以
第 类为例，假设该类中含有 个样本 … 则其聚类
k n x1,x2, ,xn,
中心更新计算公式如下：
1 n
mk=
∑i=1
xi
n
87人工智能初步
第二步：为每个样本找与其最近的聚类中心。记 与
xi mj
≤ ≤ ， ≤ ≤ 的距离为 （ ， ）。在得到新的
(1 i n 1 j k) d xi mj
个聚类中心之后，将每辆汽车分到与其距离最近（最相似）
k
的聚类中心那一类。以样本 为例，应将它分配到与其距离
xi
最近的聚类中心 那一类，即 与 的距离 （ ， ）
mk xi mk d xi mk
（ （ ， ））， ， ，… 。
=min d xi mi i=1 2 N
活 动
体验 均值聚类算法。
7.3 k-
假设有一次车展活动，总共有 辆汽车参展。现在需要根据每辆车的特点，
4
使用 均值聚类算法将车辆分为两组。车辆的各项特征值如表 所示。
k- 2-6
表2-6 汽车特征统计表
汽车编号 大小 颜色 数学建模
（ ， ）
A 5 4 A 5 4
（ ， ）
B 4 3 B 4 3
（ ， ）
C 4 2 C 4 2
（ ， ）
D 2 4 D 2 4
（ ）在下面的二维坐标系（图 ）中标注出代表 、 、 、 汽车的坐标点，
1 2-94 A B C D
并直观地对 辆汽车进行聚类。
4
图2-94 二维坐标系
88第二单元 理解人工智能技术的思想与方法
（ ）通过计算进行聚类。
2
第一次聚类计算：
步骤 ：随机选取聚类中心。不妨选择 、 作为聚类中心，并记为 、
1 A C m1
，则 （ ， ）， （ ， ）。
m2 m1= 5 4 m2= 4 2
步骤 ：计算每辆汽车与聚类中心的欧氏距离，并进行聚类［将 、 两点
2 A B
距离记为 （ ， ）］。
d A B
由计算可知，汽车 离 组更近，汽车 离 组更近，因此，汽
B D
车 应该分到 组，汽车 应该分到 组。故 组有 车，
B D m1 m2
组有 车。
第二次聚类计算：
步骤 ：计算聚类中心。
1
计算 组的聚类中心的特征值，并记为 。
m1 m1=
计算 组的聚类中心的特征值，并记为 。
m2 m2=
步骤 ：计算每辆汽车与两个聚类中心的欧氏距离。
2
步骤 ：根据计算，对汽车重新进行聚类。
3
最终， 组有 车， 组有 车。
m1 m2
（ ）通过编程进行聚类。
3
利用基于 的机器学习工具 中的 均值聚类算法代码进行
Python scikit-learn k-
聚类，代码见学习资源包。
（ ）对比（ ）到（ ）的结果，谈谈你对 均值聚类算法的看法。
4 1 3 k-
思考聚类中心的个数对分类结果会产生怎样的影响。
7.4
（ ）无监督学习的应用
4
通过聚类，人工智能在没有数据类别标签的情况下，可
使用数据本身特征的相似度来衡量数据是否属于同一类。
这种无监督学习算法不需要海量的数据标签，所以无监
督学习不仅在聚类中有应用，而且在目标检测、图像生成等
很多领域中都有重要应用。
89人工智能初步
知识链接
无监督学习
监督学习需要大量的数据标注，与之相反，无监督学习不需要数据的任何标注信息，
仅根据数据本身的特征属性挖掘知识，完成任务。可以这样理解：一份试卷的参考答案就
是标注信息，如果试卷有参考答案，对照参考答案做试卷就是有监督学习，如果试卷没有
参考答案，那么做试卷就是无监督学习。无监督学习方法不仅在数据分类上有应用（聚类），
在数据降维（典型算法为 ）等其他方面也有应用。
PCA
聚类算法
聚类算法是无监督学习的一个典型算法。对于无标签的数据，聚类算法可通过衡量特
征值的相似度，将数据分到不同的类。除了 均值聚类算法，聚类算法还有 、
k- DBSCAN
、 等聚类算法。
BIRCH CURE
聚类中心
聚类中心就是每个类中的标准样本，也就是最符合这个类的特点的样本。不同的聚类
算法对聚类中心的选定各不相同。 均值聚类算法是取该类所有样本特征值的平均值作
k-
为聚类中心。选定聚类中心之后，样本与聚类中心距离越小，样本和该类的标准样本就越
相似。
拓展阅读
无监督学习神经网络模型的研究
从很多没有标注的信息中学习到知识是人类的智慧本能。例如，出于爱好，我们会阅读大
量书籍，没有人告诉我们书里有什么，但是我们能够通过大量的阅读发现书本中的知识，比如
作者的行文风格、思维方式。
年，吴恩达（ ）等人提出一个无监督学习神经网络模型，他们模仿人脑视
2012 Andrew Ng
觉皮层，将模型分成三个部分：
．特征获取：扫描图像的各个区域，将这些区域的内容特征“记录”下来。
1
．特征处理：图像中相邻区域的内容通常有一些重复，所以模型需要精简重复内容，选
2
出一个区域里最具有代表性的内容特征。
90第二单元 理解人工智能技术的思想与方法
．特征学习：从经过提炼精简的内容特征中学习知识，分析内容中的重要成分。设计
3
好模型之后，让模型一直“观看”视频图像，并且不提供任何辅助信息。三天后，测试发现，
这个网络模型成功地学习到了如何分辨一幅图像中是否有人脸、人的身体部分或猫脸的能力，
如图 所示。这个发现展示了人工神经网络自主学习知识的能力，极大地推动了无监督
2-95
学习在人工神经网络中的研究进展。
图2-95 网络模型分辨结果
——摘译自
Quoc V.Le,et al.Building high-level features using large
scale unsupervised learning.2013
91人工智能初步
单元挑战 用 SVM 算法及深度学习给图像分类
一、项目任务
算法和深度学习已经被广泛地应用在图像分类任务等方面。如图 所示，选
SVM 2-96
取四类图像，每类图像有 幅。请大家使用前 行的图像进行训练，使用最后一行的图
15 4
像进行测试。通过实验来探索 算法与深度学习在图像分类中的应用。
SVM
图2-96 四类图像
二、项目指引
将每类图像的前四行（ 幅× 类）作为训练集进行训练，将最后一行（ 幅× 类）
1. 12 4 3 4
作为测试集进行测试。
．在模型训练中，设置 组不同的学习率和步长，对比学习率和步长对损失函数收
2 10
敛速度的影响以及对最终测试分类结果的影响。
相关代码和模型见配套资源。
三、交流评价与展示
．分别取出在测试集测试中用 算法和深度学习取得最佳分类结果的模型，然后
1 SVM
分析对比这两组模型在精度、速度、内存消耗量和稳定性上的区别。
．每个小组展示交流得到的分类结果。
2
92第二单元 理解人工智能技术的思想与方法
单元小结
一、主要内容梳理
二、单元评价
评价内容 达成情况
能说出图像识别技术的主要应用（ 、 ）
A R
能说出人脸识别的流程（ 、 ）
A T
理解特征的意义、获取方法和表示方法（ 、 ）
A T
能说出人脸识别的常见算法的思想（ 、 ）
A T
知道语音识别的流程（ 、 ）
A T
能说出隐马尔可夫模型对语音识别的作用（ 、 ）
A T
能说出语音识别领域中主要算法的思想（ 、 ）
A T
能说出决策树和启发式搜索在路径规划中的作用（ 、 ）
A T
能说出启发式搜索的基本思想（ 、 ）
A T
93人工智能初步
知道人工神经网络的原理（ 、 ）
A T
理解人工神经网络与深度学习的关系（ 、 ）
A T
知道深度学习的基本操作：卷积操作和池化操作（ 、 ）
A T
理解深度学习目前遇到的难题（ 、 ）
A T
能举例说明监督学习和无监督学习的区别（ 、 ）
A T
理解无监督学习中的 均值聚类算法的思想方法（ 、 ）
k- A T
说明： —信息意识， —计算思维， —数字化学习与创新， —信息社会责任
A T I R
94第三单元
开发简单人工智能系统
如何进行人工智能系统开发呢？一般来说，人工智
能系统由硬件部分和软件部分组成，开发系统其实就是
对硬件部分进行组装，并通过编程进行软件设计，最终
形成人工智能系统。
目前有很多开源开发平台和开源人工智能应用
框架帮助开发者开发简单的人工智能系统。树莓派
（Raspberry Pi，简写为 RPi 或 RasPi / RPI）是一种
为学习计算机编程而设计，只有信用卡大小的微型计算
机。树莓派结合基于Python语言的开源应用框架/平台，
能帮助开发者相对容易地开发人工智能系统。
在本单元中，我们将使用树莓派，以及基于 Python
语言的开源视觉智能应用框架OpenCV，搭建智能小车，
体验简单的人工智能系统开发。
单元挑战
学习目标 设计智能车自动避
障系统
◆ 利用开源人工智能应用框架，搭建简单的
人工智能应用模块，并能根据实际需要配置适当的
环境、参数及自然交互方式等。项目八
搭建可“刷脸”启动的循迹智能车
——设计简单的人工智能系统
循迹机器人是一种能够自动按照给定的路线进行移动的机器
人，它是一个运用传感器、信号处理、自动控制等技术来实现路面
探测、障碍检测、信息反馈和自动行驶的技术综合体。常见的循迹
方法是通过光电传感器（如红外 超声波传感器、摄像头）探测地
/
面上不同标识的模式（如色彩模式——黑色和白色、红色和绿色，
形状模式——圆形、正方形、三角形）来获得引导信息，修正机器
人的运动路径。循迹机器人在物流等领域已得到了应用，例如自动
化生产线的物料配送机器人、仓库搬运机器人（图 ）等。
3-1
而利用人脸识别技术和循迹技术，便可设计开发出可通过“刷
脸”启动并且可以按照路线自动行驶的智能车。
图3-1 仓库搬运机器人
项目学习目标
在本项目中，我们尝试利用树莓派和 语言的算法库，搭
Python
建一辆可“刷脸”启动的循迹智能车，体验搭建简单的人工智能系
统的过程与方法。
完成本项目学习，须能回答以下问题
：
．智能车系统由哪些部分构成？
1
如何使用 的开源人工智能库？
2. Python
如何配置树莓派环境？
3.
如何进行项目分解？
4.第三单元 开发简单人工智能系统
项目学习指引
搭建人工智能系统，首先要明确项目的目标，特别是项
目对“智能”的要求。本项目要求搭建的智能车的智能要求
主要有两个：①“刷脸”启动；②循迹，即沿着地面的信号
标记前进。
明确项目目标后，可以从可行性的角度，对智能车的设
计形成初步构想，做好相应的工具、套材准备和知识准备。
进行总体设计，确定基本开发方案
1.
（ ）分析智能车系统
小贴士
1
可“刷脸”启动的循迹智能车主要具有两个功能：“刷脸”
一般来说，一个大项目
启动和循迹前进。本项目可以分为两个子项目：实现人脸识
很难一次性地完成，因此人
别模块和实现自动循迹模块。
们常将一个大项目分解为多
如表 所示，人工智能系统通常由感知机构、决策机 个子项目，然后“各个击破”，
3-1
构和执行机构组成。智能车的感知机构可采用摄像头来接收 最终完成整个大项目。
环境信息；决策机构可采用树莓派开发板（图 ）来实现
3-2
算法，制定行为决策；执行机构可采用驱动控制板来控制电
机转动，从而带动车轮，使智能车运动。
表3-1 树莓派智能车的机构组成
感知机构 决策机构 执行机构
摄像头 树莓派开发板 驱动控制板、电机与车轮
图3-2 树莓派
智能车的搭建如图 所示。
3-3
（ ）确定开发方案
2
制订智能车系统的开发方案是决定智能车开发方式的重
要一步。以树莓派智能车系统环境搭建的开发方案为例。这
个开发方案使用的基本硬件为树莓派开发板 代 型、树
3 B
莓派官方摄像头以及驱动控制板；基本操作系统为
Raspbian
97人工智能初步
树莓派开发板
驱动控制板
电机与车轮 摄像头
图3-3 搭载树莓派的智能车
系统，系统的编程语言为 ，并且引用了 、
Python Dlib scikit-
、 等开源的人工智能库，如图 所示。
learn OpenCV 3-4
树莓派智能车系统
编程语言
基本软硬件
图3-4 智能车系统环境搭建
可“刷脸”启动的循迹智能车的工作流程如图 所示。
3-5
树莓派启动之后，系统进入人脸识别模块，并持续读取摄像
头采集的人脸图像，通过人脸识别算法判断是否与已登记的
人脸一致。如果一致，则识别成功，系统会进入自动循迹模
块。在自动循迹模块中，系统持续调取摄像头采集的环境图
像，检测出地面标识的位置并进行循迹。如果检测到特定的
停止标识，则停止循迹，流程结束。
．设计人脸识别启动系统
2
（ ）初步设计
1
智能车需具备简易的人脸识别启动系统。该系统可这样
设计：通过人脸识别算法对摄像头采集的包含正面脸部的照
片进行处理，与数据库中预先存储的照片比较，最后在屏幕
上显示识别结果。如果识别成功，智能车启动。
98第三单元 开发简单人工智能系统
图3-5 树莓派智能车系统实验流程图
智能车的人脸识别启动系统可以使用树莓派开发板实
现，过程可分为以下三步：
①建立一个保存有 张不同人脸的数据库；
N
② 在树莓派开发板上实现一个基于深度学习的人脸识别
算法；
③对当前摄像头采集到的照片进行识别，得到识别结果。
图3-6 人脸识别启动系统
整个流程概况如图 所示。
3-6
流程图
建立数据库时，若不方便创建专业数据库，则可创建一
个名为“ ”的文件夹，将需要登记的人脸照片放入这个
img
文件夹中。之后可在程序代码中直接读取这些图片。 小贴士
建立数据库后，可采用残差网络（ ）来提取人脸
残差网络是一种性能优
ResNet
照片的特征向量，如图 所示。输入一张包含人脸的照片，
越的深度卷积神经网络。它
3-7
经过 处理后得到一个 维的特征向量，之后用特 的出现使上百甚至上千层的
ResNet 128
征向量之间的距离来度量人脸的相似程度。 神经网络的训练变得容易。
图3-7 利用残差网络提取特征向量
99人工智能初步
（ ）配置开源人脸识别库
2
小贴士
要在树莓派上实现人脸识别，简单快速的方法是使用基
工具库是基于 于 的 。该库使用了 工具库的人脸
Dlib C++ Python face_recognition Dlib
的开源工具包，经过编译后可 检测和识别技术，具有很高的人脸识别准确率。
以在 中直接调用，其
Python
中包含了基于 个关键点的
68
人脸检测器以及已经训练好的
人脸识别模型。 活 动
ResNet
完成以下任务，实现人脸识别。
8.1
（ ）根据知识链接中关于配置人脸识别库的说
参见 知识链接“安 1
P106 明配置人脸识别库。
装编译 工具库”
Dlib
（ ）参考配套资源中关于实现人脸识别功能的
2
代码，完成人脸识别的编程。
（ ）创建并使用人脸数据库。首先使用树莓派
3
摄像头给全班每位同学各拍一张照片，并将照片放
入数据库文件夹中。人脸识别时，让摄像头同时捕
捉多位同学的脸，观察多人识别的结果与单人识别
的结果有什么不同。
（ ）尝试做不同的表情，或稍微改变一下外形
4
参见 知识链接“实 （戴上帽子、摘下眼镜等），或采用不同的光照条
P107
现人脸识别的代码” 件，观察系统能否正确识别自己的脸，并分析其中
的原因。
（ ）根据测试思考：在人脸识别时，对于非真
5
实的人脸会得到什么样的识别结果呢？测试参考：
先将某位同学的照片放入数据库文件夹中，再将他
的另外一张照片作为目标放在摄像头前，观察此时
的识别结果，并思考其中的原因。
．设计智能车循迹系统
3
（ ）初步设计
1
智能车循迹系统的运行逻辑如图 所示。可以看到，
3-8
智能车循迹系统由三个子系统构成，分别是环境感知系统、
决策规划系统和控制执行系统。环境感知系统收集外界的信
息，包括行人、车辆、障碍物等。这些信息交由决策规划系
统进行处理，以规划出最佳的车辆行驶路线，然后向控制执
100第三单元 开发简单人工智能系统
环境感知系统 决策规划系统 控制执行系统
图3-8 循迹系统的运行逻辑
行系统发送控制信号。最后控制执行系统驱动电机执行相应
的动作。
以绿色标志代表可以通行，红色标志代表不能通行，智
能车的循迹过程如图 所示。从上至下三个对话框分别
3-9
代表环境感知、决策规划和控制执行三个阶段智能车的思
维逻辑。
图3-9 智能车的思维逻辑
（ ）理解环境感知步骤——通过 均值聚类算法获得
2 k-
路线标志的位置和颜色
在这一步骤中，需要找到离智能车最近的路线标志在摄
像头中的位置和相应的颜色。具体过程是：
①通过摄像头获取智能车前方的环境图像。
②处理图像，找出所有可能在标志区域的像素点。
③用 均值聚类算法求出上述像素点的聚类中心。
k-
④找到离智能车最近的聚类中心，并判断其颜色。
101人工智能初步
活 动
通过编程实现环境感知。
8.2
（ ）阅读并理解以下代码。
1
获取摄像头图像
#
image = frame.array
将图像转换为 格式
# HSV
hsv = cv2.cvtColor(image, cv2.COLOR_BGR2HSV)
提取出所有颜色为绿色或红色的像素点
#
data = get_green_or_red_pixels(hsv)
对所有红色或绿色的像素点进行聚类。这里使用了
# MiniBatchkmeans
损失少量精度换取比标准 更快的速度
# kmeans
kmeans = MiniBatchKMeans(n_clusters = 2, random_state = 0, n_init = 1).fit(data)
提取出所有聚类中心
#
cc = kmeans.cluster_centers_
找出离摄像头最近的聚类中心的坐标，以（ ， ）表示
# h w
(h, w) = find_closest_center(cc)
提取该聚类中心的颜色
#
color = get_color(hsv[h][w])
调用决策规划部分的代码，决定小车下一步的行动
#
根据聚类中心横坐标 、图像宽度 和聚类中心颜色 决定行动指令
# w width color
command = plan(w, width, color)
根据指令调用控制执行部分的驱动函数，这里设定转速为 ，每次移动 秒
# 20 0.5
move(command)
（ ）执行上述代码，观察智能车感知环境的能力。
2
（ ）尝试改变聚类中心 的值。观察当 的值分别为 、
3 n_clusters n_clusters 1 2
和 时智能车的循迹情况，并分析原因。
3
（ ）设计决策规划——根据路线标志的位置和状
3
态规划行动指令
通过环境感知部分，能够得到最近的路线标志在智
102第三单元 开发简单人工智能系统
能车摄像头所采集图像中的水平位置及颜色。这里的图像信
息决定了下一步的行动。
如果标志为红色，那就停车。如果不是红色，则根据聚
类中心的坐标判断是应左转、直行还是右转。当坐标在左半
屏幕时，发出左转指令；在右半屏幕时，发出右转指令；在
屏幕中间时，发出直行指令。为了防止频繁的左转和右转，
可以设置阈值界定左转、右转和直行的允许范围。
指令一旦发出，智能车执行机构将会立即根据指令执行
相应的动作。
活 动
通过编程实现决策规划。
8.3
（ ）阅读并理解以下决策规划的部分代码。
1
决策规划函数。参数 表示聚类中心的横坐标， 表示图像的宽度
# position_w width
表示聚类中心的颜色。
#color
def plan(position_w, width, color):
将中间 屏幕宽度的区域作为直行区域
# 20%
ratio = 0.2
forward_width = width * ratio
if color == "red":
command = "stop"
elif position_w<= (width - forward_width)/2:
command = "left"
elif position_w>= (width + forward_width)/2:
command = "right"
else:
command = "up"
return command
（ ）若改变 的值，请思考智能车的运行会有什么改变。执行上述代码，
2 ratio
根据实际情况选择一个最合适的 值。
ratio
103人工智能初步
（ ）设计控制执行步骤——根据指令向驱动控制板发
4
送控制信号
智能车基本的行动包括前进、左转、右转、后退。要实
现这些功能，需要了解模型车的转向方式。
一般情况下，智能车的变向采用差速转向的方式：车辆
通过控制左右两个驱动轮的正反转和转速实现转向。驱动轮
转速不同时，即使没有像汽车那样的转向轮，也可以实现左
转和右转动作。通过调节左右驱动轮正反转和转速，可以组
合出不同的车辆行驶方式。
表3-2 差速转向驱动轮转动与运动状态的关系
小贴士
树莓派可采用 等驱动控制板进行差速转向控制。
注意：如果采用其他 L298N
具体的原理：树莓派将驱动轮是否转动以及转速信息通过
型号的驱动控制板，对应
接口传递给驱动控制板，驱动控制板再根据此信息对
的接口和控制方式可能有
GPIO
所不同。请参考所用驱动 电机进行供电和驱动。其中，采用高低电平来表示驱动轮是
板的说明书。 否转动，采用 脉冲波表示转速。
PWM
表3-3 L298N驱动板控制方式
104第三单元 开发简单人工智能系统
活 动
通过编程实现控制执行。
8.4
（ ）阅读并理解以下控制执行的部分代码。
1
设定运动速度和运动时间，根据指令调用底层驱动函数 ， ， ，
# stop left right up
def move(command):
speed = 20
time = 0.5
if command == "stop":
stop()
if command == "left":
left(speed, time)
if command == "right":
right(speed, time)
if command == "up":
up(speed, time)
（ ）执行上述代码，观察智能车的运动情况。
2
（ ）尝试改变 函数中转速 和运动时间 的值，观察智能车
3 move speed time
的运动情况并分析原因。
测试智能车
4.
智能车完成后，必须对其进行测试。图 是已登记
3-10
和未登记的两个人在摄像头前的识别结果。可以看到，对于
已登记者，画面用红色方框标记出人脸的位置，并显示人名，
而对于未登记者，则显示“ ”。
Unknown Person
对已登记者的识别结果 对未登记者的识别结果
图3-10 测试识别结果
105人工智能初步
以下两张照片是智能车循迹模块的实验结果图。在图
中，智能车检测到最近的绿色标识并沿路线进行移动。
3-11
在图 中，智能车检测到红色标识，于是停车。
3-12
图3-11 沿路线运动 图3-12 停车
活 动
以小组为单位测试智能车，看看它是否按
8.5
设计方案运行。记录出现的问题，并进行调整。调
整完成后向全班同学展示智能车。
思考并完成以下任务。
8.6
（ ）如果互换前进和停止标识的颜色，那应该
1
对原来的代码进行怎样的修改才能够实现循迹的功
能？尝试修改代码并实现这个功能。
（ ）标识的形状对循迹的效果有影响吗？和同
2
学们合作，分别用圆形、正方形、三角形和长方形
的标识进行循迹，并观察效果。
知识链接
安装编译 工具库
Dlib
由于树莓派系统的默认交换空间（可以理解为内存）只有 ，不足以运行 的
100MB Dlib
人脸识别算法，所以首先需要把它的交换空间增加到 。步骤如下：
1G
106第三单元 开发简单人工智能系统
．打开设置交换空间的文件 ，命令行输入：
1 /etc/dphys-swapfile
sudonano /etc/dphys-swapfile
将 文件中的 改为 。
dphys-swapfile CONF_SWAPSIZE=100 CONF_SWAPSIZE=1024
．更新文件之后重新启动交换服务：
2
sudo /etc/init.d/dphys-swapfile stop
sudo /etc/init.d/dphys-swapfile start
．确认交换空间是否增加：
3
–
free m
．从 官网下载安装包，解压后进入 目录，进行 库的安装和编译：
4 Dlib Dlib Dlib
cd dlib-19.9
sudo python setup.py install
．安装 库：
5 face_recognition
sudo pip install face_recognition
经过以上操作，即完成了人脸识别库的配置。
实现人脸识别的代码
．访问摄像头资源，并设置分辨率、帧率等：
1
访问摄像头
#
camera = picamera.PiCamera()
设置分辨率和帧率
#
camera.resolution = (320, 240)
camera.framerate = 30
．根据前面提到的用文件夹作为简化的数据库的方法，读取“ ”文件夹下所有的
2 img
人脸照片（文件格式为 ），并将 提取的特征向量存储到内存中，以供后面比对：
jpg ResNet
创建名字 特征向量对字典
# -
face_db = {}
以相对路径的方式获取“ ”文件夹下所有的照片
# img
imgs = os.listdir('./img')
for im in imgs:
im_path = os.path.join('./img',im)
加载“ ”文件夹下的所有照片
# img
ima = face_recognition.load_image_file(im_path)
检测照片中人脸的位置
#
face_locations = face_recognition.face_locations(ima)
获取人脸的特征向量
#
image_face_encoding=face_recognition.face_encodings(ima,face_locations)[0]
将照片的文件名作为人名（截取 前面的部分）
# .jpg
face_db[im[:-4]] = image_face_encoding
107人工智能初步
．主函数部分，调用 库函数，检测人脸位置并进行人脸识别，代码如下：
3 face_recognition
rawCapture=np.empty((resY*resX*3),dtype=np.uint8)
摄像头抓取一帧
#
camera.capture(rawCapture,format='bgr')
image=rawCapture.reshape(resY,resX,3)
人脸位置检测
#
face_locations = face_recognition.face_locations(image)
对检测到的人脸进行特征提取
#
face_encodings = face_recognition.face_encodings(image, face_locations)
与数据库中的人脸进行比对和识别
#
for face_encoding in face_encodings:
比对人脸，如果两张人脸的不相似程度小于阈值 则识别为已知的某个人，
# threshold
否则认为是一个未登记的人
#
threshold = 0.6
match = face_recognition.compare_faces(face_db.values(),face_encoding,threshold)
108第三单元 开发简单人工智能系统
单元挑战 设计智能车避障系统
一、项目任务
通过本单元的学习，查找资料，设计智能车避障系统。
二、项目指引
布置场景，将停止标识看作障碍物随机摆放在地上。
1.
在智能车循迹系统的基础上，让智能车在遇到障碍物时能够绕开。
2.
（ ）分析智能车绕开障碍物的原理。
1
原理：
（ ）设计避障算法。
2
避障算法：
（ ）在智能车循迹系统代码的基础上，编写实现避障的算法。
3
三、交流评价与展示
各小组展示本组的智能车避障系统，讲解其避障原理。
1.
小组之间交流各自使用的方法，加深对于智能车系统的理解。
2.
109人工智能初步
单元小结
一、主要内容梳理
二、单元评价
评价内容 达成情况
能说出简单人工智能系统的开发流程（ 、 ）
A T
能说出人工智能应用框架的作用（ 、 、 ）
A T R
能说出开源硬件在人工智能系统中的作用（ 、 ）
A R
能说出项目分解的重要性（ 、 、 ）
A T R
能配置开源人脸识别库（ 、 ）
A T
能对人工智能系统进行测试，找出问题并予以解决（ 、 、 ）
A T R
说明： —信息意识， —计算思维， —数字化学习与创新， —信息社会责任
A T I R
110第四单元
推动人工智能健康发展
人工智能已经深入到社会生活的方方面面。一方面，
随着相关技术的不断发展，人工智能在工业、医疗、社交、
交通、金融等领域得到广泛应用，深刻地影响了人们的
生活；另一方面，人工智能也给人类社会带来很大的冲击，
例如，人工智能未来或许会取代人类的许多工作，导致
大面积失业。那么在发展人工智能技术的同时，如何应
对人工智能带来的社会问题，如信息安全问题和伦理道
德问题，是我们需要面对的挑战。
在本单元中，我们将辩证地探讨人工智能带来的信
息安全问题及伦理道德问题，了解保障人工智能安全可
控和应对相应伦理道德问题的基本方法，展望人工智能
的未来发展趋势。
单元挑战
学习目标 设计无人驾驶时代
的交通准则
◆ 了解社会智能化所带来的伦理及安全问题。
◆ 知道信息系统安全的基本方法和措施，增
强安全防护意识和责任感。
◆ 辩证地认识人工智能对人类社会发展的巨
大价值和潜在威胁。
◆ 自觉维护和遵守人工智能社会化应用的规
范与法规。项目九
认识人工智能的巨大价值和潜在威胁
—— 辩证看待人工智能
无人驾驶作为人工智能的典型应用之一，一直备受关注。然而，
时不时发生的无人驾驶引发人类伤亡的交通事故又提醒人们思考：
人工智能安全吗？其实人工智能系统作为一种信息系统，确实存在
其本身固有的安全问题，比如数据泄露、执行错误等。但人工智能
系统又不同于一般的信息系统，它有“智能”，具备“学习”能力。
这种能力是否需要受到人类的限制？这种能力不断发展会不会给人
类生存带来威胁？人工智能时代（图 ），这些问题更值得我们思考。
4-1
图4-1 人工智能时代
项目学习目标
在本项目中，我们将一起分析人工智能的应用现状，探讨其中
的伦理、安全问题，并畅想人工智能的发展前景。
完成本项目学习，须能回答以下问题
：
．当前人工智能主要有哪些代表性应用？
1
．有哪些基本方法和措施来确保信息系统安全？
2
．如何辩证看待人工智能带来的极大便利和潜在威胁？
3
．人工智能的未来发展趋势是什么？
4第四单元 推动人工智能健康发展
项目学习指引
生活中有很多人工智能应用产品，比如智能音箱，你只
要说出想听的歌曲，它就能播放。甚至有时我们并未察觉人
工智能的存在，比如智能新闻推送，它能根据我们先前在
网上查看的新闻、商品等，主动推送相关的信息。这些人
工智能技术的推广应用使得社会逐渐智能化。
了解人工智能技术的应用现状
1.
目前，我国正在努力推动人工智能的建设：一方面，大 小贴士
力构建互联网基础设施，包括计算中心和数据中心等；另一
目前人工智能已经在
方面积，极引导相应公司建立人工智能平台，进行人工智能 工业、医疗、社交、交通
实践，如智能驾驶、智能城市、智能医疗和智能语音。 以及金融等领域得到广泛
应用，并深刻地影响着人
智能驾驶：人工智能技术可以辅助司机进行智能驾驶。
们的生活。人工智能不仅
从理论上讲，智能驾驶可实现无人化。智能驾驶将是未来解
能帮助人类完成很多重复
决交通拥堵的重要技术，能大大提升交通效率。百度公司开
枯燥和危险的工作，还能
发的自动驾驶平台提供了一套完整的软硬件和服务的解决方 比人类做得更快、更准确，
案，包括车辆平台、硬件平台、软件平台、云端数据服务四 比如在特定任务中，语义
识别、语音识别、人脸识别、
大部分，具备环境感知、路径规划、车辆控制等功能以及强
图像识别技术的精度和效
大的车载操作系统。
率已超越人工。
智能城市：传统的信息化建设导致我国很多部门积累的
大量数据无法进行共享。阿里云公司开发的“城市大脑”（图
）利用人工智能技术，使得很多数据可进行互通和协同，
4-2
帮助城市进行交通态势评价与信号灯控制优化、城市事件感
知与智能处理、公共出行与运营车辆调度，以及帮助进行社
图4-2 “城市大脑”应用案例
113人工智能初步
会治理与保障公共安全。“城市大脑”可以帮助城市管理者
从全局角度实时发现城市的问题并给出优化处理方案，与城
市内各项资源调度联动，从而提升城市的整体运行效率。
智能医疗：人工智能对医疗的推动作用主要体现在替代
医生完成部分工作从而实现自动化医疗，辅助医生提高自身
的工作效率，提高患者自查率，以利于更早发现、更准确地
诊断疾病。有些医学影像智能筛查系统（图 ）能实现对
4-3
早期食管癌、肺癌、乳腺癌、糖尿病性视网膜病变等疾病的
智能化筛查和识别，辅助医疗临床诊断。
图4-3 某医学影像系统
智能语音：语音是人类最自然、最重要的信息交流方式。
得益于人工智能的发展，智能语音技术近年来取得了一系列
突破性进展，并逐渐成为各智能设备的标配技术。智能语音
能够实现人机间的语音通信，它包括语音识别技术和语音合
成技术。有些智能语音平台具备语音合成、语音识别、口语
评测（图 ）、语言翻译、声纹识别、自然语言处理等技
4-4
术及能力。
图4-4 智能英语听说测试
未来，人工智能与各行业领域的深度融合将改变甚至重
新塑造传统行业（图 ）。例如人工智能在制造、家居、金融、
4-5
交通、安防、医疗、物流等行业的应用会使这些行业逐渐转
变到智能制造、智能家居、智能金融、智能交通、智能安防、
智能医疗和智能物流。
114第四单元 推动人工智能健康发展
图4-5 人工智能与传统行业的融合
虽然我们不一定时刻意识到人工智能的存在，但是人工
智能已经深入到社会生活的方方面面。随着人工智能技术的
不断发展，及其在各个领域应用的不断成熟，未来人工智能
技术将进一步渗透到各行各业，对人类社会产生巨大的影响，
并带来深刻的变革。
?
?
思考与讨论
你使用过哪些人工智能产品？人工智能给你
的生活带来了怎样的改变？
活 动
百度、阿里云、腾讯和科大讯飞四家公司
9.1
组成了我国首批人工智能的支柱企业，它们分别
致力于自动驾驶、城市大脑、医疗影像和智能语音。
以小组为单位，选择其中一个公司，收集它们在
相应人工智能领域的最新产品，分析这些产品产
生的影响，以及可能的发展前景。
．直面人工智能的安全、伦理问题
2
随着人工智能技术的不断成熟，越来越多的智能机器或
智能程序成为人类的助手。人工智能系统作为一种信息系统， 小贴士
也可能面临一些安全风险。这些安全风险，既指人工智能系
伦理是指在处理人与
统自身的安全问题，如系统断电、部件损坏等，更指人工智
人、人与社会的相互关系时
能系统给人类社会带来的安全问题，及伦理问题。 应遵循的道理和准则，是指
（ ）人工智能的系统安全风险问题 一系列指导行为的观念。
1
115人工智能初步
信息系统可能面临的安全风险包括：硬件风险、软件风
险、数据风险、网络风险等。人工智能系统作为一种典型的
信息系统，同样会面临上述的安全风险。
从人工智能系统本身来看：受限于人工智能技术的成熟
度，某些技术缺陷有可能会引发相应的安全隐患。众所周知，
人工智能系统依靠代码实现，这些代码是程序员写出来的，
难免存在漏洞。一旦黑客利用漏洞进行攻击或劫持，人工智
能系统可能被黑客控制，从而带来严重的后果。例如军事用
途的人工智能系统如果有可能被不法分子劫持，导致战争的
出现。此外，人工智能所依赖的传感器、训练数据和使用的
开源软件等可能给人工智能系统带来安全风险，比如传感器
可能被干扰，导致采集的数据出错。
从人工智能的应用方面来看：目前主流的基于机器学习
的人工智能系统的一个重要特点是，系统的设计实现及运行
无须进行过多的人类干预，能够实现自我学习调整。在这种
模式下，人工智能系统的整个决策过程往往不需要操控者的
指令，若其决策结果对人类社会产生危害，后果可能非常严重。
不仅如此，即使人工智能系统在功能上没有任何问题，
仍可能存在应用方面的具体问题。有些人工智能系统不需要
百分之百的准确率，如语音识别， 的准确率已经非
99.99%
常完美。而有些人工智能系统则需要 的精确，比如智
100%
能刷脸门禁（图 ）系统绝对不能出现识别错误，既不能
图4-6 刷脸门禁
4-6
将房主拒之门外，也不能让非房主入门。
?
?
思考与讨论
你认为人工智能系统还存在哪些安全问题？
参考信息系统的安全保护措施，试举例说明如何
确保人工智能系统的安全。
（ ）人工智能的伦理问题
2
人类区别于机器的一点是受伦理道德的规范和约束。随
着人工智能技术的发展，机器的智能化程度越来越高，且逐
步拥有了高层的感知、决策和反馈能力，此前只有人类才能
完成的一些复杂认知任务正逐步交由机器完成。如何规范人
工智能，让机器受人类伦理道德的约束是我们需要面对的挑战。
比如，自动驾驶中涉及这样的伦理问题：假设自动驾驶
汽车正在高速行驶，前方突然出现行人，此时刹车失灵或者
116第四单元 推动人工智能健康发展
无法立即停车，只能通过方向盘控制车辆，如图 所示，
4-7
自动驾驶汽车面临两种选择：
——任汽车继续行驶，这可能会伤害行人；
A
——转弯冲向路边的障碍物，这可能会伤害自己。
B
在日常驾驶中，上述极端情况很少会出现，但是对于自
动驾驶来说，必须在设计时就要考虑，一旦发生此类情况， 图4-7 撞人还是撞障碍物？
要有符合道德规范的应对措施。面对未来，我们应设计一系
列符合人类道德的准则来促进自动驾驶技术的发展。
活 动
为了应对自动驾驶中可能出现的伦理问
9.2
题，德国政府推出了一套自动驾驶道德伦理标准。
请查阅该标准，思考由政府出台伦理标准的意义。
（ ）人工智能的隐私问题
3
人工智能的应用中也会涉及对用户个人信息的合理使用
问题。合理使用个人信息会让人工智能技术很好地为人类服
务，然而非法使用个人信息则会造成对个人隐私的侵犯。
?
?
思考与讨论
如果所收集的大量个人隐私信息被非法使
用，会对我们造成怎样的危害？
一些人工智能系统会收集用户的指纹、虹膜等生理特征
小贴士
来辨别人的身份，或收集用户的行为习惯来进行分析，之后
个人隐私信息的采集、
给用户推送广告信息。有些网站利用人工智能技术，通过分
分析、存储和使用都应得到
析用户的浏览数据，归纳出用户的行为特征和习惯，进而给
个人的授权。
用户推送可能感兴趣的内容来提高点击量。这些应用虽然很
“懂”用户的心思，但有关信息是在用户不知情的情况下收
集的。
不仅如此，人工智能技术还有可能从已获取的个人信息
中推导出用户不愿意泄露的隐私，例如从公共数据中推导出
私人信息，从某个人的信息中推导出和这个人有关的其他人
员（如朋友、亲人、同事）的信息（在线行为、人际关系等），
这类信息往往超出了最初用户同意披露的个人信息范围。
117人工智能初步
活 动
通过互联网搜索近年来发生的隐私泄露
9.3
事件，总结泄露的隐私内容（如个人账号、个人
信息等）、泄露的原因（如数据被盗、由于监管
不善数据被违规使用等）、隐私被如何滥用（如
出售、违规使用等）及其社会影响（如提高了大
众的隐私保护意识、促进了更严的监管等）。
（ ）保证人工智能的安全
4
小贴士 为保证人工智能安全，我们可以采取一些基本的安全防
护方法来确保人工智能系统安全。硬件方面，我们可以为人
建立令人工智能技术造
福于社会、保护公众利益的 工智能系统安装物理防护，严格控制各种类型的物理访问，
政策、法律和标准化环境， 并设置备用设备，一旦原始人工智能系统遇到风险，可即刻
是人工智能技术持续、健康
启用备用设备。软件及网络方面，我们应该尽量减少软件可
发展的重要前提。
能存在的漏洞，一经发现应立刻进行修补，并通过权限管理、
同时，作为开发者或
防火墙设置、通信加密等方式来降低网络风险。数据方面，
用户，我们也应提升开发和
我们应当及时做好数据备份，严格控制数据的授权及使用，
使用人工智能系统的安全意
识。 并对数据进行加密等。
人工智能是人类智能的延伸。社会公众必须相信人工智
能技术能给人类带来的利益远大于伤害，才有可能推动人工
智能的发展。为了保障安全，人工智能技术本身及在各个领
域的应用应遵循人类社会所认同的伦理原则。
比如人类利益原则：即人工智能应以实现人类利益为终
极目标。这一原则体现对人权的尊重、对人类和自然环境利
益最大化以及对社会危害性的重视。
又如责任原则：即在技术开发和应用两方面都建立明确
的责任体系，以便在技术层面可以对人工智能技术开发人员
或部门问责，在应用层面可以建立合理的责任和赔偿体系。
在责任原则下，在技术开发方面应遵循透明度原则，即人类
应该知道人工智能的工作原理；在技术应用方面则应当遵循
权责一致原则，即政策和法律应对有关的权利和责任作出明
数字化学习
确规定。
上网查找有关人工智能 同时，我们应不断地探索设定人工智能的伦理准则，以
的伦理准则。
确保人工智能在造福人类的同时也是安全可控的，不会威胁
到人类本身的生存。
118第四单元 推动人工智能健康发展
年 月，电气电子工程师协会（ ）发布了第
2017 12 IEEE
版《人工智能设计的伦理准则》，为人工智能建立了社会
2
与政策方面的指南，从而确立了人工智能系统能够以人为本，
并服务于人类的价值和伦理准则。
?
?
思考与讨论
还可制定哪些共识原则来确保人工智能安全
可控？
我国对于人工智能发展过程中的安全问题也给予了高度
重视。 年 月国务院印发的《新一代人工智能发展规划》
2017 7
中明确指出，人工智能发展的不确定性带来新挑战，在大力
发展人工智能的同时，必须高度重视可能产生的安全风险挑
战，加强前瞻预防与约束引导，最大限度降低风险，确保人
工智能安全、可靠、可控地发展。
活 动
分小组查阅目前关于人工智能安全的已
9.4
经颁布的法律法规或行业标准。
．展望人工智能的未来
3
人工智能技术正在快速发展，并为世界带来全新变革。
然而任何科学技术都是双刃剑，在给我们带来利好的同时也
不免带来一些威胁。因此，需要辩证地看待人工智能的巨大
价值和潜在威胁。
（ ）人工智能的巨大价值
1
人工智能的系统应用已为人类创造出可观的经济效益。
随着相关技术的不断发展与完善，人工智能技术必将得到更
大的推广，产生更多的经济效益。近年来，人工智能几乎渗
透到工业、医疗、社交、智能交通以及金融等各个领域，有
力地促进了社会和经济的发展。
（ ）人工智能的潜在威胁
2
根据人工智能的发展程度和实现的功能，人工智能的
参见 知识链接“人
发展可以分为弱人工智能（ ， P121
Artificial Narrow Intelligence 工智能三阶段”
）、强人工智能（ ， ）和
ANI Artificial General Intelligence AGI
超人工智能（ ， ）三个阶段。
Artificial Super Intelligence ASI
119人工智能初步
虽然我们都非常期待超人工智能的到来，但目前，还仅仅处
于弱人工智能阶段。当前学者们对于超人工智能能否及何时
到来尚无定论，对于人工智能是否会对人类产生威胁也有不
同观点。持乐观看法的人认为人工智能在未来的很长一段时
间内都将只是人类的一种工具；人类智能的门槛很高，人工
智能很难在短时间内突破和超越人类智能。持悲观看法的人
则认为人工智能技术不断加速发展的趋势已经无法改变，超
越人类的超级智能将会在不远的将来出现，而那时人类将面
临灾难性的生存危机。
?
?
思考与讨论
有人认为人工智能未来可能会威胁到人类的
生存，提出了人工智能威胁论。你对人工智能威
胁论是怎么认识的呢？
无论超级智能是否能到来及何时能到来，我们都需要对
之进行充分研究，采取防范措施来确保人工智能会朝着安全
可控且有利于人类的方向发展。
（ ）人工智能的发展趋势
3
根据现有的发展情况，人工智能技术未来可能呈现出以
下发展趋势。
① 更加通用的智能
目前主流的人工智能研究集中在弱人工智能，一般只擅
长于单个方面的任务，比如 只擅长于下围棋，而不
AlphaGo
擅长其他任务。但是人们对人工智能的期待不仅仅是解决特
定的、单一的问题，而是像人类一样能够解决复杂的、不同
领域的问题，能够进行推理和决策，即通用人工智能。尽管
研究者对通用人工智能能否最终实现及是否真的安全可控尚
无定论，但是人工智能由专用智能向通用智能的方向发展是
未来的必然趋势，也是人工智能研究中极具挑战性的问题。
②更小的数据及模型
现阶段人工智能 大数据的模式取得了极大的成功，海
+
量的数据及强大的计算能力都极大地促进了人工智能技术的
发展。在这种模式下，人工智能技术高度依赖于大量的标定
数据，用以进行训练。但是数据标定过程费时费力，而且对
有的问题难以采集到大量的数据，因此人工智能在未来的一
个发展趋势是在少量数据甚至数据缺失的条件下进行学习。
120第四单元 推动人工智能健康发展
另一方面，现阶段的人工智能模型太复杂，这使得相关技术
无法在轻量级环境下得到大规模应用。因此，人工智能的另
一个发展趋势是在保证系统性能的前提下，开发更小、更简
单的模型，使得小模型能够达到与大模型相同的效果。
③更多的学科交叉
近年来，人工智能的研究反映了一个趋势：来自神经及
脑科学的启发能够有效地提升现有人工智能模型的智能水
平。然而，想要真正达到甚至超越人类的智能水平，还需要
对脑科学进行更为深入的研究和借鉴。此外，如前文所述，
人工智能技术在给我们带来极大便利的同时，也对人类现有
的法律、道德及伦理体系带来极大的冲击。人工智能不再仅
仅是一个单纯的技术问题，还需要社会学、伦理学等学科的
研究人员对相关问题进行深入的研究。
活 动
查阅相关资料，总结人工智能的发展趋势。
9.5
选择一个方向，畅想未来可能出现的新技术、新应用、
新变化等。
从以下题目中选择一个，或自拟一个题目，
9.6
组织一场辩论会。
参考题目：
● 人工智能会再次进入冰冻期吗？
● 人工智能真的智能吗？
● 人工智能会超越人类智能吗？
● 人工智能是隐私的天敌吗？
知识链接
人工智能三阶段
1．弱人工智能
又称狭义人工智能，是指能推理和解决问题的智能机器。这种机器不会有自主意识，
一般只擅长单方面的任务。
121人工智能初步
2．强人工智能
又称广义人工智能，是指真正能推理和解决问题的智能机器。这种机器具有知觉和自
我意识，它是跟人类智能级别接近的人工智能，在各方面都能和人类比肩。
3．超人工智能
一般简称超级智能，在几乎所有领域都比人类强。理论上，强人工智能发展成为超人
工智能比较简单，因为只要将强人工智能的认知能力再强化一点点，它就可能在各方面都
超越人类。
拓展阅读
人工智能伦理准则
“人工智能设计的伦理准则”包含宗旨、目标、目的、理论基础、未来技术关切五大部分：
IEEE
● 其宗旨是建立框架，指导我们认识这些技术可能造成的技术以外的影响，并就此进行对
话和讨论。
● 其目标是在遵循人权、福祉、问责、透明、慎用的一般原则下合乎伦理地设计、开发和
应用人工智能技术。
● 其目的包括个人数据权利和个人访问控制、通过经济效应增进福祉、问责的法律框架、
透明性和个人权利、教育和知悉的政策五个方面。
● 其理论基础包括经典伦理学、福祉指标、将价值嵌入自主系统、指导合乎伦理的研究和
设计的方法四个方面。
● 其未来技术关切包括重新定义自主武器、所谓的通用人工智能和超人工智能的安全性和
有益性、情感计算、混合现实四个方面。
——摘自 “人工智能设计的伦理准则”
IEEE
人工智能发展原则
年 月，在加利福尼亚州阿西洛马举行的 会议讨论了人工智能的未来及
2017 1 Beneficial AI
其监管。近千名人工智能专家联合签署了阿西洛马人工智能 条原则，并号召人工智能的研
23
究人员、科学家和立法者遵循这些原则，以确保人工智能安全和有利于人类。
阿西洛马人工智能 条原则从方法、伦理、道德等方面限定了人工智能可以干什么不可
23
以干什么。阿西洛马人工智能 条原则涵盖了三个范畴：
23
第一类为科研问题，共 条，包括研究目标、研究经费、科学与政策的联系、科研文化、
5
避免竞争；
第二类为伦理和价值，共 条，包括安全性、故障透明性、司法透明性、责任、价值归属、
13
人类价值观、个人隐私、自由和隐私、分享利益、共同繁荣、人类控制、非颠覆、避免人工智
能军备竞赛；
第三类为更长期的问题，共 条，包括能力警惕、重要性、风险、递归自我完善、公共利益。
5
——摘自“阿西洛马人工智能原则”
122第四单元 推动人工智能健康发展
单元挑战 设计无人驾驶时代的交通准则
一、项目任务
在无人驾驶时代，我们乘坐的无人驾驶车具有完全的自主性。无人驾驶车能够完成所
有的驾驶操作，包括路径规划、自动驾驶、行人及车辆避让等。我们需要设计一系列的准
则来指导自动驾驶系统的设计，并且让自动驾驶系统在出现任何情况时都能够有章可循，
保障人工智能时代的道路安全。
二、项目指引
．收集资料，了解无人驾驶时代应该从哪些方面设计交通准则来保障道路交通安全，
1
例如技术、法律、伦理等方面。
．确定设计的方面，分别从这几个方面进行深入思考和挖掘，并设计若干条相应的
2
准则，并加以梳理和归纳。
方面 准则
三、交流评价与展示
以思维导图的形式展示设计的交通准则。
1.
．征询大家对每条准则的意见，看每条准则是否能够获得普遍认可。
2
．交流并学习他人设计的交通准则（尤其是自己没有考虑到的方面），总结大家设
3
计准则的共性。
设计的共性：
回顾无人驾驶交通准则的设计过程，反思并交流期间的收获与不足。
4.
123人工智能初步
单元小结
一、主要内容梳理
二、单元评价
评价内容 达成情况
能列举人工智能技术在日常生活中的应用（ 、 ）
A R
能从多个角度描述人工智能对人类社会的影响（ 、 ）
A R
能说出智能驾驶、智能城市、智能医疗和智能语音对我国的意义（ 、 ）
A R
能说出我国首批人工智能平台的功能和意义（ 、 ）
A R
能说出人工智能系统的常见系统安全问题（ 、 ）
A R
能举例说明人工智能中涉及的伦理道德（ 、 ）
A R
能说出确保人工智能安全的技术方法和伦理准则（ 、 ）
A R
能用自己的话阐述人工智能的价值和潜在威胁（ 、 ）
A R
能用自己的话阐述人工智能的发展趋势（ 、 ）
A R
说明： —信息意识， —计算思维， —数字化学习与创新， —信息社会责任
A T I R
124附 录
部分名词术语中英文对照
(以汉字拼音字母次序为序）
残差网络 路径规划
ResNet path planning
长短期记忆网络 ， 算法
Long Short Term Memory LSTM LBP Local Binary Pattern algorithm
超人工智能 ， 曼哈顿距离
Artificial Super Intelligence ASI manhattan distance
对角线距离 梅尔倒谱系数
diagonal distance Mel-Frequency Cepstral
代价函数
cost function Coefficients,MFCC
反向传播 欧氏距离
Back Propagation, BP euclidean distance
非叶节点 算法
nonleaf node PCA Principal Component Analysis algorithm
非线性回归 启发式搜索
nonlinear regression heuristic search
分类 欠拟合
classification under-fitting
感受野 强化学习
receptive field reinforcement learning
根节点 强人工智能 ，
root node Artificial General Intelligence AGI
广度优先搜索 人工智能
breadth-first search Artificial Intelligence, AI
过拟合 人脸识别
over-fitting face recognition
机器学习 弱人工智能 ，
Machine Learning, ML Artificial Narrow Intelligence ANI
激活函数 深度学习
activation function Deep Learning,DL
计算能力 深度优先搜索
computing power depth-first search
监督学习 神经网络
supervised learning Neural Network, NN
局部最优解 神经元
local optima neuron
聚类算法 树莓派
clustering algorithm Raspberry Pi
聚类中心 特征
cluster center feature
卷积神经网络 特征向量
Convolutional Neural feature vector
梯度下降
Networks,CNN gradient descent
决策树 图灵测试
decision tree The Turing Test
算法 图像识别
kNN k-Nearest Neighbor algorithm image recognition
均值聚类算法 图形处理单元
k- k-means clustering algorithm Graphics Processing Unit,GPU
125微控制单元 中央处理器
Micro Control Unit,MCU Central Processing Unit,CPU
文本转语音生成 专家系统
Text To Speech, TTS Expert System, ES
无监督学习 专用集成电路
unsupervised learning Application Specific Integrated
现场可编程逻辑门阵列
Field Programmable Gate Circuit,ASIC
子节点
Array,FPGA child node
线性回归 自回归滑动平均
linear regression Auto Regressive Moving
循环神经网络 ，
Recurrent Neural Network,RNN Average ARMA
叶节点 自然语言理解
leaf node Natural Language Understanding,
隐马尔可夫模型
Hidden Markov Model, HMM NLU
语音合成技术 自然语言生成
Speech Synthetic Technology, SST Natural Language Generation,
语音识别
Automatic Speech Recognition, ASR NLG
支持向量机 最小二乘法
Support Vector Machine, SVM least-squares method
126PUTONG GAOZHONG JIAOKESHU 普 普通高中教科书
通
XINXIJISHU
高
中
教 信信息息技技术术
科
书
信信
息息
选择性必修 4
技技
术术
人工智能初步
选
择
性
必
ISBN 978-7-5428-7413-9
修
4
ISBN 978-7-5428-7413-9 人
9 787542 874139>
工
智
能
初
9 787542 874139> 步
普通高中教科书
信息技术 选择性必修4
人工智能初步
上海科技教育出版社有限公司出版发行
普通高中教科书
（上海市闵行区号景路 弄 座 楼 邮政编码 ）
信息技术 选择性必修4 159 A 8 201101
湖南省新华书店经销 湖南长沙鸿发印务实业有限公司印刷
人工智能初步
开本 印张
上海科技教育出版社有限公司出版发行 8I9SB0N×192748-07-514/2186-7413-9 8.25
年 月第 版 年 月第 次印刷
（上海市闵行区号景路 弄 座 楼 邮政编码 ） 2021 1 1 2021 12 3 上
159 A 8 201101 海
湖南省新华书店经销 湖南长沙鸿发印务实业有限公司印刷 ISBN978-7-5428-7413-9/G·4351 科
定价： 元
开本 印张 10.37 技
890×1240 1/16 8.25 批准文号：湘发改价费〔 〕 号 举报电话： 教
年 月第 版 年 月第 次印刷 9 7875240217873441339> 12315
2021 1 1 2021 12 3 育
出
ISBN978-7-5428-7413-9/G·4351
定价： 元 此书如有印、装质量问题，请向印厂调换 版
10.37 社 上海科技教育出版社
批准文号：湘发改价费〔 〕 号 举报电话： 印厂地址：长沙黄花印刷工业园三号 电话：
2017 343 12315 0731-82755298
此书如有印、装质量问题，请向印厂调换
印厂地址：长沙黄花印刷工业园三号 电话：
0731-82755298
普通高中教科书
信息技术 选择性必修4
人工智能初步
上海科技教育出版社有限公司出版发行
（上海市柳州路 号 邮政编码 ）
218 200235
湖南省新华书店经销 湖南长沙鸿发印务实业有限公司印刷
开本 印张
890×1240 1/16 8.25
年 月第 版 年 月第 次印刷
2021 1 1 2021 1 1
ISBN978-7-5428-7413-9/G·4351
定价： 元
10.37
批准文号：湘发改价费〔 〕 号 举报电话：
2017 343 12358
此书如有印、装质量问题，请向印厂调换
印厂地址：长沙黄花印刷工业园三号 电话：
0731-82755298                        
本文档来自网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com。
沪科教信息技术选修4高清教材_4-教培资料-26年最新资料-同步更新_初中高中教资_03科三专项（进去保存报考的学科即可）_02科三专项（笔记真题思维导图教学设计版本二）

文档预览

文档信息

文档内容

最新文档

热门文档

随机文档

沪科教信息技术选修4高清教材_4-教培资料-26年最新资料-同步更新_初中高中教资_03科三专项（进去保存报考的学科即可）_02科三专项（笔记真题思维导图教学设计版本二）

文档预览

文档信息

文档内容

T8语文试卷_2025年12月_2512242026届高三第一次八省联考（T8联考）

T8语文试卷_2025年12月_251225山西省2026届高三第一次八省联考（T8联考）（全科）

最新文档

热门文档

随机文档