文档内容
24.4 数据的分组
1.能够通过计算和比较不同分组方案的组内离差平方和与组间离差
平方和,选择最优分组方案.
2.经历数据分组的活动,知道按照组内离差平方和最小的原则对数
据进行分组的方法.
3.感受数据分组在实际生活中的应用价值,增强学习数学的兴趣和
自信心.
重点:知道按照组内离差平方和最小的原则对数据进行分组的方法.
难点:对组内离差平方和最小分组方式的理解.
知识链接:前面我们学习了离差平方和,回顾一下相关知识.
创设情境——见配套课件
探究点:对数据进行分组
问题:(教材P182问题)一家公司向社会招聘一名员工,所有应聘
者先统一参加笔试,然后根据笔试成绩确定一部分应聘者进入面试.
将10名应聘者的笔试成绩(百分制)按从小到大的顺序排列如下:
58 64 68 75 76 83 85 89 90 92
你认为哪一部分应聘者应当进入面试?
分析:(1)应当选择笔试成绩好的应聘者进入面试.那么笔试成绩
怎样才算好呢?
可以有不同的标准.例如,前三名或85分及以上等.
(2)从公司确定面试应聘者的角度看,把笔试成绩相对接近的分到
同一组,是一种较合理的做法.
笔试成绩可以根据组内差异最小的原则进行分组.将笔试成绩按从小
到大的顺序排列,使相互最接近的笔试成绩都挨在了一起.因此,要使分组后的组内差异最小,只需在已排序数据的基础上寻找分组方
法.
可以发现,10个笔试成绩按顺序排列形成9个间隔,如图所示.
58 | 64 | 68 | 75 | 76 | 83 | 85 | 89
| 90 | 92
每个间隔都可以把笔试成绩分成好和差两组,共有9种分法.
(3)怎么刻画组内笔试成绩差异的大小呢?哪种分法能使笔试成绩
好和差两组的组内差异最小?
在前面的学习中,我们知道,离差平方和可以刻画一组数据的离散
程度.下面我们利用离差平方和刻画组内数据的离散程度,进而对数
据进行分组.
概念引入:一般地,设有n个数据x ,x ,…,x ,其平均数记为x,
1 2 n
则离差平方和为d2=(x -x)2+(x -x)2+…+(x -x)2.如果
1 2 n
把这组数据分为两组,前m(m<n)个数据为一组,后(n-m)个
数据为一组,它们的平均数分别记为x 和x ,离差平方和分别为d2=
1 2 1
(x -x )2+(x -x )2+…+(x -x )2,d2=(x -x )2+
1 1 2 1 m 1 2 m+1 2
(x -x )2+…+(x -x)2,
m+2 2 n
那么,d2=(x -x)2+(x -x)2+…+(x -x)2
1 2 n
=(x -x +x -x)2+(x -x +x -x)2+…+(x -x +x -x)2
1 1 1 2 1 1 m 1 1
+(x -x +x -x)2+(x -x +x -x)2+…+(x -x +x -x
m+1 2 2 m+2 2 2 n 2 2
)2
=(x -x )2+(x -x )2+…+(x -x )2+(x -x )2+(x
1 1 2 1 m 1 m+1 2 m+
-x )2+…+(x -x )2+m(x -x)2+(n-m)(x -x)2
2 2 n 2 1 2
=d2+d2+m(x -x)2+(n-m)(x -x)2.
1 2 1 2
概念引入:其中d2+d2称为组内离差平方和,表示两个组内数据的离
1 2
散程度;记d2 =m(x -x)2+(n-m)(x -x)2,d2 是m个第一
12 1 2 12
组数据平均数、(n-m)个第二组数据平均数关于总体数据平均数
的离差平方和,称为组间离差平方和,表示两个组间的差异.根据组内离差平方和最小的原则进行分组时,由于d2不变,既可以按d2+d2
1 2
最小来分组,也可以按d2 最大来分组.
12
这样,根据组内离差平方和最小的原则,能使笔试成绩相差较小的
应聘者分在同一组.利用计算器或信息技术工具,可以计算出图中的
9种分法的组内离差平方和(结果保留小数点后一位),如表所示.
第一组离差平方 第二组离差平方
分组 组内离差平方和
和 和
第1个间隔 0 799.6 799.6
第2个间隔 18 503.5 521.5
第3个间隔 50.7 271.4 322.1
第4个间隔 152.8 170.8 323.6
第5个间隔 228.8 54.8 283.6
第6个间隔 411.3 26 437.3
第7个间隔 587.4 4.7 592.1
第8个间隔 819.5 2 821.5
第9个间隔 1026.2 0 1026.2
观察最后一列组内离差平方和可以发现,当按第5个间隔分组时,
组内离差平方和最小,因此,按组内离差平方和最小的分法为{58,
64,68,75,76}和{83,85,89,90,92}.
归纳总结:数据分组的步骤:
①数据排序:从小到大排列原始数据;
②确定切割点:在排序后数据的间隔处分组[n个数据有(n一1)个
间隔];
③计算比较:对每个切割点计算组内离差平方和,选择组内离差平
方和最小对应的分组.
(教材P184例)10个城市某月的每日最高温度的平均数(简称
平均高温)如表所示.
城市 北京 石家 呼和浩 哈尔 上海 广州 海口 成都 贵阳 昆明庄 特 滨
平均高
3 3 -3 -11 10 21 22 12 9 17
温/℃
根据平均高温的组内离差平方和最小的原则,把这10个城市分为两
组.
答案见配套课件.
【对应训练】教材P185练习.
1.已知一组数据:3, 10, 1, 20.
(1)将数据从小到大排序为: 1 , 3 , 1 0 , 2 0 ;
(2)按“第一个间隔”分组(即切割点在数字 1 和 3 之间),
计算组内离差平方和为 14 6 ;
(3)按“第二个间隔”分组(即切割点在数字 3 和 1 0 之
间),计算组内离差平方和为 5 2 ;
(4)按“第三个间隔”分组(即切割点在数字 1 0 和 2 0 之
134
间),计算组内离差平方和为 ;
3
(5)按“第 三 个间隔”分组,组内离差平方和最小.
2.已知6名学生的成绩为 70, 75, 80, 85, 90, 95(单位:
分).
将数据分为两组,使组内离差平方和最小化(即组内成绩差异最
小),计算最小组内离差平方和(保留 1 位小数).
解:最小组内离差平方和为 100.0,对应切割点在80 和 85 之间,
数据分组为 {70,75,80} 和 {85,90,95}.
(其他课堂拓展题,见配套PPT)