文档内容
第83讲 统计
知识梳理
知识点一、抽样
1、抽样调查
(1)总体:统计中所考察对象的某一数值指标的全体构成的集合称为总体.
(2)个体:构成总体的每一个元素叫做个体.
(3)样本:从总体中抽取若干个个体进行考察,这若干个个体所构成的集合叫做总体的一个样
本,样本中个体的数目叫做样本容量.
2、简单随机抽样
(1)定义
一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果
每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.
这样抽取的样本,叫做简单随机样本.
(2)两种常用的简单随机抽样方法
①抽签法:一般地,抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一
个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本.
②随机数法:即利用随机数表、随机数骰子或计算机产生的随机数进行抽样.这里仅介绍随
机数表法.随机数表由数字0,1,2,⋯,9组成,并且每个数字在表中各个位置出现的机会都
是一样的.
注意:为了保证所选数字的随机性,需在查看随机数表前就指出开始数字的横、纵位置.
(3)抽签法与随机数法的适用情况
抽签法适用于总体中个体数较少的情况,随机数法适用于总体中个体数较多的情况,但是当
总体容量很大时,需要的样本容量也很大时,利用随机数法抽取样本仍不方便.
(4)简单随机抽样的特征
①有限性:简单随机抽样要求被抽取的样本的总体个数是有限的,便于通过样本对总体
进行分析.
②逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作.
第 页 共 页
3036 3427③不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算.
④等可能性:简单单随机抽样中各个个体被抽到的机会都相等,从而保证了抽样方法的
公平.
只有四个特点都满足的抽样才是简单随机抽样.
3、分层抽样
(1)定义
一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定
数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.
分层抽样适用于已知总体是由差异明显的几部分组成的.
(2)分层抽样问题类型及解题思路
①求某层应抽个体数量:按该层所占总体的比例计算.
②已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行
计算.
样本容量
③分层抽样的计算应根据抽样比构造方程求解,其中“抽样比= =
总体容量
各层样本数量
”
各层个体数量
N
注意:分层抽样时,每层抽取的个体可以不一样多,但必须满足抽取n =n⋅ i(i=1,2,⋯,k)
i N
个个体(其中i是层数,n是抽取的样本容量,N 是第i层中个体的个数,N是总体容量).
i
知识点二、用样本估计总体
1、频率分布直方图
(1)频率、频数、样本容量的计算方法
频率
① ×组距=频率.
组距
频数 频数
② =频率, =样本容量,样本容量×频率=频数.
样本容量 频率
③频率分布直方图中各个小方形的面积总和等于1.
2、频率分布直方图中数字特征的计算
(1)最高的小长方形底边中点的横坐标即是众数.
(2)中位数左边和右边的小长方形的面积和是相等的.设中位数为x,利用x左(右)侧矩形
面积之和等于0.5,即可求出x.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小
长方形底边中点的横坐标之和,即有x=x p +x p +⋯+x p ,其中x 为每个小长方形底边
1 1 1 1 n n n
的中点,p 为每个小长方形的面积.
n
3、百分位数
(1)定义
一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p0 的数据小于或等
0
于这个值,且至少有100-p 0 的数据大于或等于这个值. 0
(2)计算一组n个数据的的第p百分位数的步骤
①按从小到大排列原始数据.
第 页 共 页
3037 3427②计算i=n×p0 .
0
③若i不是整数而大于i的比邻整数j,则第p百分位数为第j项数据;若i是整数,则第p
百分位数为第i项与第i+1项数据的平均数.
(3)四分位数
我们之前学过的中位数,相当于是第50百分位数.在实际应用中,除了中位数外,常用
的分位数还有第25百分位数,第75百分位数.这三个分位数把一组由小到大排列后的数据
分成四等份,因此称为四分位数.
4、样本的数字特征
(1)众数、中位数、平均数
①众数:一组数据中出现次数最多的数叫众数,众数反应一组数据的多数水平.
②中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间
两个数据的平均数)叫做这组数据的中位数,中位数反应一组数据的中间水平.
x +x +⋅⋅⋅+x
③平均数:n个样本数据x,x ,⋅⋅⋅,x 的平均数为x= 1 2 n,反应一组数据的平
1 2 n n
n
均水平,公式变形:x =nx.
i
i=1
5、标准差和方差
(1)定义
①标准差:标准差是样本数据到平均数的一种平均距离,一般用s表示.假设样本数据是x,
1
1
x ,⋅⋅⋅,x ,x表示这组数据的平均数,则标准差s= [(x -x)2+(x -x)2+⋅⋅⋅+(x -x)2].
2 n n 1 2 n
1
②方差:方差就是标准差的平方,即s2= [(x -x)2+(x -x)2+⋅⋅⋅+(x -x)2].显然,
n 1 2 n
在刻画样本数据的分散程度上,方差与标准差是一样的.在解决实际问题时,多采用标准差.
(2)数据特征
标准差、方差描述了一组数据围绕平均数波动程度的大小.标准差、方差越大,则数据的
离散程度越大;标准差、方差越小,数据的离散程度越小.反之亦可由离散程度的大小推算标
准差、方差的大小.
(3)平均数、方差的性质
如果数据x,x ,⋯⋯,x 的平均数为x,方差为s2,那么
1 2 n
①一组新数据x +b,x +b,⋯⋯x +b的平均数为x+b,方差是s2.
1 2 n
②一组新数据ax,ax ,⋯⋯,ax 的平均数为ax,方差是a2s2.
1 2 n
③一组新数据ax +b,ax +b,⋯⋯,ax +b的平均数为ax+b,方差是a2s2.
1 2 n
必考题型全归纳
1 题型一:随机抽样、分层抽样
4562 (2024·全国·高三专题练习)某工厂为了对产品质量进行严格把关,从500件产品中随机
抽出50件进行检验,对这500件产品进行编号001,002,⋯,500,从下列随机数表的第二
行第三组第一个数字开始,每次从左往右选取三个数字,则抽到第四件产品的编号为
( )
2839 3125 8395 9524 7232 8995
第 页 共 页
3038 34277216 2884 3660 1073 4366 7575
9436 6118 4479 5140 9694 9592
6017 4951 4068 7516 3241 4782
A.447 B.366 C.140 D.118
【答案】A
【解析】从第二行第三组第一个数字开始,每次从左往右选取三个数字,依次可得:366,
010,118,447,⋯
故选:A.
4563 (2024·河南·校联考模拟预测)已知某班共有学生46人,该班语文老师为了了解学生每
天阅读课外书籍的时长情况,决定利用随机数表法从全班学生中抽取10人进行调查.将
46名学生按01,02,⋯,46进行编号.现提供随机数表的第7行至第9行:
8442175331 5724550688 7704744767 2176335025 8392120676
6301637859 1695565719 9810507175 1286735807 4439523879
3321123429 7864560782 5242074438 1551001342 9966027954
若从表中第7行第41列开始向右依次读取2个数据,每行结束后,下一行依然向右读数,
则得到的第8个样本编号是 ( )
A.07 B.12 C.39 D.44
【答案】D
【解析】由题意可知得到的样本编号依次为12,06,01,16,19,10,07,44,39,38,则得
到的第8个样本编号是44.
故选:D.
4564 (2024·全国·高三专题练习)现要完成下列2项抽样调查:
①从10盒酸奶中抽取3盒进行食品卫生检查;
②东方中学共有160名教职工,其中教师120名,行政人员16名,后勤人员24名.为了了
解教职工对学校在校务公开方面的意见,拟抽取一个容量为20的样本.
较为合理的抽样方法是 ( )
A.①抽签法,②分层随机抽样 B.①随机数法,②分层随机抽样
C.①随机数法,②抽签法 D.①抽签法,②随机数法
【答案】A
【解析】①总体较少,宜用抽签法;②各层间差异明显,宜用分层随机抽样.
故选:A.
4565 (2024·安徽阜阳·高三安徽省临泉第一中学校考阶段练习)在二战期间,技术先进的德国
坦克使德军占据了战场主动权,了解德军坦克的生产能力对盟军具有非常重要的战略意
义,盟军请统计学家参与情报的收集和分析工作.在缴获的德军坦克上发现每辆坦克都
有独一无二的发动机序列号,前6位表示生产的年月,最后4位是按生产顺序开始的连续
编号.统计学家将缴获的德军坦克序列号作为样本,用样本估计总体的方法推断德军每
月生产的坦克数.假设德军某月生产的坦克总数为N,缴获的该月生产的n辆坦克编号
从小到大为x ,x ,⋯,x ,缴获的坦克是从所生产的坦克中随机获取的,缴获坦克的编号
1 2 n
x 1 ,x 2 ,⋯,x n ,相当于从1,N 中随机抽取的n个整数,这n个数将区间0,N 分成
n+1
x
个小区间(如图).可以用前n个区间的平均长度 n 估计所有n+1
n
个区间的平
第 页 共 页
3039 3427N
均长度 ,进而得到N的估计.如果缴获的坦克编号为:35,67,90,127,185,245,
n+1
287.则可以估计德军每月生产的坦克数为 ( )
A.288 B.308 C.328 D.348
【答案】C
287 N
【解析】 = ,解得N=328.可以估计德军每月生产的坦克数大约是328.
7 8
故选:C.
4566 (2024·江苏·高三江苏省梁丰高级中学校联考阶段练习)为了庆祝中国共产党第二十次
全国代表大会,学校采用按比例分配的分层随机抽样的方法从高一1002人,高二1002
人,高三1503人中抽取126人观看“中国共产党第二十次全国代表大会”直播,那么高三年
级被抽取的人数为 ( )
A.36 B.42 C.50 D.54
【答案】D
126 6
【解析】根据分层抽样的方法,抽样比为 = ,
1002+1002+1503 167
6
高三年级被抽取的人数为1503× =54人.
167
故选:D.
4567 (2024·北京·高三强基计划)某校共2017名学生,其中每名学生至少要选A,B两门课中
的一门,也有些学生选了两门课.已知选A的人数占全校人数的百分比在70%到75%之
间,选B的人数占全校人数的百分比在40%到45%之间.则下列结论中正确的是
( )
A.同时选A,B的可能有200人 B.同时选A,B的可能有300人
C.同时选A,B的可能有400人 D.同时选A,B的可能有500人
【答案】BC
【解析】根据题意,同时选A,B的人数在10%到20%之间,换算成人数为202到403之
间,
因此符合题意的选项有B,C.
故选:BC.
4568 (2024·河南·襄城高中校联考三模)现有300名老年人,500名中年人,400名青年人,从
中按比例用分层随机抽样的方法抽取n人,若抽取的老年人与青年人共21名,则n的值
为 ( )
A.15 B.30 C.32 D.36
【答案】D
n 21
【解析】由题可知 = ,解得n=36.
1200 700
故选:D.
【解题方法总结】
不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的.
2 题型二:统计图表
第 页 共 页
3040 34274569 (多选题)(2024·河北石家庄·高三校联考期中)恩格尔系数是食品支出总额占个人消费
支出总额的比重,它在一定程度上可以用来反映人民生活水平.恩格尔系数的一般规律:
收入越低的家庭,恩格尔系数就越大;收入越高的家庭,恩格尔系数就越小.国际上一般
认为,当恩格尔系数大于0.6时,居民生活处于贫困状态;在0.5-0.6之间,居民生活水平
处于温饱状态;在0.4-0.5之间,居民生活水平达到小康;在0.3-0.4之间,居民生活水
平处于富裕状态;当小于0.3时,居民生活达到富有.下面是某地区2022年两个统计图,
它们分别为城乡居民恩格尔系数统计图和城乡居民家庭人均可支配收入统计图,请你依
据统计图进行分析判断,下列结论错误的是 ( )
A.农村居民自2017年到2021年,居民生活均达到富有
B.近五年城乡居民家庭人均可支配收入差异最大的年份是2020年
C.城乡居民恩格尔系数差异最小的年份是2019年
D.2022年该地区城镇居民和农村居民的生活水平已经全部处于富有状态
【答案】ABD
【解析】对于A项,由图1可知2021年农村居民的恩格尔系数为0.316,居民生活水平处
于富裕状态,故A项错误;
对于B项,根据图2计算出的2017至2021年近五年城乡居民家庭人均可支配收入差分
别为37270元,38344元,39285元,40360元,40915元,
差异最大的年份是2021年,故B项错误;
对于C项,根据图1计算出的2017至2021年近五年城乡居民恩格尔系数差(%)分别为
5.6,4.3,3.9,4.3,5.5,
差异最小的年份是2019年,故C项正确;
对于D项,根据给出的数据不足以判断是否正确,故D项错误.
第 页 共 页
3041 3427故选:ABD.
4570 (多选题)(2024·河北唐山·迁西县第一中学校考二模)2022年的夏季,全国多地迎来罕
见极端高温天气.某课外小组通过当地气象部门统计了当地七月份前20天每天的最高
气温与最低气温,得到如下图表,则根据图表,下列判断正确的是 ( )
A.七月份前20天最低气温的中位数低于25℃
B.七月份前20天中最高气温的极差大于最低气温的极差
C.七月份前20天最高气温的平均数高于40℃
D.七月份前10天(1-10日)最高气温的方差大于最低气温的方差
【答案】BD
【解析】七月份前20天中,最低气温低于25℃的天数不超过9天,故中位数不可能低于
25℃,故 A错误;
最高气温的最大值大于40℃,最小值低于35℃,而最低气温的最大值小于30℃,最小值
接近25℃,
故最高气温的极差大于最低气温的极差,故B正确;
最高气温超过40℃的天数不超过5天,且最大值不超过45℃,故平均数不可能高于
40℃,故C错误;
前10天中,最低气温的分布更集中,故最高气温的方差大于最低气温的方差,故D正确.
故选:BD
4571 (多选题)(2024·山西忻州·高三校联考开学考试)航海模型项目在我国已开展四十余
年,深受青少年的喜爱.该项目整合国防、科技、工程、艺术、物理、数学等知识,主要通过让
参赛选手制作、遥控各类船只、舰艇等模型航行,普及船艇知识,探究海洋奥秘,助力培养
未来海洋强国的建设者.某学样为了解学生对航海模型项目的喜爱程度,用比例分配的分
层随机抽样法从某校高一、高二、高三年级所有学生中抽取部分学生做抽样调查.已知该
学校高一、高二、高三年级学生人数的比例如图所示,若抽取的样本中高三年级学生有32
人,则下列说法正确的是 ( )
A.该校高一学生人数是2000
第 页 共 页
3042 3427B.样本中高二学生人数是28
C.样本中高三学生人数比高一学生人数多12
D.该校学生总人数是8000
【答案】BC
【解析】由图可知高三年级学生人数占总人数的40%,抽取的样本中高三年级学生有32
人,
32
则抽取的学生总人数为 =80,
40%
则样本中高一学生人数为80×1-40%-35% =20,样本中高二学生人数为80×35%
=28,
从而样本中高三学生人数比高一学生人数多32-20=12.
因为从该校所有学生中抽取的学生总人数是80,但抽取的比例不知道,
所以该校高一学生人数和该校学生总人数求不出来,
所以AD错误,BC正确,
故选:BC.
4572 (多选题)(2024·湖南株洲·高三校考阶段练习)某公司统计了2024年1月至6月的月销
售额(单位:万元),并与2022年比较,得到同比增长率数据,绘制了如图所示的统计图,则
下列说法正确的是 ( )
注:同比增长率=(今年月销售额一去年同期月销售额)÷去年同期月销售额×100%.
A.2024年1月至6月的月销售额的极差为8
B.2024年1月至6月的月销售额的第60百分位数为8
C.2024年1月至6月的月销售额的中位数为9.5
D.2022年5月的月销售额为10万元
【答案】ACD
【解析】对于A,2024年1月至6月的月销售额的最大值是14,最小值是6,极差为8,故
A正确;
对于B,六个数从小到大排列为6,7,8,11,12,14,因为6×60%=3.6,所以2024年1月至
6月的月销售额的第60百分位数为第四个数11,故B错误;
8+11
对于C,2024年1月至6月的月销售额的中位数为 =9.5,故C正确;
2
11-x
对于D,设2022年5月的月销售额为x万元,则 ×100%=10%,解得x=10,故D
x
正确.
故选:ACD.
第 页 共 页
3043 34274573 (多选题)(2024·广东梅州·统考三模)某公司经营五种产业,为应对市场变化,在五年前
进行了产业结构调整,优化后的产业结构使公司总利润不断增长,今年总利润比五年前增
加了一倍,调整前后的各产业利润与总利润的占比如图所示,则下列结论错误的是
( )
A.调整后传媒的利润增量小于杂志 B.调整后房地产的利润有所下降
C.调整后试卷的利润增加不到一倍 D.调整后图书的利润增长了一倍以上
【答案】ABC
【解析】设调整前的各产业利润的总和为a,则调整后的各产业利润的总和为2a.
对于选项A,调整前传媒的利润为0.1a,杂志的利润为0.05a,
调整后传媒的利润为0.24a,杂志的利润为0.16a,
则调整后传媒的利润增量为0.14a,杂志的利润增量为0.11a,故选项A不正确;
对于选项B,调整前房地产的利润为0.45a,调整后房地产的利润为0.5a,故选项B不正
确;
0.46a
对于选项C,调整前试卷的利润为0.15a,调整后试卷的利润为0.46a,且 >3,故选
0.15a
项C不正确;
0.64a
对于选项D,调整前图书的利润为0.25a,调整后图书的利润为0.64a,且 >2,故选
0.25a
项D正确.
故选:ABC.
4574 (多选题)(2024·福建福州·福州三中校考模拟预测)某调查机构对我国若干大型科技公
司进行调查统计,得到了从事芯片、软件两个行业从业者的年龄分布的饼形图和“90后”从
事这两个行业的岗位分布雷达图,则下列说法中一定正确的是 ( )
A.芯片、软件行业从业者中,“90后”占总人数的比例超过50%
B.芯片、软件行业中从事技术、设计岗位的“90后”人数超过总人数的25%
C.芯片、软件行业从事技术岗位的人中,“90后”比“80后”多
第 页 共 页
3044 3427D.芯片、软件行业中,“90后”从事市场岗位的人数比“80前”的总人数多
【答案】ABD
【解析】A选项,从饼形图可看出芯片、软件行业从业者中“,90后”占总人数的比例为
55%,超过50%,A正确;
B选项,芯片、软件行业中从事技术、设计岗位的“90后”人数比例为55%×37%+13%
=27.5%,超过总人数的25%,B正确;
C选项,芯片、软件行业从事技术岗位的人中“,90后”人数占比为55%×37%=20.35%,
芯片、软件行业从业者中“80后”占总人数的400 ,但不知道从事技术岗位的比例,故无
0
法确定两者人数的多少,C错误;
D选项,芯片、软件行业中“,90后”从事市场岗位的人数占比为55%×14%=7.7%“,80
前”占总人数的5%,故D正确.
故选:ABD
4575 (多选题)(2024·河北·统考模拟预测)某地环保部门公布了该地A,B两个景区2016年
至2022年各年的全年空气质量优良天数的数据.现根据这组数据绘制了如图所示的散点
图,则由该图得出的下列结论中正确的是 ( )
A.景区A这7年的空气质量优良天数的中位数为254
B.景区B这7年的空气质量优良天数的第80百分位数为280
C.这7年景区A的空气质量优良天数的标准差比景区B的空气质量优良天数的标准差
大
D.这7年景区A的空气质量优良天数的平均数比景区B的空气质量优良天数的平均数
大
【答案】AC
【解析】由图可得:景区A这7年的空气质量优良天数排序得:203,217,254,254,293,
301,313;
景区B这7年的空气质量优良天数排序得:255,262,262,266,280,283,293;
对于选项A:景区A这7年的空气质量优良天数的中位数为254,故A正确;
对于选项B:因为7×0.8=5.6,则第80百分位数为第6个数,为283,故B错误;
对于选项C:由图可知:景区A的空气质量优良天数的数据波动比景区B的空气质量优
良天数的数据波动大,
所以景区A的空气质量优良天数的标准差比景区B的空气质量优良天数的标准差大,
故C正确;
对于选项D:景区A的空气质量优良天数的平均值x =
甲
第 页 共 页
3045 3427203+217+254+254+293+301+313 1835
= ,
7 7
255+262+262+266+280+283+293
景区B的空气质量优良天数的平均值x = =
乙 7
1901
,
7
1835 1901
因为 < ,即x 86000,
当x<190时,y=600x-19000≥86000,所以175≤x<190,则x≥175,
所以PA =Px≥175
1
= ×10×0.028+10×0.022+10×0.012+10×0.004=
2
0.52.
【解题方法总结】
(1)利用频率分布直方图求频率、频数;
(2)利用频率分布直方图估计总体.
(3)频率分布直方图的纵坐标是 ,而不是频率.
4 题型四:百分位数
4582 (2024·上海·高三专题练习)以下数据为参加数学竞赛决赛的15人的成绩(单位:分),分
数从低到高依次:56,70,72,78,79,80,81,83,84,86,88,90,91,94,98,则这15人成绩的第80
百分位数是 .
【答案】90.5
【解析】因为15×80%=12,
90+91
故这15人成绩的第80百分位数为 =90.5,
2
故答案为:90.5
4583 (2024·上海浦东新·高三上海市建平中学校考阶段练习)某校为了了解高三年级学生的
身体素质状况,在开学初举行了一场身体素质体能测试,以便对体能不达标的学生进行有
第 页 共 页
3049 3427针对性的训练,促进他们体能的提升,现从整个年级测试成绩中抽取100名学生的测试成
绩,并把测试成绩分成40,50 ,50,60 ,60,70 ,70,80 ,80,90 ,90,100 六组,绘制成频
率分布直方图(如图所示).其中分数在90,100 这一组中的纵坐标为a,则该次体能测试
成绩的80%分位数约为 分.
【答案】92
【解析】由频率分布直方图知0.035+0.020+0.014+0.004+0.002=0.075,
由10×0.075+a =1得:a=0.025.
因为0.02+0.04+0.14+0.2+0.35=0.75,
所以该次体能测试成绩的80%分位数落在90,100 内,设其为x,
则由x-90 ×0.025=0.05,解得x=92.
故答案为:92.
4584 (2024·安徽·校联考二模)国庆节前夕,某市举办以“红心颂党恩、喜迎二十大”为主题的
青少年学生演讲比赛,其中10人比赛的成绩从低到高依次为:85,86,88,88,89,90,
92,93,94,98(单位:分),则这10人成绩的第75百分位数是 .
【答案】93
【解析】因为10×75%=7.5,根据第p百位数的含义知,应该选取第8个数作为第75百
分位数,所以这10人成绩的第75百分位数是93.
故答案为:93.
4585 (2024·黑龙江哈尔滨·高一哈尔滨市第四中学校校考期末)已知一组数据:24,30,40,
44,48,52.则这组数据的第30百分位数、第50百分位数的平均数为 .
【答案】36
【解析】因为6×30%=1.8,故这组数据的第30百分位数为30,
40+44
因为6×50%=3,所以第50百分位数为 =42,
2
30+42
所以这组数据的第30百分位数、第50百分位数的平均数为 =36,
2
故答案为:36.
4586 (2024·全国·高三专题练习)为了养成良好的运动习惯,某人记录了自己一周内每天的运
动时长(单位:分钟),分别为53,57,45,61,79,49,x,若这组数据的第80百分位数与第
60百分位数的差为3,则x= ( )
A.58或64 B.59或64 C.58 D.59
【答案】A
【解析】将已知的6个数从小到大排序为45,49,53,57,61,79.
若x≤57,则这组数据的第80百分位数与第60百分位数分别为61和57,他们的差为4,
第 页 共 页
3050 3427不符合条件;
若x≥79,则这组数据的第80百分位数与第60百分位数分别为79和61,它们的差为
18,不符合条件;
若57 (6-3.4)2=1.352>1.04,
5
所以当平均数为3.4,方差为1.04时,一定不会出现点数6;
对于丙同学,当掷骰子出现的结果为1,2,3,3,6时,满足中位数为3,众数为3,可以出
现点数6;
对于丁同学,当投掷骰子出现的结果为2,2,2,3,6时,满足平均数为3,中位数为2,可以出
现点数6.
综上,根据统计结果,数据中肯定没有出现点数6的是乙同学.
故答案为:乙
4594 (2024·云南大理·高一校考阶段练习)根据气象学上的标准,连续5天的日平均气温低于
10℃即为入冬.现有甲、乙、丙、丁四地连续5天的日平均温度的记录数据(记录数据都是
正整数):
①甲地:5个数据的中位数为7,众数为6;②乙地:5个数据的平均数为8,极差为3;
③丙地:5个数据的平均数为5,中位数为4;④丁地:5个数据的平均数为6,方差小于3.
则肯定进入冬季的地区是 ( )
A.甲地 B.乙地 C.丙地 D.丁地
【答案】D
【解析】①甲地:5个数据的中位数为7,众数为6;则这5个数据可能为6,6,7,10,11,
即连续5天的日平均气温不是都低于10℃,所以甲地不一定入冬,故A错;
②乙地:5个数据的平均数为8,极差为3;则这5个数据可能为7,7,8,8,10,
即连续5天的日平均气温不是都低于10℃,所以乙地不一定入冬,故B错;
③丙地:5个数据的平均数为5,中位数为4;则这5个数据可能为1,2,4,7,11,
即连续5天的日平均气温不是都低于10℃,所以丙地不一定入冬,故C错;
④丁地:5个数据的平均数为6,方差小于3,如果有数据大于等于10,
10-6
则方差必大于等于
2 16
= >3,不满足题意,
5 5
因此丁地连续5天的日平均气温都低于10℃,所以丁地一定入冬,故D正确,
故选:D.
4595 (2024·河北沧州·高二肃宁县第一中学校考阶段练习)气象意义上的春季进入夏季的标
志为连续5天的日平均温度不低于220C.现有甲、乙、丙三地连续5天的日平均气温的记
录数据(记录数据都是正整数):
①甲地:5个数据是中位数为24,众数为22;
②乙地:5个数据是中位数为27,总体均值为24;
③丙地:5个数据中有一个数据是32,总体均值为26,总体方差为10.8
则肯定进入夏季的地区有
A.①②③ B.①③ C.②③ D.①
【答案】B
第 页 共 页
3054 3427【解析】由统计知识①甲地:5个数据的中位数为24,众数为22可知①符合题意;而②乙
地:5个数据的中位数为27,总体均值为24中有可能某一天的气温低于22°C,故不符合
题意,③丙地:5个数据中有一个数据是32,总体均值为26,总体方差为10.8.若由有某
一天的气温低于22°C则总体方差就大于10.8,故满足题意,选C
考点:统计初步
4596 (2024·吉林长春·高一长春市第五中学校考期末)下列命题中是真命题的是 ( )
A.一组数据2,1,4,3,5,3的平均数、众数、中位数相同;
B.有A、B、C三种个体按3:1:2的比例分层抽样调查,如果抽取的A个体数为9,则样
本容量为30;
C.若甲组数据的方差为5,乙组数据为5,6,9,10,5,则这两组数据中较稳定的是甲;
D.一组数1,2,2,2,3,3,3,4,5,6的80%分位数为4.
【答案】A
2+1+4+3+5+3 3+3
【解析】对于A:平均数为x= =3,众数为3,中位数为 =3,故
6 2
A正确;
3
对于B:设样本容量为n,则n× =9,解得n=18,故B错误;
3+1+2
2×5+6+9+10 1
对于C:乙组数据平均数为 =7,其方差为s2= 22+12+22+32+22
5 5
=
22
<5,则这两组数据中较稳定的是乙,故C错误;
5
4+5
对于D:因为10×80%=8,所以这组数据的80%分位数为 =4.5,故D错误;
2
故选:A
【解题方法总结】
(1)平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小.
1
(2)方差的简化计算公式:s2= n x2 1 +x2 2 +⋅⋅⋅+x2 n
-nx2
1
或写成s2= n x2 1 +x2 2 +⋅⋅⋅+x2 n
-x2,即方差等于原数据平方的平均数减去平均数的平方.
6 题型六:总体集中趋势的估计
4597 (2024·湖北孝感·高二孝昌县第一高级中学校联考阶段练习)文明城市是反映城市整体
文明水平的综合性荣誉称号,作为普通市民,既是文明城市的最大受益者,更是文明城市
的主要创造者.某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞
赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于
40分的整数)分成六段:40,50 ,50,60 ,⋯,90,100 得到如图所示的频率分布直方图.
(1)求频率分布直方图中a的值;
第 页 共 页
3055 3427(2)求样本成绩的第75百分位数;
(3)已知落在50,60 的平均成绩是61,方差是7,落在60,70 的平均成绩为70,方差是
4,求两组成绩的总平均数z和总方差s2.
【解析】(1)利用每组小矩形的面积之和为1可得,
0.005+0.010+0.020+a+0.025+0.010 ×10=1,
解得a=0.030
(2)成绩落在40,80 内的频率为0.005+0.010+0.020+0.030 ×10=0.65,
落在40,90 内的频率为0.005+0.010+0.020+0.030+0.025 ×10=0.9,
设第75百分位数为m,
由0.65+m-80 ×0.025=0.75,得m=84,
故第75百分位数为84;
(3)由图可知,成绩在50,60 的市民人数为100×0.1=10,
成绩在60,70 的市民人数为100×0.2=20,
10×61+70×20
故z= =67;
10+20
由样本方差计算总体方差公式可得总方差为s2=
1
10 7+61-67
10+20
2 +20 4+70-67 2 =23.
4598 (2024·河南南阳·高一统考期末)2022年入冬以来,为进一步做好疫情防控工作,避免疫
情的再度爆发,A地区规定居民出行或者出席公共场合均需佩戴口罩,现将A地区
20000个居民一周的口罩使用个数统计如下表所示,其中每周的口罩使用个数在6以上
(含6)的有14000人.
口罩使用数量 2,4 4,6 6,8 8,10 10,12
频率 0.2 m 0.3 n 0.1
(1)求m,n的值,根据表中数据,完善上面的
频率分布直方图;(只画图,不要过程)
(2)根据频率分布直方图估计A地区居民一周口罩使用个数的75%分位数和中位数;(四
舍五入,精确到0.1)
(3)根据频率分布直方图估计A地区居民一周口罩使用个数的平均数以及方差.(每组
数据用每组中点值代替)
【解析】(1)由每周的口罩使用个数在6以上(含6)的有14000人得:n+0.3+0.1=
14000
=0.7,解得:n=0.3,
20000
20000-14000
∴m= -0.2=0.1,
20000
则频率分布直方图如下:
第 页 共 页
3056 3427(2)∵0.2+0.1+0.3=0.6<0.75,0.6+0.3=0.9>0.75,
∴75%分位数位于8,10 ,设其为x,
则0.6+x-8 ×0.15=0.75,解得:x=9,即估计75%分位数为9个;
∵0.2+0.1=0.3<0.5,0.2+0.1+0.3=0.6>0.5,
∴中位数位于6,8 ,设其为y,
则0.3+y-6 ×0.15=0.5,解得:y≈7.3,即估计中位数为7.3个.
(3)由频率分布直方图得一周内使用口罩的平均数为:3×0.2+5×0.1+7×0.3+9×
0.3+11×0.1=7(个),
方差为s2=0.2×3-7
2+0.1×5-7
2+0.3×7-7
2+0.3×9-7
2+0.1×11-7
2
=6.4,
则所求平均数估计为7个,方差估计为6.4.
4599 (2024·河北邯郸·高二校考开学考试)某工厂在加大生产量的同时,狠抓质量管理,不定
时抽查产品质量.该企业质检人员从所生产的产品中随机抽取了100个,将其质量指标
值分成以下六组:40,50 ,50,60 ,60,70 ,⋯,90,100 .得到如下频率分布直方图.
(1)求出直方图中m的值;
(2)利用样本估计总体的思想,估计该企业所生产的口罩的质量指标值的平均数和60%
分位数(同一组中的数据用该组区间中点值作代表,60%分位数精确到0.01).
【解析】(1)由10×0.01+0.015+0.015+m+0.025+0.005 =1,得m=0.030.
(2)平均数x=45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71,
设60%分位数为n,则由0.1+0.15+0.15=0.4<0.6,0.1+0.15+0.15+0.3=0.7>
0.6,
可得n在70,80 上,由0.1+0.15+0.15+n-70 ×0.03=0.6,得n≈76.67.
故可以估计该企业所生产口罩的质量指标值的平均数为71,60%分位数为76.67.
第 页 共 页
3057 34274600 (2024·福建·高二校联考开学考试)小晟统计了他6月份的手机通话明细清单,发现自己
该月共通话100次,小晟将这100次通话的通话时间(单位:分钟)按照0,4 ,4,8 ,
8,12 ,12,16 ,16,20 ,20,24 分成6组,画出的频率分布直方图如图所示.
(1)求a的值;
(2)求通话时间在区间4,12 内的通话次数;
(3)试估计小晟这100次通话的平均时间(同一组中的数据用该组区间的中点值作代表).
【解析】(1)由0.1+0.06+a+0.02+0.02+0.01 ×4=1,
得a=0.04.
(2)因为通话时间在区间4,12 内的频率为0.06+0.04 ×4=0.4,
所以通话时间在区间4,12 内的通话次数为100×0.4=40.
(3)这100次通话的平均时间的估计值为:
2×0.1+6×0.06+10×0.04+14×0.02+18×0.02+22×0.01 ×4=7.28分钟.
4601 (2024·浙江温州·高二乐清市知临中学校考开学考试)为了迎接新高考,某校举行物理和
化学等选科考试,其中,600名学生化学成绩(满分100分)的频率分布直方图如图所示,
其中成绩分组区间是:第一组45,55 ,第二组55,65 ,第三组65,75 ,第四组75,85 ,
第五组85,95 .已知图中第三组频率为0.45,第一组和第五组的频率相同.
(1)求a,b的值;
(2)估算高分(大于等于80分)人数;
(3)估计这600名学生化学成绩的平均值(同一组中的数据用该组区间的中点值作代表)
和中位数.(中位数精确到0.1)
【解析】(1)第一组45,55 频率10×0.005=0.05,第二组55,65 频率10×0.025=
0.25,
第三组65,75 频率10b,第四组75,85 频率10a,第五组85,95 频率10×0.005=
0.05,
由概率之和为1,可得0.05+0.25+10b+10a+0.05=1即a+b=0.065,
第三组频率为0.45,可得10b=0.45,
解得a=0.02,b=0.045,
第 页 共 页
3058 3427(2)高分(大于等于80分)频数85-80 ×0.02+10×0.005=0.15,
则估算高分(大于等于80分)频数为0.15×600=90(人),
(3)估计平均数为0.05×50+0.25×60+0.45×70+0.2×80+0.05×90=69.5,
设中位数为x,
由于0.05+0.25+0.45=0.75>0.5,故x∈65,75 ,
4602 05+0.25+0.045⋅x-65 =0.5,解得x≈69.4,故中位数为69.4.
4603 (2024·湖北武汉·高二统考开学考试)某学校为了了解老师对“民法典”知识的认知程度,
针对不同年龄的老师举办了一次“民法典”知识竞答,满分100分(95分及以上为认知程度
高),结果认知程度高的有m人,按年龄分成5组,其中第一组:[20,25),第二组:[25,30),
第三组:[30,35),第四组:[35,40),第五组:[40,45],得到如图所示的频率分布直方图,已
知第一组有10人.
(1)根据频率分布直方图,估计这m人年龄的第75百分位数;
(2)现从以上各组中用分层随机抽样的方法抽取40人,担任“民法典”知识的宣传使者.
①若有甲(年龄23),乙(年龄43)两人已确定入选宣传使者,现计划从第一组和第五组被
抽到的使者中,再随机抽取2名作为组长,求甲、乙两人恰有一人被选上的概率;
②若第四组宣传使者的年龄的平均数与方差分别为36和1,第五组宣传使者的年龄的平
均数与方差分别为42和2,据此估计这m人中35~45岁所有人的年龄的方差.
【解析】(1)设这m人年龄的第75百分位数为a,
根据百分位数定义可得0.05+0.35+0.3+(a-35)×0.04=0.75,
解得a=36.25.
(2)①由题意得,第一组应抽取2人,记为A,甲,第五组抽取4人,记为B,C,D,乙.
对应的样本空间为:Ω={(A,B),(A,C),(A,甲),(A,乙),(A,D),(B,C),(B,甲),(B,乙),
(B,D),(C,甲),(C,乙),(C,D),(甲,乙),(甲,D),(乙,D)},共15个样本点.
设事件M=“甲、乙两人恰有一人被选上”,
则M={(A,甲),(A,乙),(B,甲),(B,乙),(C,甲),(C,乙),(甲,D),(乙,D)},共有8个样本
点.
n(M) 8
所以,P(M)= = .
n(Ω) 15
②设第四组、第五组的宣传使者的年龄的平均数分别为x ,x ,方差分别为s2,s2,
4 5 4 5
则x =36,x =42,s2=1,s2=2.
4 5 4 5
设第四组和第五组所有宣传使者的年龄平均数为z,方差为s2.
8 4 1
则z= x + x =38,s2= 4× s2+x -z 12 4 12 5 6 4 4 2
+2× s2+x -z 5 5 2
28
= , 3
第 页 共 页
3059 342728
因此,第四组和第五组所有宣传使者的年龄方差为 .
3
28
据此,可估计这m人中年龄在35~45岁的所有人的年龄方差约为 .
3
【解题方法总结】
频率分布直方图的数字特征
(1)众数:最高矩形的底边中点的横坐标.
(2)中位数:中位数左边和右边的矩形的面积和应该相等.
(3)平均数:平均数在频率分布直方图中等于各组区间的中点值与对应频率之积的和.
7 题型七:总体离散程度的估计
4604 (2024·高一课时练习)某学校高一100名学生参加数学考试,成绩均在40分到100分之
间,学生成绩的频率分布直方图如下图:
(1)估计这100名学生分数的中位数与平均数;(精确到0.1)
(2)某老师抽取了10名学生的分数:x,x ,x ,⋅⋅⋅,x ,已知这10个分数的平均数x=90,标
1 2 3 10
准差s=6,若剔除其中的100和80两个分数,求剩余8个分数的平均数与标准差.
n
x2-nx2
i
(参考公式:s= i=1 )
n
【解析】(1)∵0.005+0.015+0.025 ×10=0.45<0.5,0.45+0.035×10=0.8>0.5,
∴中位数位于70,80 之间,设中位数为m,
则0.45+m-70
500
×0.035=0.5,解得:m= ≈71.4,即中位数为71.4;
7
平均数为45×0.005+55×0.015+65×0.025+75×0.035+85×0.010+95×0.010 ×10
=71.0.
10x-100-80 10×90-180
(2)剩余8个分数的平均值为 = =90;
8 8
10
x2-10×902
i 10
∵s= i=1 =6,∴x2=10×62+10×902=81360,
10 i
i=1
10
x2-802-1002-8×902
i
∴剩余8个分数的标准差为 i=1 = 20=2 5.
8
4605 (2024·四川绵阳·绵阳中学校考二模)2022年4月16日,神舟十三号载人飞船返回舱成
功着陆,航天员翟志刚、王亚平、叶光富完成在轨驻留半年的太空飞行任务,标志着中国空
间站关键技术验证阶段圆满完成.并将进入建造阶段某地区为了激发人们对天文学的兴
第 页 共 页
3060 3427趣,开展了天文知识比赛,满分100分(95分及以上为认知程度高),结果认知程度高的有
m人,这m人按年龄分成5组,其中第一组:20,25 ,第二组:25,30 ,第三组:30,35 ,
第四组:35,40 ,第五组:40,45 ,得到如图所示的频率分布直方图,已知第一组有10
人.
(1)根据频率分布直方图,估计这m人的第80百分位数(中位数=第50百分位数);
(2)现从以上各组中用分层随机抽样的方法抽取20人,担任“党章党史”的宣传使者.
①若有甲(年龄36),乙(年龄42)两人已确定入选宣传使者,现计划从第四组和第五组被
抽到的使者中,再随机抽取2名作为组长,求甲、乙两人至少有一人被选上的概率;
5
②若第四组宣传使者的年龄的平均数与方差分别为36和 ,第五组宣传使者的年龄的平
2
均数与方差分别为42和1,据此估计这m人中35∼45岁所有人的年龄的平均数和方差.
【解析】(1)设第80百分位数为a,
∵0.01×5+0.07×5+0.06×5=0.7<0.8,0.01×5+0.07×5+0.06×5+0.04×5=
0.9>0.8,
∴a位于第四组:35,40 内;
方法一:由5×0.02+40-a ×0.04=0.2得:a=37.5.
方法二:由0.7+a-35 ×0.04=0.8得:a=37.5.
(2)①由题意得,第四组应抽取0.04×5×20=4人,记为A,B,C,甲;第五组抽取0.02
×5×20=2人,记为D,乙,
对应的样本空间为:AB,AC,A甲,AD,A乙,BC,B甲,BD,B乙,C甲,CD,C乙,
甲D,甲乙,D乙,共15个样本点.
设事件M为“甲、乙两人至少一人被选上”,
则有A甲,A乙,B甲,B乙,C甲,C乙,甲D,甲乙,D乙,共有9个样本点.
∴PM
nM
=
nΩ
9 3
= = ;
15 5
②设第四组的宣传使者的年龄分别为x,x ,x ,x ,平均数分别为x=36,方差分别为s2=
1 2 3 4 1
5
,
2
设第五组的宣传使者的年龄分别为y ,y ,平均数分别为y=42,方差分别为s2=1,
1 2 2
1 4 1 2 1 4
则x= x,y= y,s2= x-x
4 i 2 i 1 4 i
i=1 i=1 i=1
1 4
2= x2-4x2
4 i
i=1
1 2
,s2= y-y
2 2 i
i=1
2=
1 2
y2-2y2
2 i
i=1
,
4 2 4 2
可得x =4x,y =2y,x2=4s2+4x2,y2=2s2+2y2,
i i i 1 i 2
i=1 i=1 i=1 i=1
第 页 共 页
3061 3427
设第四组和第五组所有宣传使者的年龄平均数为z,方差为s2.
4 2
x +y
i i 4x+2y 4×36+2×42
则z= i=1 i=1 = = =38,
6 6 6
即第四组和第五组所有宣传使者的年龄平均数为38,
1 4
则s2= x-z 6 i
i=1
2
2+ y-z i
i=1
2
1 4
= x4-4z2 6 i
i=1
2
+y4-2z2 i
i=1
1
= 4s2+4x2+2s2+2y2-6z2
6 1 2
1 5
= ×4× +4×362+2×1+2×422-6×382
6 2
=10.
即第四组和第五组所有宣传使者的年龄方差为10;
据此估计这m人中年龄在35∼45岁的所有人的年龄的平均数为38,方差约为10.
4606 (2024·北京·高三校考阶段练习)某学校为了解学生的体质健康状况,对高一、高二两个
年级的学生进行体质健康测试.现从两个年级学生中各随机抽取20人,将他们的测试数
据用茎叶图表示如下:
高一 高二
6 4 3 9 0 5 8
9 6 2 3 8 1 4 5 8
9 8 5 2 1 7 2 3 3 9
9 7 7 6 4 6 4 5 7 8
8 3 0 5 0 2 6
4 0 2
《国家学生体质健康标准》的等级标准如下表.规定:测试数据≥60,体质健康为合格.
等级 优秀 良好 及格 不及格
测试数据 [90,100] [80,89] [60,79] [0,59]
(1)从该校高二年级学生中随机抽取一名学生,试估计这名学生体质健康合格的概率;
(2)从两个年级等级为优秀的样本中各随机选取一名学生,求选取的两名学生的测试数据
平均数大于95的概率;
(3)设该校高一学生测试数据的平均数和方差分别为x,s2,高二学生测试数据的平均数和
1 1
方差分别为x ,s2,试比较x 与x 、s2与s2的大小.(只需写出结论)
2 2 1 2 1 2
【解析】(1)由茎叶图可知高二学生样本中体质健康合格的人数为3+4+4+4=15,
15 3
故样本中学生体质健康合格的频率为 = ,
20 4
3
故从该校高二年级学生中随机抽取一名学生,估计这名学生体质健康合格的概率为 .
4
(2)设高一年级样本中测试数据为93,94,96的三名学生分别为a,a ,a ,
1 2 3
高一年级样本中测试数据为90,95,98的三名学生分别为b,b ,b ,
1 2 3
学区的2名学生构成的基本事件共有a 1 ,b 1 ,a 1 ,b 2 ,a 1 ,b 3 ,a 2 ,b 1 ,a 2 ,b 2 ,a 2 ,b 3 ,
a 3 ,b 1 ,a 3 ,b 2 ,a 3 ,b 3 ,共9个,
其中两名学生的测试数据平均数大于95的有a 1 ,b 3 ,a 2 ,b 3 ,a 3 ,b 2 ,(a ,b ),共4个, 3 3
4
故选取的两名学生的测试数据平均数大于95的概率为 .
9
(3)由茎叶图中相应分数段内数据可看出高一学生测试数据的平均数要大于高二学生测
第 页 共 页
3062 3427试数据的平均数,
高一学生的测试数据比高二学生的测试数据更为集中,因此高一学生测试数据的方差要
小于高二学生测试数据的方差,
故x >x ,s20.9.
0.90-0.8
∴该次校内考试测试分数的90%分位数为85+ ×10=90
1-0.8
∴这30名学生的最低分数的估计值为90分.
1 n
(3)∵s2= fx-x
n i i
i=1
2
=0.06×(50-75)2+0.14×(60-75)2+0.24×(70-75)2+0.36×(80-75)2+0.2×
(90-75)2=129,
∴S= 129≈11.4,∴x-2S=52.2,x+2S=97.8,
∴得分为52分的同学的成绩没有进入到52.2,97.8 内,
得分为94分的同学的成绩进入到了52.2,97.8 内.
即:得分为52分的同学的成绩没有进入到[x-2s,x+2s]范围,
得分为94分的同学的成绩进入到[x-2s,x+2s]范围了.
4611 (2024·黑龙江牡丹江·高一牡丹江一中校考期末)4月23日是世界读书日,树人中学为了
解本校学生课外阅读情况,按性别进行分层,用分层随机抽样的方法从全校学生中抽出一
个容量为100的样本,其中男生40名,女生60名.经调查统计,分别得到40名男生一周
课外阅读时间(单位:小时)的频数分布表和60名女生一周课外阅读时间(单位:小时)的
频率分布直方图.(以各组的区间中点值代表该组的各个值)
男生一周课外阅读时间频数分布表
小时 频数
0,2 9
2,4 25
第 页 共 页
3065 34274,6 3
6,8 3
女生一周课外阅读时间频率分布直方图
(1)从一周课外阅读时间为4,6 的学生中按比例分配抽取6人,再从这6名学生中选出
2名同学调查他们阅读书目.求这两人都是女生的概率;
(2)分别估计男生和女生一周课外阅读时间的平均数x,y;
(3)估计总样本的平均数z和方差s².
参考数据和公式:男生和女生一周课外阅读时间方差的估计值分别为s2 =2.4和s2 =
男 女
1 40
3,s2= x-x 100 i
i=1
40 60 60
2+(x-z)2+(y-z)2+ y-y i
i=1 i=1 i=1
2
,x i1≤i≤40 和
y i1≤i≤60 分别表示男生和女生一周阅读时间的样本,其中i∈Z.
【解析】(1)一周课外阅读时间为4,6
1
的学生中男生有3人,女生有 ×2×60=15人,
8
3 15
若从中按比例分配抽取6人,则男生有6× =1人,女生有6× =5人,
3+15 3+15
用a表示男生,用1,2,3,4,5表示女生,
则样本空间为Ω=a1,a2,a3,a4,a5,12,13,14,15,23,24,25,34,35,45 ,
设事件A=“选出两人都是女生”,则A=12,13,14,15,23,24,25,34,35,45 ,
由于抽中Ω中每一个样本点的可能性相等,所以这是一个古典概型,
所以PA
nA
=
nΩ
10 2
= = .
15 3
1×9+3×25+5×3+7×3
(2)估计男生一周课外阅读时间平均数x= =3;
40
1 1 1 1
估计女生一周课外阅读时间的平均数y= ×2×1+ ×2×3+ ×2×5+ ×2
24 4 8 12
×7=4.
3×40+4×60
(3)估计总样本的平均数z= =3.6,
100
1 40
∵ x-x
40 i
i=1
1 60
2=s2 =2.4, y-y
男 60 i
i=1
2=s2 =3,
女
40
∴ x-x
i
i=1
60
2=s2 ⋅40=2.4×40=96, y-y
男 i
i=1
2=s2 ⋅60=3×60=180,
女
40 60
(x-z)2=40×(3-3.6)2=14.4,(y-z)2=60×(4-3.6)2=9.6,
i=1 i=1
1
∴s2= [96+14.4+9.6+180]=3,
100
第 页 共 页
3066 3427
所以估计总样本的平均数z=3.6,方差s2=3.
【解题方法总结】
总体离散程度的估计
标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)越大,数据
的离散程度越大;标准差(方差)越小,数据的离散程度越小.
8 题型八:分层方差问题
4612 (2024·高一课时练习)某车间有甲、乙两台机床同时加工直径为100cm的零件,为检验
质量,从中各抽取6件,测得甲、乙两组数据的均值为x =x =100,两组数据的方差分
甲 乙
7
别为s2 = ,s2 =1,则估计该车间这批零件的直径的方差s2= .
甲 3 乙
5 2
【答案】 /1
3 3
6×100+6×100
【解析】依题意,抽取的12件零件直径的平均数x= =100,
12
6 6
所以该车间这批零件的直径的方差s2= [s2 +(x -x)2]+ [s2 +(x -x)2]=
12 甲 甲 12 乙 乙
1 7
+1
2 3
5
= .
3
5
故答案为:
3
4613 (2024·安徽阜阳·高三安徽省临泉第一中学校考阶段练习)某校高二年级有男生400人
和女生600人,为分析期末物理调研测试成绩,按照男女比例通过分层随机抽样的方法取
到一个样本,样本中男生的平均成绩为80分,方差为10,女生的平均成绩为60分,方差为
20,由此可以估计该校高二年级期末物理调研测试成绩的方差为 .
【答案】112
【解析】由400:600=2:3,不妨设样本由男生2人和女生3人组成.由题设:
1
2 x 1 +x 2
1
=80, 2 x2 1 +x2 2 -2×802 =10,解得x 1 +x 2 =160,x2 1 +x2 2 =2802+10 =
12820;
1
3 y 1 +y 2 +y 3
1
=60, 3 y2 1 +y2 2 +y2 3 -3×602 =20
解得y 1 +y 2 +y 3 =180,y2 1 +y2 2 +y2 3 =3602+20 =10860;
1
所以样本的平均分x= 160+180
5
=68,样本的方差s2=
1
12820+10860
5
-5×682 =112.
故答案为:112.
4614 (2024·湖南郴州·高二统考期末)某校有高一学生1000人,其中男生600人,女生400人,
为了获取学生身高信息,采用男、女按比例分配分层抽样的方法抽取样本50人,并观测样
本的指标值(单位:cm),计算得男生样本的均值为170,方差为20,女生样本的均值为
160,方差为30,据此估计该校高一年级学生身高的总体方差为 .
【答案】48
【解析】由题意,某校有高一学生1000人,其中男生600人,女生400人,
600 400
可得总体的均值为x= ×170+ ×160=166,
1000 1000
1
总体的方差为s2= {600×[20+(170-166)2]+400×[30+(160-166)2]}=48.
1000
第 页 共 页
3067 3427故答案为:48.
4615 (2024·湖南常德·常德市一中校考模拟预测)为调查某地区中学生每天睡眠时间,采用样
本量比例分配的分层随机抽样,现抽取初中生800人,其每天睡眠时间均值为9小时,方
差为0.5,抽取高中生1200人,其每天睡眠时间均值为8小时,方差为1,则估计该地区中
学生每天睡眠时间的方差为 .
【答案】1.04
【解析】该地区中学生每天睡眠时间的平均数为:
800 1200
×9+ ×8=8.4(小时),
1200+800 1200+800
该地区中学生每天睡眠时间的方差为:
800
× 0.5+9-8.4
1200+800
2
1200
+ × 1+8-8.4
1200+800
2 =1.04.
故答案为:1.04
4616 (2024·新疆伊犁·高一校联考期末)某校教师男女人数之比为5:4,该校所有教师进行1分
钟限时投篮比赛.现记录了每个教师1分钟命中次数,已知男教师命中次数的平均数为
17,方差为16,女教师命中次数的平均数为8,方差为16,那么全体教师1分钟限时投篮次
数的方差为 .
【答案】36
【解析】设男女人数分别为5a,4a,则男女教师总命中次数分别为85a、32a,
85a+32a
所以全体教师平均命中次数为 =13,
5a+4a
若男教师命中次数为x 1 ,x 2 ,...,x m (m=5a),女教师命中次数为y 1 ,y 2 ,...,y nn=4a ,
m n
所以(x-17)2=80a,(y-8)2=64a,
i i
i=1 i=1
全体教师1分钟限时投篮次数的方差为s2,则
(m+n)s2=(x -13)2+(x -13)2+...+(x -13)2+(y -13)2+(y -13)2+...+(y -
1 2 m 1 2 n
13)2
=(x -17+4)2+...+(x -17+4)2+(y -8-5)2+...+(y -8-5)2
1 m 1 n
m m n n
=(x-17)2+8(x-17)+16m+(y-8)2-10(y-8)+25n
i i i i
i=1 i=1 i=1 i=1
m n
=(x-17)2+16m+(y-8)2+25n
i i
i=1 i=1
=80a+80a+64a+100a
=324a,
324a
所以s2= =36.
9a
故答案为:36
4617 (2024·江苏南京·高一南京市燕子矶中学校考期中)甲、乙两支田径队队员的体重(单位:
kg)信息如下:甲队体重的平均数为60,方差为200,乙队体重的平均数为68,方差为300,
又已知甲、乙两队的队员人数之比为1:3,则关于甲、乙两队全部队员的体重的平均数和方
差分别为
参考公式:总体分为2层,分层随机抽样,各层抽取的样本量、样本平均数和样本方差分别
为:n,x,s2,n ,y,s2记总样本的平均数ω,样本方差为s2,s2=
1 2 2
1
n s2+x-ω n +n 1 1
1 2
2
+n s2+y-ω 2 2 2
第 页 共 页
3068 3427【答案】66;287
【解析】根据题意,甲队体重的平均数为60,方差为200,乙队体重的平均数为68,方差为
300,
1 1
甲队队员在所有队员中所占权重为 = ,乙队队员在所有队员中所占权重为
1+3 4
3 3
= ,
1+3 4
1 3
则甲、乙两队全部队员的体重的平均数x= ×60+ ×68=66,
4 4
1
方差s2= 200+60-66
4
2
3
+ 300+(68-66)2
4
=287.
故答案为:66,287.
4618 (2024·安徽芜湖·高一统考期末)在对树人中学高一年级学生身高(单位:cm)调查中,抽
取了男生20人,其平均数和方差分别为174和12,抽取了女生30人,其平均数和方差分
别为164和30,根据这些数据计算出总样本的方差为 .
234
【答案】46.8/
5
174×20+164×30
【解析】依题意得,题干中50人身高的平均数为: =168,
50
20
根据方差公式,总体的方差为: 12+(174-168)2
50
30
+ 30+(164-168)2
50
=46.8
故答案为:46.8
4619 (2024·浙江湖州·高二统考期末)湖州地区甲、乙、丙三所学科基地学校的数学强基小组
人数之比为3:2:1,三所学校共有数学强基学生48人,在一次统一考试中,所有学生的成绩
平均分为117,方差为21.5.已知甲、乙两所学校的数学强基小组学生的平均分分别为
118和114,方差分别为15和21,则丙学校的学生成绩的方差是 .
【答案】12
【解析】甲、乙、丙三所学科基地学校的数学强基小组人数之比为3:2:1,三所学校共有数
学强基学生48人,
则甲校的数学强基小组人数24;乙校的数学强基小组人数为16;丙校的数学强基小组人
数8,
把甲校的数学强基小组学生的平均分记为x=118,方差记为s2=15;
x
把乙校的数学强基小组学生的平均分记为y=114,方差记为s2=21;
y
把丙校的数学强基小组学生的平均分记为z,方差记为s2;
z
把所有学生的平均分记为ω=117,方差记为s2=21.5.
根据按比例分配分层随机抽样总样本平均数与各层样本平均数的关系,
24 16 8 24 16 8
可得ω= x+ y+ z,即117= ×118+ ×114+ z,解得z=120,
48 48 48 48 48 48
1
因此,s2= 24s2+(x-ω)2 48 x
+16s2+(y-ω)2 y
+8s2+(z-ω)2 z ,
1
即21.5= 24×15+(118-117)2
48
+16×21+(114-117)2 +8×s2+(120-117)2
z
,
解得s2=12.
z
故答案为:12.
4620 (2024·湖北武汉·高一校联考期末)已知一组数据x ,x ,⋯,x 的平均值为x=5,s2=
1 2 n
32,删去一个数之后,平均值没有改变,方差比原来大4,则这组数据的个数n= .
第 页 共 页
3069 3427【答案】9
【解析】由题意删去一个数之后,平均值没有改变,所以删除的数为5,
1 n
由题意s2= n x i -5
i=1
n
2=32,得 x i -5
i=1
2=32n,
1 n
删除一个数后的方差为: n-1 x i -5
i=1
2-5-5 2 =32+4=36
32n
得 =36,即n=9,
n-1
故答案为:9
【解题方法总结】
分层随机抽样的方差
设样本容量为n,平均数为x,其中两层的个体数量分别为n,n ,两层的平均数分别为
1 2
n
x ,x ,方差分别为s2,s2,则这个样本的方差为s2= 1 s2+x -x
1 2 1 2 n 1 1
2
n
+ 2 s2+x -x
n 2 2
2
第 页 共 页
3070 3427