文档内容
第 01 讲 统计
目录
考点要求 考题统计 考情分析
(1)会用简单随机抽样的方法从总 统计学是“大数据”技术的关
体中抽取样本,了解分层随机抽样. 键,在互联网时代具有强大的
2023年上海卷第14题,4分
(2)理解统计图表的含义. 社会价值和经济价值,在高考
2023年上海卷第9题,5分
(3)会用统计图表对总体进行估 中受重视程度越来越大,未来
2023年I卷第9题,5分
计,会求n个数据的第p百分位数. 在考试中的出题角度会更加与
2022年甲卷(文)第2题,5分
实际生活紧密联系,背景新
(4)能用数字特征估计总体集中趋
颢、形式多样.
势和总体离散程度.知识点一、抽样
1、抽样调查
(1)总体:统计中所考察对象的某一数值指标的全体构成的集合称为总体.
(2)个体:构成总体的每一个元素叫做个体.
(3)样本:从总体中抽取若干个个体进行考察,这若干个个体所构成的集合叫做总体的一个样本,
样本中个体的数目叫做样本容量.
2、简单随机抽样
(1)定义
一般地,设一个总体含有 个个体,从中逐个不放回地抽取 个个体作为样本( ),如果每次
抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,
叫做简单随机样本.
(2)两种常用的简单随机抽样方法①抽签法:一般地,抽签法就是把总体中的 个个体编号,把号码写在号签上,将号签放在一个容器
中,搅拌均匀后,每次从中抽取一个号签,连续抽取 次,就得到一个容量为 的样本.
②随机数法:即利用随机数表、随机数骰子或计算机产生的随机数进行抽样.这里仅介绍随机数表法.
随机数表由数字 , , ,…, 组成,并且每个数字在表中各个位置出现的机会都是一样的.
注意:为了保证所选数字的随机性,需在查看随机数表前就指出开始数字的横、纵位置.
(3)抽签法与随机数法的适用情况
抽签法适用于总体中个体数较少的情况,随机数法适用于总体中个体数较多的情况,但是当总体容量
很大时,需要的样本容量也很大时,利用随机数法抽取样本仍不方便.
(4)简单随机抽样的特征
①有限性:简单随机抽样要求被抽取的样本的总体个数是有限的,便于通过样本对总体进行分析.
②逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作.
③不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算.
④等可能性:简单单随机抽样中各个个体被抽到的机会都相等,从而保证了抽样方法的公平.
只有四个特点都满足的抽样才是简单随机抽样.
3、分层抽样
(1)定义
一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的
个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.
分层抽样适用于已知总体是由差异明显的几部分组成的.
(2)分层抽样问题类型及解题思路
①求某层应抽个体数量:按该层所占总体的比例计算.
②已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算.
③分层抽样的计算应根据抽样比构造方程求解,其中“抽样比==”
注意:分层抽样时,每层抽取的个体可以不一样多,但必须满足抽取 ( )个个体
(其中 是层数, 是抽取的样本容量, 是第 层中个体的个数, 是总体容量).
知识点二、用样本估计总体
1、频率分布直方图
(1)频率、频数、样本容量的计算方法
①×组距=频率.
②=频率,=样本容量,样本容量×频率=频数.
③频率分布直方图中各个小方形的面积总和等于 .
2、频率分布直方图中数字特征的计算
(1)最高的小长方形底边中点的横坐标即是众数.
(2)中位数左边和右边的小长方形的面积和是相等的.设中位数为 ,利用 左(右)侧矩形面积之
和等于 ,即可求出 .
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和,即有 ,其中 为每个小长方形底边的中点, 为每个
小长方形的面积.
3、百分位数
(1)定义
一组数据的第 百分位数是这样一个值,它使得这组数据中至少有 的数据小于或等于这个值,且
至少有 的数据大于或等于这个值.
(2)计算一组 个数据的的第 百分位数的步骤
①按从小到大排列原始数据.
②计算 .
③若 不是整数而大于 的比邻整数 ,则第 百分位数为第 项数据;若 是整数,则第 百分位数
为第 项与第 项数据的平均数.
(3)四分位数
我们之前学过的中位数,相当于是第 百分位数.在实际应用中,除了中位数外,常用的分位数还有
第 百分位数,第 百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分
位数.
4、样本的数字特征
(1)众数、中位数、平均数
①众数:一组数据中出现次数最多的数叫众数,众数反应一组数据的多数水平.
②中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间两个数据的平
均数)叫做这组数据的中位数,中位数反应一组数据的中间水平.
③平均数: 个样本数据 的平均数为 ,反应一组数据的平均水平,公式
变形: .
5、标准差和方差
(1)定义
①标准差:标准差是样本数据到平均数的一种平均距离,一般用 表示.假设样本数据是 ,
表示这组数据的平均数,则标准差 .
②方差:方差就是标准差的平方,即 .显然,在刻画样本数
据的分散程度上,方差与标准差是一样的.在解决实际问题时,多采用标准差.
(2)数据特征
标准差、方差描述了一组数据围绕平均数波动程度的大小.标准差、方差越大,则数据的离散程度越
大;标准差、方差越小,数据的离散程度越小.反之亦可由离散程度的大小推算标准差、方差的大小.(3)平均数、方差的性质
如果数据 的平均数为 ,方差为 ,那么
①一组新数据 的平均数为 ,方差是 .
②一组新数据 的平均数为 ,方差是 .
③一组新数据 的平均数为 ,方差是 .
题型一:随机抽样、分层抽样
例1.(2023·全国·高三专题练习)某工厂为了对产品质量进行严格把关,从500件产品中随机抽出50件
进行检验,对这500件产品进行编号001,002,…,500,从下列随机数表的第二行第三组第一个数字开
始,每次从左往右选取三个数字,则抽到第四件产品的编号为( )
2839 3125 8395 9524 7232 8995
7216 2884 3660 1073 4366 7575
9436 6118 4479 5140 9694 9592
6017 4951 4068 7516 3241 4782
A.447 B.366 C.140 D.118
【答案】A
【解析】从第二行第三组第一个数字开始,每次从左往右选取三个数字,依次可得: 366,010,118,
447,…
故选:A.
例2.(2023·河南·校联考模拟预测)已知某班共有学生46人,该班语文老师为了了解学生每天阅读课外
书籍的时长情况,决定利用随机数表法从全班学生中抽取10人进行调查.将46名学生按01,02,…,46
进行编号.现提供随机数表的第7行至第9行:
84 42 17 53 31 57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76
63 01 63 78 59 16 95 56 57 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 79
33 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 99 66 02 79 54
若从表中第7行第41列开始向右依次读取2个数据,每行结束后,下一行依然向右读数,则得到的第8个
样本编号是( )
A.07 B.12 C.39 D.44
【答案】D
【解析】由题意可知得到的样本编号依次为12,06,01,16,19,10,07,44,39,38,则得到的第8个
样本编号是44.
故选:D.
例3.(2023·全国·高三专题练习)现要完成下列2项抽样调查:
①从10盒酸奶中抽取3盒进行食品卫生检查;
②东方中学共有160名教职工,其中教师120名,行政人员16名,后勤人员24名.为了了解教职工对学校在校务公开方面的意见,拟抽取一个容量为20的样本.
较为合理的抽样方法是( )
A.①抽签法,②分层随机抽样 B.①随机数法,②分层随机抽样
C.①随机数法,②抽签法 D.①抽签法, ②随机数法
【答案】A
【解析】①总体较少,宜用抽签法;②各层间差异明显,宜用分层随机抽样.
故选:A.
变式1.(2023·安徽阜阳·高三安徽省临泉第一中学校考阶段练习)在二战期间,技术先进的德国坦克使德
军占据了战场主动权,了解德军坦克的生产能力对盟军具有非常重要的战略意义,盟军请统计学家参与情
报的收集和分析工作.在缴获的德军坦克上发现每辆坦克都有独一无二的发动机序列号,前6位表示生产
的年月,最后4位是按生产顺序开始的连续编号.统计学家将缴获的德军坦克序列号作为样本,用样本估
计总体的方法推断德军每月生产的坦克数.假设德军某月生产的坦克总数为N,缴获的该月生产的n辆坦
克编号从小到大为 , , , ,缴获的坦克是从所生产的坦克中随机获取的,缴获坦克的编号 ,
, , ,相当于从 中随机抽取的n个整数,这 个数将区间 分成 个小区间(如图).
可以用前 个区间的平均长度 估计所有 个区间的平均长度 ,进而得到 的估计.如果缴获
的坦克编号为:35,67,90,127,185,245,287.则可以估计德军每月生产的坦克数为( )
A.288 B.308 C.328 D.348
【答案】C
【解析】 ,解得 .可以估计德军每月生产的坦克数大约是328.
故选:C.
变式2.(2023·江苏·高三江苏省梁丰高级中学校联考阶段练习)为了庆祝中国共产党第二十次全国代表大
会,学校采用按比例分配的分层随机抽样的方法从高一1002人,高二1002人,高三1503人中抽取126人
观看“中国共产党第二十次全国代表大会”直播,那么高三年级被抽取的人数为( )
A.36 B.42 C.50 D.54
【答案】D
【解析】根据分层抽样的方法,抽样比为 ,
高三年级被抽取的人数为 人.
故选:D.
变式3.(2023·北京·高三强基计划)某校共2017名学生,其中每名学生至少要选A,B两门课中的一门,
也有些学生选了两门课.已知选A的人数占全校人数的百分比在 到 之间,选B的人数占全校人数的百分比在 到 之间.则下列结论中正确的是( )
A.同时选A,B的可能有200人 B.同时选A,B的可能有300人
C.同时选A,B的可能有400人 D.同时选A,B的可能有500人
【答案】BC
【解析】根据题意,同时选A,B的人数在 到 之间,换算成人数为202到403之间,
因此符合题意的选项有B,C.
故选:BC.
变式4.(2023·河南·襄城高中校联考三模)现有300名老年人,500名中年人,400名青年人,从中按比
例用分层随机抽样的方法抽取 人,若抽取的老年人与青年人共21名,则 的值为( )
A.15 B.30 C.32 D.36
【答案】D
【解析】由题可知 ,解得 .
故选:D.
【解题方法总结】
不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的.
题型二:统计图表
例4.(多选题)(2023·河北石家庄·高三校联考期中)恩格尔系数是食品支出总额占个人消费支出总额的
比重,它在一定程度上可以用来反映人民生活水平.恩格尔系数的一般规律:收入越低的家庭,恩格尔系
数就越大;收入越高的家庭,恩格尔系数就越小.国际上一般认为,当恩格尔系数大于0.6时,居民生活
处于贫困状态;在0.5-0.6之间,居民生活水平处于温饱状态;在0.4-0.5之间,居民生活水平达到小康;
在0.3-0.4之间,居民生活水平处于富裕状态;当小于0.3时,居民生活达到富有.下面是某地区2022年两
个统计图,它们分别为城乡居民恩格尔系数统计图和城乡居民家庭人均可支配收入统计图,请你依据统计
图进行分析判断,下列结论错误的是( )A.农村居民自2017年到2021年,居民生活均达到富有
B.近五年城乡居民家庭人均可支配收入差异最大的年份是2020年
C.城乡居民恩格尔系数差异最小的年份是2019年
D.2022年该地区城镇居民和农村居民的生活水平已经全部处于富有状态
【答案】ABD
【解析】对于A项,由图1可知2021年农村居民的恩格尔系数为0.316,居民生活水平处于富裕状态,故
A项错误;
对于B项,根据图2计算出的2017至2021年近五年城乡居民家庭人均可支配收入差分别为37270元,
38344元,39285元,40360元,40915元,
差异最大的年份是2021年,故B项错误;
对于C项,根据图1计算出的2017至2021年近五年城乡居民恩格尔系数差(%)分别为5.6,4.3,3.9,
4.3,5.5,
差异最小的年份是2019年,故C项正确;
对于D项,根据给出的数据不足以判断是否正确,故D项错误.
故选:ABD.
例5.(多选题)(2023·河北唐山·迁西县第一中学校考二模)2022年的夏季,全国多地迎来罕见极端高
温天气.某课外小组通过当地气象部门统计了当地七月份前20天每天的最高气温与最低气温,得到如下图
表,则根据图表,下列判断正确的是( )
A.七月份前20天最低气温的中位数低于25℃
B.七月份前20天中最高气温的极差大于最低气温的极差C.七月份前20天最高气温的平均数高于40℃
D.七月份前10天(1—10日)最高气温的方差大于最低气温的方差
【答案】BD
【解析】七月份前20天中,最低气温低于 ℃的天数不超过9天,故中位数不可能低于 ℃,故 A错误;
最高气温的最大值大于 ℃,最小值低于 ℃,而最低气温的最大值小于 ℃,最小值接近 ℃,
故最高气温的极差大于最低气温的极差,故B正确;
最高气温超过 ℃的天数不超过5天,且最大值不超过 ℃,故平均数不可能高于 ℃,故C错误;
前10天中,最低气温的分布更集中,故最高气温的方差大于最低气温的方差,故D正确.
故选:BD
例6.(多选题)(2023·山西忻州·高三校联考开学考试)航海模型项目在我国已开展四十余年,深受青少
年的喜爱.该项目整合国防、科技、工程、艺术、物理、数学等知识,主要通过让参赛选手制作、遥控各类
船只、舰艇等模型航行,普及船艇知识,探究海洋奥秘,助力培养未来海洋强国的建设者.某学样为了解学
生对航海模型项目的喜爱程度,用比例分配的分层随机抽样法从某校高一、高二、高三年级所有学生中抽
取部分学生做抽样调查.已知该学校高一、高二、高三年级学生人数的比例如图所示,若抽取的样本中高三
年级学生有32人,则下列说法正确的是( )
A.该校高一学生人数是2000
B.样本中高二学生人数是28
C.样本中高三学生人数比高一学生人数多12
D.该校学生总人数是8000
【答案】BC
【解析】由图可知高三年级学生人数占总人数的40%,抽取的样本中高三年级学生有32人,
则抽取的学生总人数为 ,
则样本中高一学生人数为 ,样本中高二学生人数为 ,
从而样本中高三学生人数比高一学生人数多 .
因为从该校所有学生中抽取的学生总人数是80,但抽取的比例不知道,
所以该校高一学生人数和该校学生总人数求不出来,
所以AD错误,BC正确,
故选:BC.
变式5.(多选题)(2023·湖南株洲·高三校考阶段练习)某公司统计了2023年1月至6月的月销售额(单位:万元),并与2022年比较,得到同比增长率数据,绘制了如图所示的统计图,则下列说法正确的
是( )
注:同比增长率=(今年月销售额一去年同期月销售额)÷去年同期月销售额 .
A.2023年1月至6月的月销售额的极差为8
B.2023年1月至6月的月销售额的第60百分位数为8
C.2023年1月至6月的月销售额的中位数为9.5
D.2022年5月的月销售额为10万元
【答案】ACD
【解析】对于A,2023年1月至6月的月销售额的最大值是14,最小值是6,极差为8,故A正确;
对于B,六个数从小到大排列为 ,因为 ,所以2023年1月至6月的月销售额的
第60百分位数为第四个数11,故B错误;
对于C,2023年1月至6月的月销售额的中位数为 9.5,故C正确;
对于D,设2022年5月的月销售额为 万元,则 ,解得 ,故D正确.
故选:ACD.
变式6.(多选题)(2023·广东梅州·统考三模)某公司经营五种产业,为应对市场变化,在五年前进行了
产业结构调整,优化后的产业结构使公司总利润不断增长,今年总利润比五年前增加了一倍,调整前后的
各产业利润与总利润的占比如图所示,则下列结论错误的是( )
A.调整后传媒的利润增量小于杂志
B.调整后房地产的利润有所下降C.调整后试卷的利润增加不到一倍
D.调整后图书的利润增长了一倍以上
【答案】ABC
【解析】设调整前的各产业利润的总和为 ,则调整后的各产业利润的总和为 .
对于选项A,调整前传媒的利润为 ,杂志的利润为 ,
调整后传媒的利润为 ,杂志的利润为 ,
则调整后传媒的利润增量为 ,杂志的利润增量为 ,故选项A不正确;
对于选项B,调整前房地产的利润为 ,调整后房地产的利润为 ,故选项B不正确;
对于选项C,调整前试卷的利润为 ,调整后试卷的利润为 ,且 ,故选项C不正确;
对于选项D,调整前图书的利润为 ,调整后图书的利润为 ,且 ,故选项D正确.
故选:ABC.
变式7.(多选题)(2023·福建福州·福州三中校考模拟预测)某调查机构对我国若干大型科技公司进行调
查统计,得到了从事芯片、软件两个行业从业者的年龄分布的饼形图和“90后”从事这两个行业的岗位分
布雷达图,则下列说法中一定正确的是( )
A.芯片、软件行业从业者中,“90后”占总人数的比例超过
B.芯片、软件行业中从事技术、设计岗位的“90后”人数超过总人数的
C.芯片、软件行业从事技术岗位的人中,“90后”比“80后”多
D.芯片、软件行业中,“90后”从事市场岗位的人数比“80前”的总人数多
【答案】ABD
【解析】A选项,从饼形图可看出芯片、软件行业从业者中,“90后”占总人数的比例为 ,超过 ,
A正确;
B选项,芯片、软件行业中从事技术、设计岗位的“90后”人数比例为 ,超过
总人数的 ,B正确;
C选项,芯片、软件行业从事技术岗位的人中,“90后”人数占比为 ,
芯片、软件行业从业者中“80后”占总人数的 ,但不知道从事技术岗位的比例,故无法确定两者人数
的多少,C错误;D选项,芯片、软件行业中,“90后”从事市场岗位的人数占比为 ,“80前”占总人数
的 ,故D正确.
故选:ABD
变式8.(多选题)(2023·河北·统考模拟预测)某地环保部门公布了该地 两个景区2016年至2022年
各年的全年空气质量优良天数的数据.现根据这组数据绘制了如图所示的散点图,则由该图得出的下列结论
中正确的是( )
A.景区A这7年的空气质量优良天数的中位数为254
B.景区 这7年的空气质量优良天数的第80百分位数为280
C.这7年景区A的空气质量优良天数的标准差比景区 的空气质量优良天数的标准差大
D.这7年景区A的空气质量优良天数的平均数比景区 的空气质量优良天数的平均数大
【答案】AC
【解析】由图可得:景区A这7年的空气质量优良天数排序得:203,217,254,254,293,301,313;
景区B这7年的空气质量优良天数排序得:255,262,262,266,280,283,293;
对于选项A:景区A这7年的空气质量优良天数的中位数为254,故A正确;
对于选项B:因为 ,则第80百分位数为第6个数,为283,故B错误;
对于选项C:由图可知:景区A的空气质量优良天数的数据波动比景区 的空气质量优良天数的数据波动
大,
所以景区A的空气质量优良天数的标准差比景区 的空气质量优良天数的标准差大,故C正确;
对于选项D:景区A的空气质量优良天数的平均值 ,
景区B的空气质量优良天数的平均值 ,
因为 ,即 ,
所以这7年景区A的空气质量优良天数的平均数比景区 的空气质量优良天数的平均数小,故D错误;
故选:AC.
【解题方法总结】统计图表的主要应用
扇形图:直观描述各类数据占总数的比例;
折线图:描述数据随时间的变化趋势;
条形图和直方图:直观描述不同类别或分组数据的频数和频率.
题型三:频率分布直方图
例7.(2023·四川成都·高三成都七中校考阶段练习)某区为了解全区 名高二学生的体能素质情况,
在全区高二学生中随机抽取了 名学生进行体能测试,并将这 名的体能测试成绩整理成如下频率分
布直方图.根据此频率分布直方图,这 名学生平均成绩的估计值为 .
【答案】
【解析】由于频率分布直方图中所有矩形面积之和为 ,
可得 ,解得 ,
由频率分布直方图可知,这 名学生平均成绩的估计值为
分.
故答案为: .
例8.(2023·云南·统考二模)某大学有男生 名.为了解该校男生的身体体重情况,随机抽查了该校
名男生的体重,并将这 名男生的体重(单位: )分成以下六组: 、 、 、
、 、 ,绘制成如下的频率分布直方图:
该校体重(单位: )在区间 上的男生大约有 人.
【答案】
【解析】由频率分布直方图可知,该校体重(单位: )在区间 上的男生的人数为.
故答案为: .
例9.(2023·全国·高三专题练习)2022年12月4日是第九个国家宪法日,主题为“学习宣传贯彻党的二
十大精神,推动全面贯彻实施宪法”,某校由学生会同学制作了宪法学习问卷,收获了有效答卷2000份,
先对其得分情况进行了统计,按照 、 、…、 分成5组,并绘制了如图所示的频率分
布直方图,则图中 .
【答案】0.020
【解析】由频率分布直方图的性质可得 ,
,
故答案为:0.020
变式9.(2023·上海浦东新·高三上海市建平中学校考开学考试)从某小学所有学生中随机抽取100名学生,
将他们的身高(单位:cm)数据绘制成频率分布直方图(如图),其中样本数据分组 , ,
, , ,若要从身高在 , , 三组内的学生中,用分层
抽样的方法抽取12人参加一项活动,则从身高在 内的学生中抽取的人数应为 .
【答案】
【解析】依题意 ,解得 ,
所以 , , 三组的频率分别为 ,
所以从身高在 内的学生中抽取的人数应为 人.
故答案为:变式10.(2023·上海普陀·高三曹杨二中校考阶段练习)某校调查了200名学生每周的自习时间(单位:小
时),制成了如图所示的的频率分布直方图,根据直方图,这200名学生中每周的自习时间不少于22.5小
时的人数为: .
【答案】140
【解析】由频率分布直方图得:这200名学生中每周的自习时间不少于22.5小时的频率为:
,
这200名学生中每周的自习时间不少于22.5小时的人数为: ,
故答案为:140.
变式11.(2023·内蒙古呼伦贝尔·高三海拉尔第一中学校考阶段练习)某蔬菜批发市场销售某种蔬菜.在一
个销售周期内,每售出1吨该蔬菜获利500元,未售出的蔬菜低价处理,每吨亏损100元.统计该蔬菜在过
去的100个销售周期内的市场需求量所得频率分布直方图如下:
(1)求图中a的值并求100个销售周期的平均市场需求量;
(2)若经销商在下一个销售周期购入190吨该蔬菜,设 为销售周期所得利润(单位:元), 为该销售周
期的市场需求量(单位:吨),求 的函数关系式,并估计销售的利润不少于86000元的概率.
【解析】(1)根据频率分布直方图中频率之和为1得: ,
解得 ,
由图知100个销售周期的平均市场需求量为
;
(2)由题意,当 时, ,
当 时, ,所以 , ,
设销售的利润不少于86000元的事件为A,当 时, ,
当 时, ,所以 ,则 ,
所以 .
【解题方法总结】
(1)利用频率分布直方图求频率、频数;
(2)利用频率分布直方图估计总体.
(3)频率分布直方图的纵坐标是 ,而不是频率.
题型四:百分位数
例10.(2023·上海·高三专题练习)以下数据为参加数学竞赛决赛的15人的成绩(单位:分),分数从低
到高依次: ,则这15人成绩的第80百分位数是 .
【答案】90.5
【解析】因为 ,
故这15人成绩的第80百分位数为 ,
故答案为:90.5
例11.(2023·上海浦东新·高三上海市建平中学校考阶段练习)某校为了了解高三年级学生的身体素质状
况,在开学初举行了一场身体素质体能测试,以便对体能不达标的学生进行有针对性的训练,促进他们体
能的提升,现从整个年级测试成绩中抽取100名学生的测试成绩,并把测试成绩分成
六组,绘制成频率分布直方图(如图所示).其中分数在
这一组中的纵坐标为 ,则该次体能测试成绩的 分位数约为 分.
【答案】92
【解析】由频率分布直方图知 ,
由 得: .
因为 ,所以该次体能测试成绩的 分位数落在 内,设其为 ,
则由 ,解得 .
故答案为:92.
例12.(2023·安徽·校联考二模)国庆节前夕,某市举办以“红心颂党恩、喜迎二十大”为主题的青少年
学生演讲比赛,其中10人比赛的成绩从低到高依次为:85,86,88,88,89,90,92,93,94,98(单位:
分),则这10人成绩的第75百分位数是 .
【答案】
【解析】因为 ,根据第 百位数的含义知,应该选取第8个数作为第75百分位数,所以这10
人成绩的第75百分位数是93.
故答案为:93.
变式12.(2023·黑龙江哈尔滨·高一哈尔滨市第四中学校校考期末)已知一组数据:24,30,40,44,
48,52.则这组数据的第30百分位数、第50百分位数的平均数为 .
【答案】36
【解析】因为 ,故这组数据的第30百分位数为30,
因为 ,所以第50百分位数为 ,
所以这组数据的第30百分位数、第50百分位数的平均数为 ,
故答案为:36.
变式13.(2023·全国·高三专题练习)为了养成良好的运动习惯,某人记录了自己一周内每天的运动时长
(单位:分钟),分别为53,57,45,61,79,49,x,若这组数据的第80百分位数与第60百分位数的
差为3,则 ( )
A.58或64 B.59或64 C.58 D.59
【答案】A
【解析】将已知的6个数从小到大排序为45,49,53,57,61,79.
若 ,则这组数据的第80百分位数与第60百分位数分别为61和57,他们的差为4,不符合条件;
若 ,则这组数据的第80百分位数与第60百分位数分别为79和61,它们的差为18,不符合条件;
若 ,则这组数据的第80百分位数与第60百分位数分别为x和61(或61和x),则 ,
解得 或
故选:A
【解题方法总结】
计算一组 个数据的的第 百分位数的步骤
①按从小到大排列原始数据.
②计算 .
③若 不是整数而大于 的比邻整数 ,则第 百分位数为第 项数据;若 是整数,则第 百分位数为第 项与第 项数据的平均数.
题型五:样本的数字特征
例13.(多选题)(2023·广东惠州·高三统考阶段练习)有一组样本数据: ,其平均数为2,由
这组样本数据得到新样本数据: ,那么这两组样本数据一定有相同的( )
A.平均数 B.中位数 C.方差 D.极差
【答案】AD
【解析】对A,由题意得 ,
则新的平均数 ,故A与原本相同;
对B,举例一组数据:1,1,1,1,2.4,2.6,3,4.满足平均数为2,原中位数为 ,
增加一个数据2后中位数变成了 ,故B错误;
对C,举例一组数据为1,2,2,2,2,2,2,3,其方差为 ,
增加一个数据2后根据A中结论知平均数不变,则方差变为 ,故C错误;
对D,根据平均数的概念知 ,当所有数据均相等时,取等;则增加一个数据2,极差不
变,故D正确.
故选:AD.
例14.(多选题)(2023·吉林·高一榆树市实验高级中学校校联考期末)已知数据1: , , , ,
数据2: , , , ,则下列统计量中,数据2不是数据1的两倍的有( )
A.平均数 B.极差 C.中位数 D.标准差
【答案】AC
【解析】设数据1: , , , ,的均值为 ,标准差为s,中位数为 ,极差为
则数据2: , , , ,的均值为 ,故A错误,
数据2: , , , ,的标准差为 ,故B正确;
数据2: , , , ,的中位数为 ,故C错误;
极差为 ,故D正确;
故选:AC.
例15.(2023·贵州黔东南·凯里一中校考模拟预测)“说文明话、办文明事、做文明人,树立城市新风尚!
创建文明城市,你我共同参与!”为宣传创文精神,华强实验中学高一(2)班组织了甲乙两名志愿者,
利用一周的时间在街道对市民进行宣传,将每天宣传的次数绘制成如下频数分布折线图,则以下说法不正确的为( )
A.甲的众数小于乙的众数 B.乙的极差小于甲的极差
C.甲的方差大于乙的方差 D.乙的平均数大于甲的平均数
【答案】D
【解析】由图可知,甲志愿者的宣传次数分别为:4,5,6,3,4,3,3,
乙志愿者的宣传次数分别为:5,4,4,5,4,3,3,
甲的平均数为 ,
乙的平均数为 ,故D错误,
甲的众数为3,乙的众数为4,故甲的众数小于乙的众数,故A正确;
甲的极差为3,乙的极差为2,则乙的极差小于甲的极差,故B正确;
甲的方差为 ,
乙的方差为 ,
故甲的方差大于乙的方差,故C正确.
故选:D.
变式14.(2023·河南·襄城高中校联考三模)某学校对班级管理实行量化打分,每周一总结,若一个班连
续5周的量化打分不低于80分,则为优秀班级.下列能断定该班为优秀班级的是( )
A.某班连续5周量化打分的平均数为83,中位数为81
B.某班连续5周量化打分的平均数为83,方差大于0
C.某班连续5周量化打分的中位数为81,众数为83
D.某班连续5周量化打分的平均数为83,方差为1
【答案】D
【解析】若连续5周的量化打分数据为 ,满足 的条件,但第5周的打分低于80分,故
A,B错误;
若连续5周的量化打分数据为 ,满足C的条件,但第5周的打分低于80分,C错误;根据方差公式 ,
因为方差为 ,所以若存在一周的量化打分低于80分,
则方差一定大于1,故能断定该班为优秀班级,D正确.
故选:D.
变式15.(2023·河南郑州·统考模拟预测)已知一组数据:2,3,4,6,m,则下列说法不正确的是(
)
A.若m=7,则平均数为4.4 B.若m=4,则众数为4
C.若m=6,则中位数为4 D.若m=10,则方差为40
【答案】D
【解析】对于A,若m=7,则平均数为 ,故A正确;
对于B,当m=4时,众数为4,故B正确;
对于C,若m=6,则这组数据从小到大排列为2,3,4,6,6,所以中位数为4,故C正确;
对于D,计算平均数为5,则方差 ,故D错误.
故选:D.
变式16.(2023·贵州铜仁·高二贵州省铜仁第一中学校考开学考试)根据气象学上的标准,连续5天的日
平均气温低于 即为入冬,将连续5天的日平均温度的记录数据(记录数据都是自然数)作为一组样本,
现有4组样本①、②、③、④,依次计算得到结果如下:
①平均数 ;
②平均数 且极差小于或等于3;
③平均数 且标准差 ;
④众数等于5且极差小于或等于4.
则4组样本中一定符合入冬指标的共有( )
A.1组 B.2组 C.3组 D.4组
【答案】B
【解析】①举反例: , , , , ,其平均数 .但不符合入冬指标;
②假设有数据大于或等于10,由极差小于或等于3可知,
则此组数据中的最小值为 ,此时数据的平均数必然大于7,
与 矛盾,故假设错误.则此组数据全部小于10. 符合入冬指标;
③举反例:1,1,1,1,11,平均数 ,且标准差 .但不符合入冬指标;
④在众数等于5且极差小于等于4时,则最大数不超过9.符合入冬指标.
故选:B.
变式17.(2023·天津河东·高一统考期末)数学兴趣小组的四名同学各自抛掷骰子5次,分别记录每次骰
子出现的点数,四名同学的部分统计结果如下:甲同学:中位数为3,方差为2.8; 乙同学:平均数为3.4,方差为1.04;
丙同学:中位数为3,众数为3; 丁同学:平均数为3,中位数为2.
根据统计结果,数据中肯定没有出现点数6的是 同学.
【答案】乙
【解析】对于甲同学,当投掷骰子出现结果为1,2,3,3,6时,满足中位数为3,
平均数为: ,方差为 ,可
以出现点数6;
对于乙同学,若平均数为3.4,且出现点数6,则方差 ,
所以当平均数为3.4,方差为1.04时,一定不会出现点数6;
对于丙同学,当掷骰子出现的结果为1,2,3,3,6时,满足中位数为3,众数为3,可以出现点数6;
对于丁同学,当投掷骰子出现的结果为 时,满足平均数为 ,中位数为 ,可以出现点数 .
综上,根据统计结果,数据中肯定没有出现点数6的是乙同学.
故答案为:乙
变式18.(2023·云南大理·高一校考阶段练习)根据气象学上的标准,连续5天的日平均气温低于10℃即
为入冬.现有甲、乙、丙、丁四地连续5天的日平均温度的记录数据(记录数据都是正整数):
①甲地:5个数据的中位数为7,众数为6;②乙地:5个数据的平均数为8,极差为3;
③丙地:5个数据的平均数为5,中位数为4;④丁地:5个数据的平均数为6,方差小于3.
则肯定进入冬季的地区是( )
A.甲地 B.乙地
C.丙地 D.丁地
【答案】D
【解析】①甲地:5个数据的中位数为7,众数为6;则这5个数据可能为6,6,7,10,11,
即连续5天的日平均气温不是都低于10℃,所以甲地不一定入冬,故A错;
②乙地:5个数据的平均数为8,极差为3;则这5个数据可能为7,7,8,8,10,
即连续5天的日平均气温不是都低于10℃,所以乙地不一定入冬,故B错;
③丙地:5个数据的平均数为5,中位数为4;则这5个数据可能为1,2,4,7,11,
即连续5天的日平均气温不是都低于10℃,所以丙地不一定入冬,故C错;
④丁地:5个数据的平均数为6,方差小于3,如果有数据大于等于10,
则方差必大于等于 ,不满足题意,
因此丁地连续5天的日平均气温都低于10℃,所以丁地一定入冬,故D正确,
故选:D.
变式19.(2023·河北沧州·高二肃宁县第一中学校考阶段练习)气象意义上的春季进入夏季的标志为连续
5天的日平均温度不低于 .现有甲、乙、丙三地连续5天的日平均气温的记录数据(记录数据都是正整数):
①甲地:5个数据是中位数为24,众数为22;
②乙地:5个数据是中位数为27,总体均值为24;
③丙地:5个数据中有一个数据是32,总体均值为26,总体方差为10.8
则肯定进入夏季的地区有
A.①②③ B.①③ C.②③ D.①
【答案】B
【解析】由统计知识①甲地: 个数据的中位数为 ,众数为 可知①符合题意;而②乙地: 个数据的
中位数为 ,总体均值为 中有可能某一天的气温低于 ,故不符合题意,③丙地: 个数据中有一
个数据是 ,总体均值为 ,总体方差为 .若由有某一天的气温低于 则总体方差就大于 ,
故满足题意,选C
考点:统计初步
变式20.(2023·吉林长春·高一长春市第五中学校考期末)下列命题中是真命题的是( )
A.一组数据 , , , , , 的平均数、众数、中位数相同;
B.有 、 、 三种个体按 的比例分层抽样调查,如果抽取的 个体数为 ,则样本容量为 ;
C.若甲组数据的方差为 ,乙组数据为 , , , , ,则这两组数据中较稳定的是甲;
D.一组数 , , , , , , , , , 的 分位数为 .
【答案】A
【解析】对于A:平均数为 ,众数为3,中位数为 ,故A正确;
对于B:设样本容量为 ,则 ,解得 ,故B错误;
对于C:乙组数据平均数为 ,其方差为 ,则这两组
数据中较稳定的是乙,故C错误;
对于D:因为 ,所以这组数据的 分位数为 ,故D错误;
故选:A
【解题方法总结】
(1)平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小.
(2)方差的简化计算公式: 或写成 ,即方
差等于原数据平方的平均数减去平均数的平方.
题型六:总体集中趋势的估计
例16.(2023·湖北孝感·高二孝昌县第一高级中学校联考阶段练习)文明城市是反映城市整体文明水平的
综合性荣誉称号,作为普通市民,既是文明城市的最大受益者,更是文明城市的主要创造者.某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,
将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段: , ,…,
得到如图所示的频率分布直方图.
(1)求频率分布直方图中 的值;
(2)求样本成绩的第75百分位数;
(3)已知落在 的平均成绩是61,方差是7,落在 的平均成绩为70,方差是4,求两组成绩的
总平均数 和总方差 .
【解析】(1)利用每组小矩形的面积之和为1可得,
,
解得
(2)成绩落在 内的频率为 ,
落在 内的频率为 ,
设第75百分位数为 ,
由 ,得 ,
故第75百分位数为84;
(3)由图可知,成绩在 的市民人数为 ,
成绩在 的市民人数为 ,
故 ;
由样本方差计算总体方差公式可得总方差为 .
例17.(2023·河南南阳·高一统考期末) 年入冬以来,为进一步做好疫情防控工作,避免疫情的再度
爆发, 地区规定居民出行或者出席公共场合均需佩戴口罩,现将 地区 个居民一周的口罩使用个
数统计如下表所示,其中每周的口罩使用个数在 以上(含 )的有 人.
口罩使用数量频率
(1)求 的值,根据表中数据,完善上面的频率分布直方图;
(只画图,不要过程)
(2)根据频率分布直方图估计 地区居民一周口罩使用个数的 分位数和中位数;(四舍五入,精确到
)
(3)根据频率分布直方图估计 地区居民一周口罩使用个数的平均数以及方差.(每组数据用每组中点值代
替)
【解析】(1)由每周的口罩使用个数在 以上(含 )的有 人得: ,解得:
,
,
则频率分布直方图如下:
(2) , ,
分位数位于 ,设其为 ,
则 ,解得: ,即估计 分位数为 个;
, ,
中位数位于 ,设其为 ,
则 ,解得: ,即估计中位数为 个.
(3)由频率分布直方图得一周内使用口罩的平均数为: (个),方差为 ,
则所求平均数估计为 个,方差估计为 .
例18.(2023·河北邯郸·高二校考开学考试)某工厂在加大生产量的同时,狠抓质量管理,不定时抽查产
品质量.该企业质检人员从所生产的产品中随机抽取了100个,将其质量指标值分成以下六组:
.得到如下频率分布直方图.
(1)求出直方图中m的值;
(2)利用样本估计总体的思想,估计该企业所生产的口罩的质量指标值的平均数和60%分位数(同一组中的
数据用该组区间中点值作代表,60%分位数精确到0.01).
【解析】(1)由 ,得 .
(2)平均数 ,
设60%分位数为n,则由 ,
可得n在 上,由 ,得 .
故可以估计该企业所生产口罩的质量指标值的平均数为 ,60%分位数为 .
变式21.(2023·福建·高二校联考开学考试)小晟统计了他6月份的手机通话明细清单,发现自己该月共
通话100次,小晟将这100次通话的通话时间(单位:分钟)按照 , , , ,
, 分成6组,画出的频率分布直方图如图所示.
(1)求a的值;
(2)求通话时间在区间 内的通话次数;
(3)试估计小晟这100次通话的平均时间(同一组中的数据用该组区间的中点值作代表).【解析】(1)由 ,
得 .
(2)因为通话时间在区间 内的频率为 ,
所以通话时间在区间 内的通话次数为 .
(3)这100次通话的平均时间的估计值为:
分钟.
变式22.(2023·浙江温州·高二乐清市知临中学校考开学考试)为了迎接新高考,某校举行物理和化学等
选科考试,其中,600名学生化学成绩(满分100分)的频率分布直方图如图所示,其中成绩分组区间是:
第一组 ,第二组 ,第三组 ,第四组 ,第五组 .已知图中第三组频率为
,第一组和第五组的频率相同.
(1)求a,b的值;
(2)估算高分(大于等于80分)人数;
(3)估计这600名学生化学成绩的平均值(同一组中的数据用该组区间的中点值作代表)和中位数.(中位数
精确到0.1)
【解析】(1)第一组 频率 ,第二组 频率 ,
第三组 频率 ,第四组 频率 ,第五组 频率 ,
由概率之和为 ,可得 即 ,
第三组频率为0.45,可得 ,
解得 ,
(2)高分(大于等于80分)频数 ,
则估算高分(大于等于80分)频数为 (人),
(3)估计平均数为 ,
设中位数为 ,
由于 ,故 ,
,解得 ,故中位数为 .变式23.(2023·湖北武汉·高二统考开学考试)某学校为了了解老师对“民法典”知识的认知程度,针对
不同年龄的老师举办了一次“民法典”知识竞答,满分100分(95分及以上为认知程度高),结果认知程
度高的有 人,按年龄分成5组,其中第一组: ,第二组: ,第三组: ,第四组:
,第五组: ,得到如图所示的频率分布直方图,已知第一组有10人.
(1)根据频率分布直方图,估计这 人年龄的第75百分位数;
(2)现从以上各组中用分层随机抽样的方法抽取40人,担任“民法典”知识的宣传使者.
①若有甲(年龄23),乙(年龄43)两人已确定入选宣传使者,现计划从第一组和第五组被抽到的使者中,
再随机抽取2名作为组长,求甲、乙两人恰有一人被选上的概率;
②若第四组宣传使者的年龄的平均数与方差分别为36和1,第五组宣传使者的年龄的平均数与方差分别为
42和2,据此估计这 人中35~45岁所有人的年龄的方差.
【解析】(1)设这 人年龄的第75百分位数为 ,
根据百分位数定义可得 ,
解得 .
(2)①由题意得,第一组应抽取2人,记为 ,甲,第五组抽取4人,记为 , , ,乙.
对应的样本空间为:
,共15个样本点.
设事件 “甲、乙两人恰有一人被选上”,
则 ,共有8个样本点.
所以, .
②设第四组、第五组的宣传使者的年龄的平均数分别为 , ,方差分别为 , ,
则 , , , .
设第四组和第五组所有宣传使者的年龄平均数为 ,方差为 .
则 , ,
因此,第四组和第五组所有宣传使者的年龄方差为 .据此,可估计这 人中年龄在35~45岁的所有人的年龄方差约为 .
【解题方法总结】
频率分布直方图的数字特征
(1)众数:最高矩形的底边中点的横坐标.
(2)中位数:中位数左边和右边的矩形的面积和应该相等.
(3)平均数:平均数在频率分布直方图中等于各组区间的中点值与对应频率之积的和.
题型七:总体离散程度的估计
例19.(2023·高一课时练习)某学校高一 名学生参加数学考试,成绩均在 分到 分之间,学生成
绩的频率分布直方图如下图:
(1)估计这 名学生分数的中位数与平均数;(精确到 )
(2)某老师抽取了 名学生的分数: ,已知这 个分数的平均数 ,标准差 ,若剔
除其中的 和 两个分数,求剩余 个分数的平均数与标准差.
(参考公式: )
【解析】(1) , ,
中位数位于 之间,设中位数为 ,
则 ,解得: ,即中位数为 ;
平均数为 .
(2)剩余 个分数的平均值为 ;
, ,剩余 个分数的标准差为 .
例20.(2023·四川绵阳·绵阳中学校考二模) 年 月 日,神舟十三号载人飞船返回舱成功着陆,航
天员翟志刚、王亚平、叶光富完成在轨驻留半年的太空飞行任务,标志着中国空间站关键技术验证阶段圆
满完成.并将进入建造阶段某地区为了激发人们对天文学的兴趣,开展了天文知识比赛,满分 分(
分及以上为认知程度高),结果认知程度高的有 人,这 人按年龄分成 组,其中第一组: ,第
二组: ,第三组: ,第四组: ,第五组: ,得到如图所示的频率分布直方图,
已知第一组有 人.
(1)根据频率分布直方图,估计这 人的第 百分位数(中位数 第 百分位数);
(2)现从以上各组中用分层随机抽样的方法抽取 人,担任“党章党史”的宣传使者.
①若有甲(年龄 ),乙(年龄 )两人已确定入选宣传使者,现计划从第四组和第五组被抽到的使者中,
再随机抽取 名作为组长,求甲、乙两人至少有一人被选上的概率;
②若第四组宣传使者的年龄的平均数与方差分别为 和 ,第五组宣传使者的年龄的平均数与方差分别为
和 ,据此估计这 人中 岁所有人的年龄的平均数和方差.
【解析】(1)设第 百分位数为 ,
, ,
位于第四组: 内;
方法一:由 得: .
方法二:由 得: .
(2)①由题意得,第四组应抽取 人,记为 , , ,甲;第五组抽取 人,
记为 ,乙,
对应的样本空间为: , , 甲, , 乙, , 甲, , 乙, 甲, , 乙,甲 ,
甲乙, 乙,共 个样本点.
设事件 为“甲、乙两人至少一人被选上”,则有 甲, 乙, 甲, 乙, 甲, 乙,甲 ,甲乙, 乙,共有 个样本点.
;
②设第四组的宣传使者的年龄分别为 ,平均数分别为 ,方差分别为 ,
设第五组的宣传使者的年龄分别为 , ,平均数分别为 ,方差分别为 ,
则 , , , ,
可得 , , , ,
设第四组和第五组所有宣传使者的年龄平均数为 ,方差为 .
则 ,
即第四组和第五组所有宣传使者的年龄平均数为 ,
则
.
即第四组和第五组所有宣传使者的年龄方差为 ;
据此估计这 人中年龄在 岁的所有人的年龄的平均数为 ,方差约为 .
例21.(2023·北京·高三校考阶段练习)某学校为了解学生的体质健康状况,对高一、高二两个年级的学
生进行体质健康测试.现从两个年级学生中各随机抽取20人,将他们的测试数据用茎叶图表示如下:
高一 高二
6 4 3 9 0 5 8
9 6 2 3 8 1 4 5 8
9 8 5 2 1 7 2 3 3 9
9 7 7 6 4 6 4 5 7 8
8 3 0 5 0 2 6
4 0 2
《国家学生体质健康标准》的等级标准如下表.规定:测试数据≥60,体质健康为合格.
等级 优秀 良好 及格 不及格测试数据 [90,100] [80,89] [60,79] [0,59]
(1)从该校高二年级学生中随机抽取一名学生,试估计这名学生体质健康合格的概率;
(2)从两个年级等级为优秀的样本中各随机选取一名学生,求选取的两名学生的测试数据平均数大于95的
概率;
(3)设该校高一学生测试数据的平均数和方差分别为 ,高二学生测试数据的平均数和方差分别为 ,
试比较 与 、 与 的大小.(只需写出结论)
【解析】(1)由茎叶图可知高二学生样本中体质健康合格的人数为 ,
故样本中学生体质健康合格的频率为 ,
故从该校高二年级学生中随机抽取一名学生,估计这名学生体质健康合格的概率为 .
(2)设高一年级样本中测试数据为 的三名学生分别为 ,
高一年级样本中测试数据为 的三名学生分别为 ,
学区的2名学生构成的基本事件共有 ,共
9个,
其中两名学生的测试数据平均数大于95的有 ,共4个,
故选取的两名学生的测试数据平均数大于95的概率为 .
(3)由茎叶图中相应分数段内数据可看出高一学生测试数据的平均数要大于高二学生测试数据的平均数,
高一学生的测试数据比高二学生的测试数据更为集中,因此高一学生测试数据的方差要小于高二学生测试
数据的方差,
故 .
变式24.(2023·广西·高一期末)某中学400名学生参加全市高中数学竞赛,根据男女学生人数比例,使
用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组: , ,
…, ,并整理得到如下频率分布直方图:
(1)由频率直方图求样本中分数的中位数;
(2)已知样本中分数在 的学生有5人,试估计总体中分数小于40的人数;(3)已知样本中男生与女生的比例是 ,男生样本的均值为70,方差为10,女生样本的均值为80,方差
为12,请计算出总体的方差.
【解析】(1)由频率分布直方图,设分数中位数为 ,则有 ,解得 ,
所以分数的中位数为72.5;
(2)由频率分布直方图知,分数在 的频率为 ,
在样本中分数在 的人数为 (人),
在样本中分数在 的人数为95人,所以估计总体中分数在 的人数为 (人),
总体中分数小于40的人数为20人;
(3)总样本的均值为 ,
所以总样本的方差为 .
变式25.(2023·湖北武汉·高一期末)某中学为了贯策教育部对学生的五项管理中的体质管理,对高一年
级学生身高进行调查,在调查中,采用样本量比例分配的分层随机抽样,如果不知道样本数据,只知道抽
取了男34人,其平均数和方差分别为170.5和15,抽取了女生16人,其平均数和方差分别为160.5和
35.
(1)由这些数据计算总样本的平均数;
(2)由这些数据计算出总样本的方差,并对高一年级全体学生的身高方差作出估计.
参考数据:
【解析】(1)把男生样本记为 ,其平均数记为 ,方差记为 ;
把女生样本记为 ,其平均数记为 ,方差记为 ;
把总样本数据的平均数记为 ,方差记为 .
则 ,
故 .
(2)由分层方差公式可得
.
据此估计高一总方差为 .
变式26.(2023·湖北武汉·高一期末)为了监控某种装件的一条生产线的生产过程,检验员每天从该生产
线上随机抽取16个零件,并测量其尺寸(单位: ).其中 元近似为样本平均数, 近似为样本的标
准差,用样本平均数 和标准差 能够反映数据取值的信息.根据长期生产经验,一天内抽检零件中,如
果出现了尺寸在 之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.下面是检验员在一天内抽取的16个零件的尺寸:
9.9 10.1 10.2 10.2 9.9 9.8 10.1 10
10.2 10.3 9.1 10.1 9.9 9.9 10.1 10.2
经计算得
,其中 为抽取的第 个零件的尺寸, .
(1)利用估计值判断是否需对当天的生产过程进行检查?
(2)剔除 之外的数据,用剩下的数据估计样本平均数 和样本标准差 (精确到0.01).
【解析】(1)由 ,得 ,
由样本数据可以看出有一个零件的尺寸9.1在 之外,
因此需对当天的生产过程进行检查.
(2)剔除 之外的数据9.1,
剩下数据的平均数为 ,
因此 的估计值为10.06.
,
剔除 之外的数据9.1,
剩下数据的样本方差为 ,
因此 的估计值为 .
变式27.(2023·广西玉林·高一校联考期末)某学校为了了解高二年级学生数学运算能力,对高二年级的
300名学生进行了一次测试.已知参加此次测试的学生的分数 全部介于45分到95分之间,
该校将所有分数分成5组: ,整理得到如下频率分布直方图(同组数据以这组数
据的中间值作为代表).
(1)求 的值,并估计此次校内测试分数的平均值 ;
(2)学校要求按照分数从高到低选拔前30名的学生进行培训,试估计这30名学生的最低分数;(3)试估计这300名学生的分数 的方差 ,并判断此次得分为52分和94分的两名同学的成
绩是否进入到了 范围内?
(参考公式: ,其中 为各组频数;参考数据: )
【解析】(1) ,所以 ,
所以该次校内考试测试分数的平均数的估计值为:
分.
(2)因为 ,
所以这30名学生的最低分数就是该次校内测试分数的 分位数.
该次校内考试测试分数的 分位数为
这30名学生的最低分数的估计值为90分.
(3)
,
,
得分为52分的同学的成绩没有进入到 内,
得分为94分的同学的成绩进入到了 内.
即:得分为52分的同学的成绩没有进入到 范围,
得分为94分的同学的成绩进入到 范围了.
变式28.(2023·黑龙江牡丹江·高一牡丹江一中校考期末)4月23日是世界读书日,树人中学为了解本校
学生课外阅读情况,按性别进行分层,用分层随机抽样的方法从全校学生中抽出一个容量为100的样本,
其中男生 40名,女生 60名.经调查统计,分别得到40名男生一周课外阅读时间(单位:小时)的频数分
布表和 60名女生一周课外阅读时间(单位: 小时) 的频率分布直方图.(以各组的区间中点值代表该组的
各个值)
男生一周课外阅读时间频数分布表
小时 频数
9
253
3
女生一周课外阅读时间频率分布直方图
(1)从一周课外阅读时间为 的学生中按比例分配抽取6人,再从这6名学生中选出2名同学调查他们阅
读书目.求这两人都是女生的概率;
(2)分别估计男生和女生一周课外阅读时间的平均数 ;
(3)估计总样本的平均数 和方差 .
参考数据和公式: 男生和女生一周课外阅读时间方差的估计值分别为 和 ,
, 和 分别表示男生和女
生一周阅读时间的样本, 其中 .
【解析】(1)一周课外阅读时间为 的学生中男生有3人,女生有 人,
若从中按比例分配抽取6人,则男生有 人,女生有 人,
用 表示男生,用1,2,3,4,5表示女生,
则样本空间为 ,
设事件 “选出两人都是女生”,则 ,
由于抽中 中每一个样本点的可能性相等,所以这是一个古典概型,
所以 .
(2)估计男生一周课外阅读时间平均数 ;
估计女生一周课外阅读时间的平均数 .(3)估计总样本的平均数 ,
∵ ,
∴ ,
,
∴ ,
所以估计总样本的平均数 ,方差 .
【解题方法总结】
总体离散程度的估计
标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)越大,数据的离散程
度越大;标准差(方差)越小,数据的离散程度越小.
题型八:分层方差问题
例22.(2023·高一课时练习)某车间有甲、乙两台机床同时加工直径为 的零件,为检验质量,从
中各抽取6件,测得甲、乙两组数据的均值为 ,两组数据的方差分别为 , ,则估
计该车间这批零件的直径的方差 .
【答案】 /
【解析】依题意,抽取的12件零件直径的平均数 ,
所以该车间这批零件的直径的方差 .
故答案为:
例23.(2023·安徽阜阳·高三安徽省临泉第一中学校考阶段练习)某校高二年级有男生400人和女生600
人,为分析期末物理调研测试成绩,按照男女比例通过分层随机抽样的方法取到一个样本,样本中男生的
平均成绩为80分,方差为10,女生的平均成绩为60分,方差为20,由此可以估计该校高二年级期末物理
调研测试成绩的方差为 .
【答案】
【解析】由 ,不妨设样本由男生2人和女生3人组成.由题设:
, ,解得 , ;
,解得 , ;
所以样本的平均分 ,样本的方差 .
故答案为: .
例24.(2023·湖南郴州·高二统考期末)某校有高一学生1000人,其中男生600人,女生400人,为了获
取学生身高信息,采用男、女按比例分配分层抽样的方法抽取样本50人,并观测样本的指标值(单位:
),计算得男生样本的均值为170,方差为20,女生样本的均值为160,方差为30,据此估计该校高一
年级学生身高的总体方差为 .
【答案】48
【解析】由题意,某校有高一学生1000人,其中男生600人,女生400人,
可得总体的均值为 ,
总体的方差为 .
故答案为:48.
变式29.(2023·湖南常德·常德市一中校考模拟预测)为调查某地区中学生每天睡眠时间,采用样本量比
例分配的分层随机抽样,现抽取初中生800人,其每天睡眠时间均值为9小时,方差为0.5,抽取高中生
1200人,其每天睡眠时间均值为8小时,方差为1,则估计该地区中学生每天睡眠时间的方差为
.
【答案】
【解析】该地区中学生每天睡眠时间的平均数为:
(小时),
该地区中学生每天睡眠时间的方差为:
.
故答案为:
变式30.(2023·新疆伊犁·高一校联考期末)某校教师男女人数之比为5:4,该校所有教师进行1分钟限时
投篮比赛.现记录了每个教师1分钟命中次数,已知男教师命中次数的平均数为17,方差为16,女教师命
中次数的平均数为8,方差为16,那么全体教师1分钟限时投篮次数的方差为 .
【答案】
【解析】设男女人数分别为 ,则男女教师总命中次数分别为 、 ,
所以全体教师平均命中次数为 ,
若男教师命中次数为 ,女教师命中次数为 ,
所以 , ,全体教师1分钟限时投篮次数的方差为 ,则
,
所以 .
故答案为:
变式31.(2023·江苏南京·高一南京市燕子矶中学校考期中)甲、乙两支田径队队员的体重(单位:kg)
信息如下:甲队体重的平均数为60,方差为200,乙队体重的平均数为68,方差为300,又已知甲、乙两
队的队员人数之比为 ,则关于甲、乙两队全部队员的体重的平均数和方差分别为
参考公式:总体分为2层,分层随机抽样,各层抽取的样本量、样本平均数和样本方差分别为:
记总样本的平均数 ,样本方差为 ,
【答案】66;287
【解析】根据题意,甲队体重的平均数为60,方差为200,乙队体重的平均数为68,方差为300,
甲队队员在所有队员中所占权重为 ,乙队队员在所有队员中所占权重为 ,
则甲、乙两队全部队员的体重的平均数 ,
方差 .
故答案为:66,287.
变式32.(2023·安徽芜湖·高一统考期末)在对树人中学高一年级学生身高(单位: )调查中,抽取了
男生20人,其平均数和方差分别为174和12,抽取了女生30人,其平均数和方差分别为164和30,根据
这些数据计算出总样本的方差为 .
【答案】 /
【解析】依题意得,题干中 人身高的平均数为: ,
根据方差公式,总体的方差为:
故答案为:变式33.(2023·浙江湖州·高二统考期末)湖州地区甲、乙、丙三所学科基地学校的数学强基小组人数之
比为 ,三所学校共有数学强基学生48人,在一次统一考试中,所有学生的成绩平均分为117,方差
为21.5.已知甲、乙两所学校的数学强基小组学生的平均分分别为118和114,方差分别为15和21,则丙
学校的学生成绩的方差是 .
【答案】12
【解析】甲、乙、丙三所学科基地学校的数学强基小组人数之比为 ,三所学校共有数学强基学生48
人,
则甲校的数学强基小组人数24;乙校的数学强基小组人数为16;丙校的数学强基小组人数8,
把甲校的数学强基小组学生的平均分记为 ,方差记为 ;
把乙校的数学强基小组学生的平均分记为 ,方差记为 ;
把丙校的数学强基小组学生的平均分记为 ,方差记为 ;
把所有学生的平均分记为 ,方差记为 .
根据按比例分配分层随机抽样总样本平均数与各层样本平均数的关系,
可得 ,即 ,解得 ,
因此, ,
即 ,
解得 .
故答案为:12.
变式34.(2023·湖北武汉·高一校联考期末)已知一组数据 , , , 的平均值为 , ,
删去一个数之后,平均值没有改变,方差比原来大4,则这组数据的个数 .
【答案】9
【解析】由题意删去一个数之后,平均值没有改变,所以删除的数为5,
由题意 ,得 ,
删除一个数后的方差为:
得 ,即 ,
故答案为:9
【解题方法总结】
分层随机抽样的方差
设样本容量为 ,平均数为 ,其中两层的个体数量分别为 ,两层的平均数分别为 , ,方差分别为 ,则这个样本的方差为
1.(2023•上海)如图为 年上海市货物进出口总额的条形统计图,则下列对于进出口贸易额描
述错误的是
A.从2018年开始,2021年的进出口总额增长率最大
B.从2018年开始,进出口总额逐年增大
C.从2018年开始,进口总额逐年增大
D.从2018年开始,2020年的进出口总额增长率最小
【答案】
【解析】显然2021年相对于2020年进出口额增量增加特别明显,故最后一年的增长率最大, 对;
统计图中的每一年条形图的高度逐年增加,故 对;
2020年相对于2019的进口总额是减少的,故 错;
显然进出口总额2021年的增长率最大,而2020年相对于2019年的增量比2019年相对于2018年的增量小,
且计算增长率时前者的分母还大,故2020年的增长率一定最小, 正确.
故选: .
2.(2022•甲卷)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位
社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问
卷答题的正确率如图:则
A.讲座前问卷答题的正确率的中位数小于
B.讲座后问卷答题的正确率的平均数大于
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
【答案】
【解析】对于 ,讲座前问卷答题的正确率从小到大为:
, , , , , , , , , ,
讲座前问卷答题的正确率的中位数为: ,故 错误;
对于 ,讲座后问卷答题的正确率的平均数为:
,故 正确;
对于 ,由图形知讲座前问卷答题的正确率相对分散,讲座后问卷答题的正确率相对集中,
讲座前问卷答题的正确率的标准差大于讲座后正确率的标准差,故 错误;
对于 ,讲座后问卷答题的正确率的极差为: ,
讲座前正确率的极差为: ,
讲座后问卷答题的正确率的极差小于讲座前正确率的极差,故 错误.
故选: .
3.(2022•天津)为研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单
位: 的分组区间为 , , , , , , , , , ,将其按从左到右的顺序
分别编号为第一组,第二组, ,第五组,右图是根据试验数据制成的频率分布直方图.已知第一组与第
二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为A.8 B.12 C.16 D.18
【答案】
【解析】志愿者的总人数为 ,
第3组的人数为 ,
有疗效的人数为 人.
故选: .