文档内容
第一篇 热点、难点突破篇
专题21 统计与统计案例(讲)
真题体验 感悟高考
1.(2022·全国·统考高考真题)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随
机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和
讲座后问卷答题的正确率如下图:
则( )
A.讲座前问卷答题的正确率的中位数小于
B.讲座后问卷答题的正确率的平均数大于
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
2.(2022·全国·统考高考真题)甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途
客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数 未准点班次数
A 240 20
B 210 30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?附: ,
0.100 0.050 0.010
2.706 3.841 6.635
3.(2022·全国·统考高考真题)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种
树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位: )和材积量(单位:
),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得 .
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为 .已知树
木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数 .
总结规律 预测考向
(一)规律与预测
1.统计知识在小题中常考查随机抽样、样本的数字特征和统计图表等内容,往往以实际问题为背景.统计图表也
有在解答题中出现的情况.
2.统计案例常以解答题形式出现,主要独立考查回归方程或独立性检验,难度中等.亦有与概率知识交汇命题的
情况,试题难度中等偏上.
(二)本专题考向展示考点突破 典例分析
考向一 抽样方法
【核心知识】
类别 共同点 各自特点 联系 适用范围
简单随 ①抽样过程中每
从总体中逐个抽取 总体个数较少
机抽样 个个体被抽到的
可能性相等;
②每次抽出个体
分层 将总体分成几层,分层 各层抽样时,采用简单 总体由差异明显的几
后 不 再 将 它 放
抽样 进行抽取 随机抽样 部分组成
回,即不放回抽
样
【典例分析】
典例1.(2022秋·福建宁德·高三校考期末)为了贯彻落实中央新疆工作座谈会和全国对口支援新疆工作会议精
神,促进边疆少数民族地区教育事业发展,某省派出了200名教师援疆.现采用分层抽样的方法从中抽取一个
容量为40的样本,调查他们的援疆工作情况,若样本中女教师比男教师少8人,则该省此次援疆女教师人数
为( )
A.16 B.40 C.80 D.120
典例2. 总体由编号为01,02,,29,30的30个个体组成,现从中9抽取一个容量为6的样本,请以随机
数表第1行第3列开始,向右读取,则选出来的第6个个体的编号为( )
70 29 17 12 13 40 33 12 38 26 13 89 51 03
56 62 18 37 35 96 83 50 87 75 97 12 55 93
A.12 B.13 C.03 D.40
【规律方法】
1.不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的.
2. 分层抽样的前提和遵循的两条原则
(1)前提:分层抽样使用的前提是总体可以分层,层与层之间有明显区别,而层内个体间差异较小,每层中所
抽取的个体数可按各层个体数在总体的个体数中所占比例抽取.
(2)遵循的两条原则:①将相似的个体归入一类,即为一层,分层要求每层的各个个体互不交叉,即遵循不重复、不遗漏的原则;
②分层抽样为保证每个个体等可能入样,需遵循在各层中进行简单随机抽样,每层样本数量与每层个体数量的
比等于抽样比.
考向二 频率分布直方图的应用
【核心知识】
1.频率分布直方图
(1)纵轴表示,即小长方形的高=;
(2)小长方形的面积=组距×=频率;
(3)各个小方形的面积总和等于1.
2. 频率分布直方图中的常见结论
(1)众数的估计值为最高矩形的中点对应的横坐标.
(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
(3)中位数的估计值的左边和右边的小矩形的面积和是相等的.
【典例分析】
典例3.(2022·天津·统考高考真题)为研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒
张压数据(单位: )的分组区间为 ,将其按从左到右的顺序分别编号
为第一组,第二组,…,第五组,右图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20
人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )
A.8 B.12 C.16 D.18
典例4.(2023秋·河南三门峡·高三统考期末)某果园新采摘了一批苹果,从中随机抽取50个作为样本,称出
它们的重量(单位:克),将重量按照 进行分组,得到频率分布直方
图如图所示(同一组中的数据以该组区间的中点值为代表).(1)估计这批苹果的重量的平均数;
(2)该果园准备把这批苹果销售给一家超市,据市场行情,有两种销售方案;
方案一:所有苹果混在一起,价格为2.5元/千克;
方案二:将不同重量的苹果分开,重量不小于160克的苹果的价格为3元/千克,重量小于160克的苹果的价格
为2元/千克,但果园需支付每1000个苹果5元的分拣费.
分别估计并比较两种方案下果园销售10000个苹果的收入.
【总结提升】
1.=频率,此关系式的变形为=样本容量,样本容量×频率=频数
2.易错提醒:
频率分布直方图的纵坐标是,而不是频率
考向三 统计图表
【核心知识】
条形图、折线图及扇形图
(1)条形图:建立直角坐标系,用横轴(横轴上的数字)表示样本数据类型,用纵轴上的单位长度表示一定的数量,
根据每个样本(或某个范围内的样本)的数量多少画出长短不同的等宽矩形,然后把这些矩形按照一定的顺序排
列起来,这样一种表达和分析数据的统计图称为条形图.
(2)折线图:建立直角坐标系,用横轴上的数字表示样本值,用纵轴上的单位长度表示一定的数量,根据样本
值和数量的多少描出相应各点,然后把各点用线段顺次连接,得到一条折线,用这种折线表示出样本数据的情
况,这样的一种表示和分析数据的统计图称为折线图.
(3)扇形图:用一个圆表示总体,圆中各扇形分别代表总体中的不同部分,每个扇形的大小反映所表示的那部
分占总体的百分比的大小,这样的一种表示和分析数据的统计图称为扇形图.
【典例分析】
典例5.(2020·海南·高考真题)我国新冠肺炎疫情进入常态化,各地有序推进复工复产,下面是某地连续11天
复工复产指数折线图,下列说法正确的是A.这11天复工指数和复产指数均逐日增加;
B.这11天期间,复产指数增量大于复工指数的增量;
C.第3天至第11天复工复产指数均超过80%;
D.第9天至第11天复产指数增量大于复工指数的增量;
典例6.(2023春·四川广安·高三校考开学考试)2021年11月10日,中国和美国在联合国气候变化格拉斯哥大
会期间发布《中美关于在21世纪20年代强化气候行动的格拉斯哥联合宣言》(以下简称《宣言》).承诺继
续共同努力,并与各方一道,加强《巴黎协定》的实施,双方同意建立“21世纪20年代强化气候行动工作
组”,推动两国气候变化合作和多边进程.为响应《宣言》要求,某地区统计了2020年该地区一次能源消费
结构比例,并规划了2030年一次能源消费结构比例,如图所示:经测算,预估该地区2030年一次能源消费量
将增长为2020年的2.5倍,预计该地区( )
A.2030年煤的消费量相对2020年减少了
B.2030年天然气的消费量比2020年的消费量增长了5倍
C.2030年石油的消费量相对2020年不变
D.2030年水、核、风能的消费量是2020年的7.5倍
【规律方法】
统计图表问题的解决方法
1.首先要准确地识图ꎬ即要明确统计图中纵轴、横轴及折线、区域等所表示的意义,尤其注意数字变化的趋势等.
2.其次要准确地用图,会根据统计图中的数字计算样本的数字特征,会用统计图估计总体.
考向四 用样本的数字特征估计总体的数字特征
【核心知识】
1.中位数、众数、平均数的定义
(1)中位数
将一组数据按大小依次排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
(2)众数
一组数据中出现次数最多的数据叫做这组数据的众数.
(3)平均数
一组数据的算术平均数即为这组数据的平均数,n个数据x,x,…,x的平均数= (x + x +…+ x ).
1 2 n 1 2 n
2.样本的数字特征
如果有n个数据x,x,…,x,那么这n个数的
1 2 n
(1)标准差 .
(2)方差 .
3.平均数、方差的公式推广
(1)若数据x,x,…,x的平均数为,则mx+a,mx+a,mx+a,…,mx+a的平均数是m+a.
1 2 n 1 2 3 n
(2)若数据x,x,…,x的方差为s2,则数据ax+b,ax+b,…,ax+b的方差为a2s2.
1 2 n 1 2 n
4.方差的简化计算公式:s2=[(x+x+…+x)-n 2]或写成s2=(x+x+…+x)-2,即方差等于原数据平方的
平均数减去平均数的平方.
【典例分析】
典例7.【多选题】(2021·全国高考真题)有一组样本数据 , ,…, ,由这组数据得到新样本数据 ,
,…, ,其中 ( 为非零常数,则( )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样数据的样本极差相同
典例8.(2021·全国·统考高考真题)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7
新设备 10.1 10.4 10.1 10.0 10.1 10.3 10.6 10.5 10.4 10.5
旧设备和新设备生产产品的该项指标的样本平均数分别记为 和 ,样本方差分别记为 和 .
(1)求 , , , ;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果 ,则认为新设
备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).
【规律方法】
利用样本的数字特征解决优化决策问题的依据
①平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越
大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
②用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
考向五 回归分析
【核心知识】
两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有
线性相关关系,这条直线叫做回归直线.
(2)回归方程为y=bx+a,其中
n n
x xy y x y nxy
i i i i
b ˆ i1 i1
n n ,
x x2 x2 nx2
i i aˆ yb ˆ x
i1 i1
(4)相关系数:
①样本数据的相关系数
r=,反映样本数据的相关程度,|r|越大,则相关性越强.
②当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存
在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
【典例分析】
典例9.(2023·四川绵阳·绵阳中学校考模拟预测)近期记者调查了热播的电视剧《狂飙》,发现年龄段与爱看
的比例存在较好的线性相关关系,年龄在 , , , , 的爱看比例分别为
, , , , ,现用这5个年龄段的中间值x代表年龄段,如12代表 ,17代表
,根据前四个数据求得x关于爱看比例y的线性回归方程为 ,由此可推测t的值为
( )
A.33 B.35 C.37 D.39
典例10.(2020·全国·统考高考真题)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.
为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽
取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面
积(单位:公顷)和这种野生动物的数量,并计算得 , , ,
, .
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数
乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数
量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r= , ≈1.414.
典例11.(2023秋·河南三门峡·高三统考期末)2021年春节前,受疫情影响,各地鼓励外来务工人员选择就地
过年.某市统计了该市4个地区的外来务工人数与就地过年人数(单位:万),得到如下表格:
A区 B区 C区 D区
外来务工人数x/万 3 4 5 6
就地过年人数y/万 2.5 3 4 4.5
(1)请用相关系数说明y与x之间的关系可用线性回归模型拟合,并求y关于x的线性回归方程 .
(2)假设该市政府对外来务工人员中选择就地过年的每人发放1000元补贴.
①若该市E区有2万名外来务工人员,根据(1)的结论估计该市政府需要给E区就地过年的人员发放的补贴
总金额;
②若A区的外来务工人员中甲、乙选择就地过年的概率分别为p, ,其中 ,该市政府对甲、乙
两人的补贴总金额的期望不超过1400元,求p的取值范围.
参考公式:相关系数 ,回归方程 中斜率和截距的最小二乘估计公式分别为
, .
【规律方法】
一、线性回归分析问题的类型及解题方法
1.求线性回归方程
(1)利用公式,求出回归系数b,a.
(2)待定系数法:利用回归直线过样本点的中心求系数.
2.利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.3.利用回归直线判断正、负相关,决定正相关还是负相关的是系数b.
二、模型拟合效果的判断
(1)残差平方和越小,模型的拟合效果越好.
(2)相关指数R2越大,模型的拟合效果越好.
(3)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
考向六 独立性检验
【核心知识】
(1)2×2列联表
设X,Y为两个变量,它们的取值分别为{x,x}和{y,y},其样本频数列联表(2×2列联表)如下:
1 2 1 2
y y 总计
1 2
x a b a+b
1
x c d c+d
2
总计 a+c b+d a+b+c+d
(2)独立性检验
利用随机变量K2(也可表示为χ2)的观测值 (其中n=a+b+c+d为样本容量)
来判断“两个变量有关系”的方法称为独立性检验.
独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.
【典例分析】
典例12.(2021·全国高考真题(文))甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了
比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:0.050 0.010 0.001
k 3.841 6.635 10.828
典例13.(2023秋·内蒙古阿拉善盟·高三阿拉善盟第一中学校考期末)盲盒里面通常装的是动漫、影视作品的
周边,或者设计师单独设计出来的玩偶.由于盒子上没有标注,购买者只有打开后才会知道自己买到了什么,
因此这种惊喜吸引了众多年轻人,形成了“盲盒经济”.某款盲盒内装有正版海贼王手办,且每个盲盒只装一
个.某销售网点为调查该款盲盒的受欢迎程度,随机抽取了400人进行问卷调查,并全部收回.经统计,有
的人购买了该款盲盒,在这些购买者当中,男生占 ;而在未购买者当中,男生、女生各占 .
(1)完成下面的 列联表,并判断是否有 的把握认为是否购买该款盲盒与性别有关?
女生 男生 总计
购买
未购买
总计
(2)从购买该款盲盒的人中按性别用分层抽样的方法随机抽取6人,再从这6人中随机抽取3人发放优惠券,求
抽到的3人中恰有1位男生的概率.
参考公式: ,其中 .
参考数据:
0.10 0.05 0.025 0.010 0.005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
典例14.(2023秋·江苏·高三统考期末)为深入贯彻党的教䏍方针,全面落实《中共中央国务院关于全面加强
新时代大中小学劳动教育的意见》,某校从2022年起积极推进劳动课程改革,先后开发开设了具有地方特色
的家政、烹饪、手工、园艺、非物质文化遗产等劳动实践类校本课程.为调研学生对新开设劳动课程的满意度并不
断改进劳动教育,该校从2022年1月到10月每两个月从全校3000名学生中随机抽取150名学生进行问卷调查,统计数据如下表:
月份 2 4 6 8 10
满意人数
80 95 100 105 120
(1)由表中看出,可用线性回归模型拟合满意人数 与月份 之间的关系,求 关于 的回归直线方程 ,
并预测12月份该校全体学生中对劳动课程的满意人数;
(2)10月份时,该校为进一步深化劳动教育改革,了解不同性别的学生对劳动课程是否满意,经调研得如下统
计表:
满意 不满意 合计
男生 65 10 75
女生 55 20 75
合计 120 30 150
请根据上表判断是否有 的把握认为该校的学生性别与对劳动课程是否满意有关?参考公式:
.
,其中 .
【规律方法】
1.两个明确
(1)明确两类主体;
(2)明确研究的两个问题.
2.两个关键(1)准确画出2×2列联表;
(2)准确求解K2
3.三个步骤
(1)根据样本数据制成2×2列联表;
(2)根据公式K2=,计算K2的值;
(3)查表比较K2与临界值的大小关系,作统计判断