文档内容
第 09 讲 统计与统计案例
(13 类核心考点精讲精练)
1. 5年真题考点分布
5年考情
考题示例 考点分析 关联考点
计算几个数的中位数
2024年新Ⅱ卷,第4题,5分 计算几个数的平均数 /
计算几个数据的极差
计算几个数的中位数
计算几个数的平均数
2023年新I卷,第9题,5分 /
计算几个数据的极差、方差
标准差
频率分布直方图的实际应用
2023年新Ⅱ卷,第19题,12分 /
总体百分位数的估计
2023年全国甲卷(理), 独立性检验解决实际问题
超几何分布的均值
第19题,12分 计算几个数的中位数
超几何分布的分布列
计算几个数的平均数
2023年全国乙卷(理),
计算几个数据的极差、方差、 统计新定义
第17题,12分
标准差
2022年新I卷,第20题,12分 独立性检验解决实际问题 计算条件概率
频率分布直方图的实际应用 利用对立事件的概率公式求概率
2022年新Ⅱ卷,第19题,12分
由频率分布直方图估计平均数 计算条件概率
众数、平均数、中位数的比较
2022年全国甲卷(理),
计算几个数据的极差、方差、 /
第2题,5分
标准差
2022年全国乙卷(理), 相关系数的计算
计算几个数的平均数
第19题,12分 根据样本中心点求参数
众数、平均数、中位数的比较
2021年新I卷,第9题,5分 计算几个数据的极差、方差、 /
标准差
2021年新Ⅱ卷,第9题,5分 计算几个数的众数 /计算几个数的中位数
计算几个数的平均数
计算几个数据的极差、方差、
标准差
2021年全国乙卷(理),
独立性检验解决实际问题 /
第17题,10分
由频率分布直方图计算频率、
2021年全国甲卷(理),
频数、样本容量、总体容量 /
第2题,5分
由频率分布直方图估计平均数
计算几个数的平均数
2021年全国甲卷(理),
计算几个数据的极差、方差、 /
第17题,10分
标准差
完善列联表
2020年新I卷,第19题,12分 /
独立性检验
完善列联表
2020年新Ⅱ卷,第19题,12分 /
独立性检验
2020年全国甲卷(理),
由散点图画求近似回归直线 /
第5题,5分
2020年全国乙卷(理),
相关系数的计算 /
第18题,12分
2020年全国丙卷(理),
独立性检验解决实际问题 /
第18题,12分
2020年新Ⅱ卷,第9题,5分 根据折线统计图解决实际问题 /
2. 命题规律及备考策略
【命题规律】本节内容是新高考卷的常考内容,设题不定,难度中等或偏难,分值为5-15分
【备考策略】1.理解、掌握简单随机抽样、分层抽样定义及计算
2.理解、掌握总体样本估计的定义及计算
3.理解、掌握线性回归的定义及计算
4.理解、掌握独立性检验的定义及计算
【命题预测】本节内容是新高考卷的常考内容,一般给在大题中结合前面的的概率及分布列一起考查,需
重点强化复习知识讲解
1.简单随机抽样
(1)定义:一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次
抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,
叫做简单随机样本.
(2)常用方法:抽签法和随机数法.2.分层抽样
(1)在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各
层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
(2)分层抽样的应用范围
当总体是由差异明显的几个部分组成时,往往选用分层抽样.
3.频率分布直方图
(1)纵轴表示,即小长方形的高=;
(2)小长方形的面积=组距×=频率;
(3)各个小方形的面积总和等于1.
频率分布直方图中的常见结论
(1)众数的估计值为最高矩形的中点对应的横坐标.
(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
(3)中位数的估计值的左边和右边的小矩形的面积和是相等的.
4.频率分布表的画法
第一步:求极差,决定组数和组距,组距=;
第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;
第三步:登记频数,计算频率,列出频率分布表.
5.条形图、折线图及扇形图
(1)条形图:建立直角坐标系,用横轴(横轴上的数字)表示样本数据类型,用纵轴上的单位长度表示一定的
数量,根据每个样本(或某个范围内的样本)的数量多少画出长短不同的等宽矩形,然后把这些矩形按照一
定的顺序排列起来,这样一种表达和分析数据的统计图称为条形图.
(2)折线图:建立直角坐标系,用横轴上的数字表示样本值,用纵轴上的单位长度表示一定的数量,根据样
本值和数量的多少描出相应各点,然后把各点用线段顺次连接,得到一条折线,用这种折线表示出样本数
据的情况,这样的一种表示和分析数据的统计图称为折线图.
(3)扇形图:用一个圆表示总体,圆中各扇形分别代表总体中的不同部分,每个扇形的大小反映所表示的那
部分占总体的百分比的大小,这样的一种表示和分析数据的统计图称为扇形图.
6.百分位数、众数、平均数的定义
(1)如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百
分位的百分位数.
一般地,一组数据的第p百分位数是这样一个值,
它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
(2)第25百分位数又称第一四分位数或下四分位数;
第75百分位数又称第三四分位数或上四分位数.(3)众数
一组数据中出现次数最多的数据叫做这组数据的众数.
(4)平均数
一组数据的算术平均数即为这组数据的平均数,n个数据x,x,…,x 的平均数=(x+x+…+x).
1 2 n 1 2 n
7.样本的数字特征之方差
如果有n个数据x,x,…,x,那么这n个数的
1 2 n
(1)标准差s= .
(2)方差s2=[(x-)2+(x-)2+…+(x-)2].
1 2 n
8. 平均数、方差的公式推广
(1)若数据x,x,…,x 的平均数为,则mx+a,mx+a,mx+a,…,mx+a的平均数是m+a.
1 2 n 1 2 3 n
(2)若数据x,x,…,x 的方差为s2,则数据ax+b,ax+b,…,ax+b的方差为a2s2.
1 2 n 1 2 n
9.两个变量的线性相关
(1)正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直
线叫做回归直线.
10.回归方程
(1)最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程
方程y=bx+a是两个具有线性相关关系的变量的一组数据(x,y),(x,y),…,(x,y)的回归方程,其中
1 1 2 2 n n
a,b是待定参数.
11.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x,y),(x,y),…,(x,y),其中(,)称为样本点的中心.
1 1 2 2 n n
(3)相关系数
当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎
不存在线性相关关系.通常|r|大于0.75 时,认为两个变量有很强的线性相关性.
12.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分
别为{x,x}和{y,y},其样本频数列联表(称为2×2列联表)为
1 2 1 2
2×2列联表
y y 总计
1 2
x a b a+b
1
x c d c+d
2
总计 a+c b+d a+b+c+d
构造一个随机变量K2=,其中n= a + b + c + d 为样本容量.
(3)独立性检验
利用随机变量 K 2 来判断“两个分类变量有关系”的方法称为独立性检验.
当χ2≤2.706时,没有充分的证据判定变量A,B有关联;
当χ2>2.706时,有90%的把握判定变量A,B有关联;
当χ>3.841时,有95%的把握判定变量A,B有关联;
当χ>6.635时,有99%的把握判定变量A,B有关联.
考点一、 简单随机抽样
1.(2024·福建泉州·模拟预测)从一个含有 个个体的总体中抽取一容量为 的样本,当选取抽签法、随
机数法和分层随机抽样三种不同方法时,总体中每个个体被抽中的概率分别为 ,三者关系可能是
( )
A. B. C. D.
2.(2024高一下·全国·专题练习)某中学高一年级有400人,高二年级有320人,高三年级有280人,若
用随机数法在该中学抽取容量为n的样本,每人被抽到的可能性都为0.2,则n等于( )
A.80 B.160 C.200 D.280
3.(2024·陕西西安·一模)某高校对中文系新生进行体测,利用随机数表对650名学生进行抽样,先将
650名学生进行编号,001,002,…,649,650.从中抽取50个样本,下图提供随机数表的第4行到第6行,
若从表中第5行第6列开始向右读取数据,则得到的第6个样本编号是( )32 21 18 34 29 78 64 54 07 32 52 42 06 44 38 12 23 43 56 77 35 78 90 56 42
84 42 12 53 31 34 57 86 07 36 25 30 07 32 86 23 45 78 89 07 23 68 96 08 04
32 56 78 08 43 67 89 53 55 77 34 89 94 83 75 22 53 55 78 32 45 77 89 23 45
A.623 B.328 C.072 D.457
1.(2024·四川成都·模拟预测)用简单随机抽样的方法从含有10个个体的总体中抽取一个容量为3的样本,
其中某一个体a“第一次被抽到”的可能性与“第二次被抽到”的可能性分别是( )
A. , B. ,
C. , D. ,
2.(2024·云南贵州·二模)本次月考分答题卡的任务由高三16班完成,现从全班55位学生中利用下面的
随机数表抽取10位同学参加,将这55位学生按01、02、 、55进行编号,假设从随机数表第1行第2个
数字开始由左向右依次选取两个数字,重复的跳过,读到行末则从下一行行首继续,则选出来的第6个号
码所对应的学生编号为( )
0627 4313 2432 5327 0941 2512 6317 6323 2616 8045 6011
1410 9577 7424 6762 4281 1457 2042 5332 3732 2707 3607
0140 0523 2617 3726 3890 5124 5179 3014 2310 2118 2191
A.51 B.25 C.32 D.12
考点二、 分层随机抽样
1.(2024·江西南昌·模拟预测)已知 三种不同型号的产品数量之比依次为 ,现用分层抽样的
方法抽取容量为 的样本,若样本中 型号产品有 件,则 为( )
A.60 B.70 C.80 D.90
2.(2023·全国·高考真题)某学校为了解学生参加体育运动的情况,用比例分配的分层随机抽样方法作抽
样调查,拟从初中部和高中部两层共抽取60名学生,已知该校初中部和高中部分别有400名和200名学生,
则不同的抽样结果共有( ).
A. 种 B. 种
C. 种 D. 种
3.(2024·上海·高考真题)水果分为一级果和二级果,共136箱,其中一级果102箱,二级果34箱.
(1)随机挑选两箱水果,求恰好一级果和二级果各一箱的概率;(2)进行分层抽样,共抽8箱水果,求一级果和二级果各几箱;
(3)抽取若干箱水果,其中一级果共120个,单果质量平均数为303.45克,方差为603.46;二级果48个,
单果质量平均数为240.41克,方差为648.21;求168个水果的方差和平均数,并预估果园中单果的质量.
1.(2024·河南·三模)国内某优秀新能源电池制造企业在锂电池单位能量密度技术上取得了重大突破,该
制造企业内的某车间有两条生产线,分别生产高能量密度锂电池和低能量密度锂电池,总产量为400个锂
电池.质检人员采用分层随机抽样的方法随机抽取了一个容量为80的样本进行质量检测,已知样本中高能
量密度锂电池有35个,则估计低能量密度锂电池的总产量为( ).
A.325个 B.300个 C.225个 D.175个
2.(2024·黑龙江双鸭山·模拟预测)为了解某校初中学生的近视情况,按年级用分层抽样的方法随机抽取
100名学生进行视力检测,已知初一、初二、初三年级分别有800名,600名,600名学生,则不同的抽样
结果共有( )
A. B. C. D.
考点三、 条形统计图
1.(2024·江西·二模)下图是我国 年纯电动汽车销量统计情况,则下列说法错误的是( )
A.我国纯电动汽车销量呈现逐年增长趋势
B.这六年销量的第60百分位数为536.5万辆
C.2020年销量高于这六年销量的平均值
D.这六年增长率最大的为2019年至2020年
2.(2024·全国·模拟预测)如图为某中型综合超市 年的年总营业额(单位:万元)的统计图,
则下列说法错误的是( )A. 年的年总营业额的极差为2200万元
B. 年的年总营业额波动性比 年的年总营业额波动性小
C. 年的年总营业额逐年上升,2021年跌落低谷,之后每年又呈上升趋势
D. 年的年总营业额的中位数是2019年和2020年的年总营业额的平均数
1.(2024·四川达州·二模)下图是某地区2016-2023年旅游收入(单位:亿元)的条形图,则下列说法错误的
是( )
A.该地区2016-2019年旅游收入逐年递增
B.该地区2016-2023年旅游收入的中位数是4.30
C.经历了疫情之后,该地区2023年旅游收入恢复到接近2018年水平
D.该地区2016-2023年旅游收入的极差是3.69
2.(2024·陕西西安·模拟预测)国家统计局发布的2018年至2022年我国居民消费水平情况如图所示,则
下列说法正确的是(居民消费水平 )
( )A.2018年至2022年我国居民消费水平逐年提高
B.2018年至2022年我国城镇居民消费水平逐年提高
C.2018年至2022年我国居民消费水平数据的极差为6463元
D.2022年我国城镇人口数比农村人口数的1.5倍还要多
考点 四 、 折线统计图
1.(2024·辽宁抚顺·三模)(多选) 年 月 日国家统计局发布了制造业采购经理指数( ),如
下图所示:
下列说法正确的是( )
A.从 年 月到 年 月,这 个月的制造业采购经理指数( )的第 百分位数为
B.从 年 月到 年 月,这 个月的制造业采购经理指数( )的极差为
C.从 年 月到 年 月制造业采购经理指数( )呈下降趋势
D. 大于 表示经济处于扩张活跃的状态; 小于 表示经济处于低迷萎缩的状态,则 年
月到 年 月,经济处于扩张活跃的状态
2.(2024·全国·二模)(多选)人均可支配收入和人均消费支出是两个非常重要的经济和民生指标,常被用于衡量一个地区经济发展水平和群众生活水平.下图为2018~2023年前三季度全国城镇居民人均可支
配收入及人均消费支出统计图,据此进行分析,则( )
A.2018~2023年前三季度全国城镇居民人均消费支出逐年递增
B.2018~2023年前三季度全国城镇居民人均可支配收入逐年递增
C.2018~2023年前三季度全国城镇居民人均可支配收入的极差比人均消费支出的极差小
D.2018~2023年前三季度全国城镇居民人均消费支出的中位数为21180元
1.(2024·黑龙江·三模)(多选)在某市初三年级举行的一次体育考试中(满分100分),所有考生成绩均
在[50,100]内,按照[50,60),[60,70),[70,80),[80,90),[90,100]分成五组,甲、乙两班考生的成绩占比如图
所示,则下列说法错误的是( )
A.成绩在[70,80)的考生中,甲班人数多于乙班人数
B.甲班成绩在[80,90)内人数最多
C.乙班成绩在[70,80)内人数最多
D.甲班成绩的极差比乙班成绩的极差小
2.(23-24高三下·山东·开学考试)(多选)进入冬季哈尔滨旅游火爆全网,下图是2024年1月1.日到1
月7日哈尔滨冰雪大世界和中央大街日旅游人数的折线图,则( )A.中央大街日旅游人数的极差是1.2 B.冰雪大世界日旅游人数的中位数是2.3
C.冰雪大世界日旅游人数的平均数比中央大街大 D.冰雪大世界日旅游人数的方差比中央大街大
考点 五 、 扇形统计图
1.(2024·山东菏泽·模拟预测)南丁格尔玫瑰图是由近代护理学和护士教育创始人南丁格尔设计的,图中
每个扇形圆心角都是相等的,半径长短表示数量大小.某机构统计了近几年某国知识付费用户数量(单位:
亿人次),并绘制成南丁格尔玫瑰图(如图所示),根据此图,以下说法错误的是( )
A.2016年至2023年,知识付费用户数量逐年增加
B.2016年至2023年,知识付费用户数量逐年增加量2019年最多
C.2016年至2023年,知识付费用户数量的逐年增加量逐年递增
D.2023年知识付费用户数量超过2016年知识付费用户数量的10倍
2.(2024·湖南邵阳·模拟预测)(多选)有关数据显示,年轻一代的父母更加重视亲子陪伴,以往“以孩
子为中心”的观念正逐步向与孩子玩在一起、学在一起的方向转变.如图为2023年中国父母参与过的各类
亲子活动人数在参与调查总人数中的占比,根据该图,下列说法正确的是( )A.在参与调查的总人数中父母参与过的亲子活动最多的是亲子阅读
B.在参与调查的总人数中同时参与过亲子阅读与亲子运动会的父母不少于
C.图中各类亲子活动占比的中位数为
D.图中10类亲子活动占比的极差为
1.(2024·辽宁·模拟预测)某高中2023年的高考考生人数是2022年高考考生人数的1.5倍.为了更好地对
比该校考生的升学情况,统计了该校2022年和2023年高考分数达线情况,得到如图所示扇形统计图:
下列结论正确的是( )
A.该校2023年与2022年的本科达线人数比为6:5
B.该校2023年与2022年的专科达线人数比为6:7
C.2023年该校本科达线人数比2022年该校本科达线人数增加了80%
D.2023年该校不上线的人数有所减少
2.(2024·辽宁·二模)(多选)下图为某市2023年第一季度全市居民人均消费支出构成图.已知城镇居民人均消费支出7924元,与上一年同比增长4.4%;农村居民人均消费支出4388元,与上一年同比增长
7.8%,则关于2023年第一季度该市居民人均消费支出,下列说法正确的是( )
A.2023年第一季度该市居民人均消费支出6393元
B.居住及食品烟酒两项的人均消费支出总和超过了总人均消费支出的50%
C.城乡居民人均消费支出的差额与上一年同比在缩小
D.医疗保健与教育文化娱乐两项人均消费支出总和约占总人均消费支出的20.6%
考点 六 、 频率分布表
1.现有一个容量为50的样本,其数据的频数分布表如下表所示:
组
1 2 3 4 5
号
频
8 11 10 9
数
则第4组的频数和频率分别是( )
A.12,0.06 B.12,0.24 C.18,0.09 D.18,0.36
1.某单位招聘员工,有 名应聘者参加笔试,随机抽查了其中 名应聘者笔试试卷,统计他们的成绩
如下表:
分数
段
人数 1 3 6 6 2 1 1
若按笔试成绩择优录取 名参加面试,由此可预测参加面试的分数线为
A. 分 B. 分 C. 分 D. 分考点 七 、 频率分布直方图
1.(2022·天津·高考真题)将1916到2015年的全球年平均气温(单位: ),共100个数据,分成6组:
,并整理得到如下的频率分
布直方图,则全球年平均气温在区间 内的有( )
A.22年 B.23年 C.25年 D.35年
2.(2021·天津·高考真题)从某网络平台推荐的影视作品中抽取 部,统计其评分数据,将所得 个
评分数据分为 组: 、 、 、 ,并整理得到如下的频率分布直方图,则评分在区间
内的影视作品数量是( )
A. B. C. D.
3.(2021·全国·高考真题)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭
年收入的调查数据整理得到如下频率分布直方图:根据此频率分布直方图,下面结论中不正确的是( )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
4.(2022·全国·高考真题)在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如
下的样本数据的频率分布直方图:
(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);
(2)估计该地区一位这种疾病患者的年龄位于区间 的概率;
(3)已知该地区这种疾病的患病率为 ,该地区年龄位于区间 的人口占该地区总人口的 .从该
地区中任选一人,若此人的年龄位于区间 ,求此人患这种疾病的概率.(以样本数据中患者的年龄
位于各区间的频率作为患者的年龄位于该区间的概率,精确到0.0001).
1.(2024·湖北黄冈·模拟预测)为了解高中学生每天的体育活动时间,某市教育部门随机抽取 高中学
生进行调查,把每天进行体育活动的时间按照时长(单位:分钟)分成 组: ,[40,50),[50,60),[60,70),
, .然后对统计数据整理得到如图所示的频率分布直方图,则可估计这 名学生每天体育活动时间的第 百分位数为( )
A. B. C. D.
2.(2024·广西桂林·模拟预测)(多选)某次数学考试后,为分析学生的学习情况,某校从某年级中随机
抽取了100名学生的成绩,整理得到如图所示的频率分布直方图.为进一步分析高分学生的成绩分布情况,
计算得到这100名学生中,成绩位于[80,90)内的学生成绩方差为12,成绩位于 内的同学成绩方差
为10.则( )
A.
B.估计该年级学生成绩的中位数约为77.14
C.估计该年级成绩在80分及以上的学生成绩的平均数为87.50
D.估计该年级成绩在80分及以上的学生成绩的方差为32
3.(2024·福建泉州·模拟预测)(多选)某校在开展“弘扬中华传统文化,深植文化自信之根”主题教育
的系列活动中,举办了“诵读国学经典,传承中华文明”知识竞赛.赛前为了解学生的备赛情况,组织对
高一年和高二年学生的抽样测试,测试成绩数据处理后,得到如下频率分布直方图,则下面说法正确的是
( )A.高一年抽测成绩的众数为75
B.高二年抽测成绩低于60分的比率为
C.估计高一年学生成绩的平均分低于高二年学生成绩的平均分
D.估计高一年学生成绩的中位数低于高二年学生成绩的中位数
4.(2024·江苏南京·二模)(多选)2023年10月31日,神舟十六号载人飞船返回舱在东风着陆场成功着
陆,激发了学生对航天的热爱.某校组织高中学生参加航天知识竞赛,现从中随机抽取100名学生成绩分为
四组,分别为 ,得到频率分布直方图如图所示,则( )
A.
B.这组样本数据的 分位数为88
C.若从这100名学生成绩不低于80分的学生中,随机抽取3人,则此3人的分数都不低于90分的概
率为
D.若用样本的频率估计总体,从该校高中学生中随机抽199人,记“抽取199人中成绩不低于90的人
数为 ”的事件为 ,则 最大时, .
考点 八 、 总体百分位数的估计1.(2024·江西·一模)从1984年第23届洛杉矶夏季奥运会到2024年第33届巴黎夏季奥运会,我国获得
的夏季奥运会金牌数依次为15、5、16、16、28、32、51、38、26、38、40,这11个数据的 分位数是
( )
A.16 B.30 C.32 D.51
2.(2024·安徽·模拟预测)一组数据按从小到大的顺序排列为2,4,m,12,16,17,若该组数据的中位
数是极差的 ,则该组数据的第40百分位数是 .
3.(2024·广东广州·模拟预测)(多选)已知 , , , , , 为依次增大的一组数据,则去掉
和 后,这组数据的( )一定减小.
A.极差 B.下四分位数 C.上四分位数 D.中位数
1.(2024·安徽六安·模拟预测)样本数据16,20,24,21,22,18,14,28的 分位数为( )
A.16 B.17 C.23 D.24
2.(2024·河南周口·模拟预测)已知一组从小到大排列的数据:a,2,2,4,4,5,6,b,8,8,若其第
70百分位数等于其极差,则 .
考点 九 、 总体集中趋势的估计
1.(2023·全国·高考真题)(多选)有一组样本数据 ,其中 是最小值, 是最大值,则
( )
A. 的平均数等于 的平均数
B. 的中位数等于 的中位数
C. 的标准差不小于 的标准差
D. 的极差不大于 的极差
2.(2024·黑龙江哈尔滨·三模)如图所示,下列频率分布直方图显示了三种不同的形态.图(1)形成对称
形态,图(2)形成“右拖尾”形态,图(3)形成“左拖尾”形态,根据所给图作出以下判断,正确的是
( )A.图(1)的平均数=中位数>众数 B.图(2)的众数<中位数<平均数
C.图(2)的平均数<众数<中位数 D.图(3)的中位数<平均数<众数
3.(2024·重庆九龙坡·三模)(多选)已知样本数据 的平均数为2,方差为1,则下列说法正确的
是( )
A.数据 , 的平均数为6
B.数据 , 的方差为9
C.数据 的方差为1
D.数据 的平均数为5
1.(23-24高三下·北京·开学考试)设一组数据 ,则数据 的平均值为 ,
30%分位数为 .
2.(2024·广东广州·模拟预测)已知数据 ,且满足 ,若去掉 , 后组成
一组新数据,则新数据与原数据相比,有可能变大的是( )
A.平均数 B.中位数 C.极差 D.方差
3.(2024·浙江·三模)(多选)已知a, ,有一组样本数据为 ,3, , ,8,10,
,12,13,若在这组数据中再插入一个数8,则( )
A.平均数不变 B.中位数不变 C.方差不变 D.极差不变
考点 十 、 总体离散程度的估计
1.(2024·陕西商洛·模拟预测)设一组样本数据 的平均值是1,且 的平均值是3,
则数据 的方差是( )
A.1 B.2 C.3 D.4
2.(2024·黑龙江哈尔滨·模拟预测)已知有4个数据的平均值为5,方差为4,现加入数据6和10,则这6
个数据的新方差为( )A. B. C.6 D.10
3.(2021·全国·高考真题)(多选)下列统计量中,能度量样本 的离散程度的是( )
A.样本 的标准差 B.样本 的中位数
C.样本 的极差 D.样本 的平均数
4.(2021·全国·高考真题)(多选)有一组样本数据 , ,…, ,由这组数据得到新样本数据 ,
,…, ,其中 ( 为非零常数,则( )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
5.(2023·全国·高考真题)某厂为比较甲乙两种工艺对橡胶产品伸缩率的处理效应,进行10次配对试验,
每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测
量处理后的橡胶产品的伸缩率.甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为 , .
试验结果如下:
试验序号
1 2 3 4 5 6 7 8 9 10
伸缩率 545 533 551 522 575 544 541 568 596 548
伸缩率 536 527 543 530 560 533 522 550 576 536
记 ,记 的样本平均数为 ,样本方差为 .
(1)求 , ;
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高(如果
,则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高,否
则不认为有显著提高)
6.(2021·全国·高考真题)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无
提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7
新设备 10.1 10.4 10.1 10.0 10.1 10.3 10.6 10.5 10.4 10.5
旧设备和新设备生产产品的该项指标的样本平均数分别记为 和 ,样本方差分别记为 和 .
(1)求 , , , ;(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果 ,则认为新
设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).
1.(2024·新疆·二模)若数据 的平均数为 ,方差为 ,则数据 的方差为( )
A. B. C. D.
2.(2024·江苏泰州·模拟预测)(多选)已知 ,有一组数据为 ,3, , ,8,10,
,12,13,若在这组数据中去除第5个数8,则( )
A.平均数不变 B.中位数不变 C.方差不变 D.极差不变
3.(2024·云南·模拟预测)某学校高三年级男生共有 个,女生共有 个,为调查该年级学生的年龄情
况,通过分层抽样,得到男生和女生样本数据的平均数和方差分别为 和 ,已知 ,则该校
高三年级全体学生年龄的方差为( )
A. B.
C. D.
14.(2024·辽宁·模拟预测)某工厂为了提高精度,采购了一批新型机器,现对这批机器的生产效能进行
测试,对其生产的第一批零件的内径进行测量,统计绘制了如下图所示的频率分布直方图.
(1)求a的值以及这批零件内径的平均值 和方差 (同一组中的数据用该组区间的中点值作代表);
(2)以频率估计概率,若在这批零件中随机抽取4个,记内径在区间 内的零件个数为 ,求 的
分布列以及数学期望;
(3)已知这批零件的内径 (单位:mm)服从正态分布 ,现以频率分布直方图中的平均数 作为
的估计值,频率分布直方图中的标准差 作为 的估计值,则在这批零件中随机抽取200个,记内径在
区间 上的零件个数为 ,求 的方差.参考数据: ,若 ,则 ,
, .
5.(2024·湖北武汉·模拟预测)四月的武汉被百万株蔷薇花覆盖,形成了全城的花海景观。蔷薇花一般扦
插繁殖,园林局为了更好的了解扦插枝条的长度对繁殖状况的影响,选择甲乙两区按比例分层抽样来抽取
样本.已知甲区的样本容量 ,样本平均数 ,样本方差 ;乙区的样本容量 ,样本
平均数 ,样本方差 .
(1)求由两区样本组成的总样本的平均数 及其方差 ;(结果保留一位小数)
(2)为了营造“花在风中笑,人在画中游”的美景,甲乙两区决定在各自最大的蔷薇花海公园进行一次书画
比赛,两区各派一支代表队参加,经抽签确定第一场在甲区举行.比赛规则如下:每场比赛分出胜负,没
有平局,胜方得1分,负方得0分,下一场在负方举行,先得2分的代表队获胜,比赛结束.当比赛在甲
区举行时,甲区代表队获胜的概率为 ,当比赛在乙区举行时,甲区代表队获胜的概率为 .假设每场比
赛结果相互独立.甲区代表队的最终得分记为X,求X的分布列及 的值.
参考数据: .
考点 十一 、 成对数据的统计相关性
1.(2024·上海·高考真题)已知气候温度和海水表层温度相关,且相关系数为正数,对此描述正确的是(
)
A.气候温度高,海水表层温度就高
B.气候温度高,海水表层温度就低
C.随着气候温度由低到高,海水表层温度呈上升趋势
D.随着气候温度由低到高,海水表层温度呈下降趋势
2.(2023·天津·高考真题)鸢是鹰科的一种鸟,《诗经·大雅·旱麓》曰:“鸢飞戾天,鱼跃余渊”. 鸢尾花
因花瓣形如鸢尾而得名,寓意鹏程万里、前途无量.通过随机抽样,收集了若干朵某品种鸢尾花的花萼长度
和花瓣长度(单位:cm),绘制散点图如图所示,计算得样本相关系数为 ,利用最小二乘法求
得相应的经验回归方程为 ,根据以上信息,如下判断正确的为( )A.花瓣长度和花萼长度不存在相关关系
B.花瓣长度和花萼长度负相关
C.花萼长度为7cm的该品种鸢尾花的花瓣长度的平均值为
D.若从样本中抽取一部分,则这部分的相关系数一定是
3.(2022·全国·高考真题)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树
木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位: )和材积量(单位:
),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得 .
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为 .已
知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数 .
4.(2020·全国·高考真题)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查
该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取
20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面
积(单位:公顷)和这种野生动物的数量,并计算得 , , ,
, .(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平
均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动
物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r= , ≈1.414.
1.(23-24高三下·云南昆明·阶段练习)两个变量y与x的回归模型中,分别选择了4个不同模型,它们的
决定系数 如下,其中拟合效果最好的模型是( )
A.模型1(决定系数 为0.97) B.模型2(决定系数 为0.85)
C.模型3(决定系数 为0.40) D.模型4(决定系数 为0.25)
2.(2024·贵州贵阳·模拟预测)(多选)某厂近几年陆续购买了几台 A 型机床,该型机床已投入生产的
时间x(单位:年)与当年所需要支出的维修费用y(单位:万元)有如下统计资料:
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7
根据表中的数据可得到经验回归方程为. ,则( )
A.y与x的样本相关系数
B.
C.表中维修费用的第60百分位数为6
D.该型机床已投入生产的时间为 10年时,当年所需要支出的维修费用一定是12.38万元
3.(2024·江苏宿迁·三模)(多选)为了研究y关于x的线性相关关系,收集了5对样本数据(见表格),
若已求得一元线性回归方程为 ,则下列选项中正确的是( )
1 2 3 4 5
1
A.
B.当 时的残差为
C.样本数据y的40百分位数为1
D.去掉样本点 后,y与x的相关系数不会改变4.(2024·河南新乡·模拟预测)氮氧化物是一种常见的大气污染物,下图为我国2015年至2023年氮氧化
物排放量(单位:万吨)的折线图,其中年份代码1~9分别对应年份2015~2023.
已知 , , , .
(1)可否用线性回归模型拟合 与 的关系?请分别根据折线图和相关系数加以说明.
(2)若根据所给数据建立回归模型 ,可否用此模型来预测2024年和2034年我国的氮氧化物
排放量?请说明理由.
附:相关系数 .
考点 十二 、 一元线性回归模型及其应用
1.(2024·上海·三模)设一组成对数据的相关系数为r,线性回归方程为 ,则下列说法正确的为
( ).
A. 越大,则r越大 B. 越大,则r越小
C.若r大于零,则 一定大于零 D.若r大于零,则 一定小于零
2.(2024·天津·二模)有人通过调查统计发现,儿子成年时的身高与父亲的身高呈线性相关,且儿子成年
时的身高 (单位: )与父亲的身高 (单位: )的经验回归方程为 ,根据以上
信息,下列判断正确的为( ).
A.儿子成年时的身高与父亲的身高的样本相关系数
B.父亲的身高为 ,儿子成年时的身高一定在 到 之间
C.父亲的身高每增加 ,儿子成年时的身高平均增加
D.儿子在成年时的身高一般会比父亲高
3.(2024·山东枣庄·模拟预测)(多选)已知两个变量y与x对应关系如下表:x 1 2 3 4 5
y 5 m 8 9 10.5
若y与x满足一元线性回归模型,且经验回归方程为 ,则( )
A.y与x正相关 B.
C.样本数据y的第60百分位数为8 D.各组数据的残差和为0
4.(2024·陕西西安·二模)近年来我国新能源汽车行业蓬勃发展,新能源汽车不仅对环境保护具有重大的
意义,而且还能够减少对不可再生资源的开发,是全球汽车发展的重要方向.“保护环境,人人有责”,
在政府和有关企业的努力下,某地区近几年新能源汽车的购买情况如下表所示:
年份x 2019 2020 2021 2022 2023
新能源汽车购买数量>(万辆) 0.40 0.70 1.10 1.50 1.80
(1)计算 与 的相关系数 (保留三位小数);
(2)求 关于 的线性回归方程,并预测该地区2025年新能源汽车购买数量.
参考公式 , , .
参考数值: , .
5.(2024·河北沧州·模拟预测)“南澳牡蛎”是我国地理标志产品,产量高、肉质肥、营养好,素有“海
洋牛奶精品”的美誉.2024年该基地考虑增加人工投入,现有以往的人工投入增量x(人)与年收益增量y
(万元)的数据如下:
人工投入增量x(人) 2 3 4 6 8 10 13
年收益增量y(万元) 13 22 31 42 50 56 58
该基地为了预测人工投入增量为16人时的年收益增量,建立了y与x的两个回归模型:
模型①:由最小二乘公式可求得y与x的线性回归方程: ;
模型②:由散点图的样本点分布,可以认为样本点集中在曲线: 的附近,对人工投入增量x做
变换,令 ,则 ,且有 , , , .(1)(i)根据所给的统计量,求模型②中y关于x的回归方程(精确到0.1);
(ii)根据下列表格中的数据,比较两种模型的决定系数 ,并选择拟合精度更高、更可靠的模型,预测
人工投入增量为16人时的年收益增量.
回归模型 模型① 模型②
回归方程
182.4 79.2
(2)根据养殖规模与以往的养殖经验,产自某南澳牡蛎养殖基地的单个“南澳牡蛎”质量(克)在正常环境
下服从正态分布 .购买10只该基地的“南澳牡蛎”,会买到质量小于20g的牡蛎的可能性有多大?
附:若随机变量 ,则 , ;
样本 的最小二乘估计公式为: , , .
1.(2024·上海徐汇·二模)为了研究y关于x的线性相关关系,收集了5组样本数据(见下表):
x 1 2 3 4 5
y 0.5 0.9 1 1.1 1.5
若已求得一元线性回归方程为 ,则下列选项中正确的是( )
A.
B.当 时,y的预测值为2.2
C.样本数据y的第40百分位数为1
D.去掉样本点 后,x与y的样本相关系数r不会改变
2.(2024·河北·一模)某校为了解本校高一男生身高和体重的相关关系,在该校高一年级随机抽取了7名男生,测量了他们的身高和体重得下表:
身高 (单位:
167 173 175 177 178 180 181
体重 (单位: 90 54 59 64 67 72 76
由表格制作成如图所示的散点图:
由最小二乘法计算得到经验回归直线 的方程为 ,其相关系数为 ;经过残差分析,点
对应残差过大,把它去掉后,再用剩下的6组数据计算得到经验回归直线 的方程为 ,相关系数
为 .则下列选项正确的是( )
A.
B.
C.
D.
3.(2024·甘肃陇南·一模)(多选)某厂近几年陆续购买了几台 A 型机床,该型机床已投入生产的时间
x(单位:年)与当年所需要支出的维修费用y(单位:万元)有如下统计资料:
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7
根据表中的数据可得到经验回归方程为. 则( )
A.
B.y与x的样本相关系数
C.表中维修费用的第60百分位数为6
D.该型机床已投入生产的时间为 10年时,当年所需要支出的维修费用一定是12.38万元
4.(2024·全国·模拟预测)脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设
备的信息交换.近日埃隆.马斯克宣布,脑机接口公司Neuralink正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,
同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量 (单
位:亿元)与研发人员增量 (人)的10组数据.现用模型① ,② 分别进行拟合,由
此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中 .
7.5 2.25 82.50 4.50 12.14 2.88
(1)根据残差图,判断应选择哪个模型;(无需说明理由)
(2)根据(1)中所选模型,求出 关于 的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,
研发人员增量至少多少人?(精确到1)
附:对于一组具有线性相关关系的数据 ,其经验回归直线 的斜率和截
距的最小二乘估计分别为
5.(2024·江西九江·三模)车胎凹槽深度是影响汽车刹车的因素,汽车行驶会导致轮胎胎面磨损.某实验室
通过实验测得轿车行驶里程与某品牌轮胎凹槽深度的数据,如下表所示:
行驶里程 万 0.0 0.4 1.0 1.6 2.4 2.8 3.4 4.4
轮胎凹槽深度 8.0 7.8 7.2 6.2 5.6 4.8 4.4 4.0
(1)求该品牌轮胎凹槽深度 与行驶里程 的相关系数 ,并判断二者之间是否具有很强的线性相关性;
(结果保留两位有效数字)
(2)根据我国国家标准规定:轿车轮胎凹槽安全深度为 (当凹槽深度低于 时刹车距离增大,驾
驶风险增加,必须更换新轮胎).某人在保养汽车时将小轿车的轮胎全部更换成了该品牌的新轮胎,请问在
正常行驶情况下,更换新轮胎后继续行驶约多少公里需对轮胎再次更换?附:变量 与 的样本相关系数 ;对于一组数据 ,
,其线性回归方程 的斜率和截距的最小二乘估计分别为:
.
考点 十三 、 列联表与独立性检验
1.(2024·江苏盐城·模拟预测)根据分类变量Ⅰ与Ⅱ的统计数据,计算得到 ,则( )
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
A.变量Ⅰ与Ⅱ相关
B.变量Ⅰ与Ⅱ相关,这个结论犯错误的概率不超过0.1
C.变量Ⅰ与Ⅱ不相关
D.变量Ⅰ与Ⅱ不相关,这个结论犯错误的概率不超过0.1
2.(2024·广东江门·模拟预测)(多选)某中学为更好的开展素质教育,现对外出研学课程是否和性别有
关做了一项调查,其中被调查的男生和女生人数相同,且男生中选修外出研学课程的人数占男生总人数的
,女生中选修外出研学课程的人数占女生总人数的 .若依据 的独立性检验,可以认为“选修
外出研学课程与性别有关”.则调查人数中男生可能有( )
男生 女生 合计
选修外出研学课程
未选修外出研学课程
合计
附:,其中
A.150人 B.225人 C.300人 D.375人
3.(2024·湖南益阳·一模)某公园为了提升公园形象,提高游客旅游的体验感,他们更新了部分设施,调
整了部分旅游线路.为了解游客对新措施是否满意,随机抽取了100名游客进行调查,男游客与女游客的人
数之比为2:3,其中男游客有35名满意,女游客有15名不满意.
不满
满意 总计
意
男游
35
客
女游
15
客
合计 100
(1)完成 列联表,依据表中数据,以及小概率值 的独立性检验,能否认为游客对公园新措施满
意与否与性别有关?
(2)从被调查的游客中按男、女分层抽样抽取5名游客.再随机从这5名游客中抽取3名游客征求他们对公园
进一步提高服务质量的建议,其中抽取男游客的人数为 .求出 的分布列及数学期望.
参考公式: ,其中 .
参考数据:
0.10 0.05 0.010 0.005
2.706 3.841 6.635 7.879
1.(2024·四川成都·三模)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非
优秀统计成绩,得到如下所示的列联表:
优
非优秀
秀
甲班 10
乙班 30
附: ( ),0.05 0.025 0.010 0.005
3.841 5.024 6.635 7.879
已知在全部105人中随机抽取1人,成绩优秀的概率为 ,则下列说法正确的是( )
A.甲班人数少于乙班人数
B.甲班的优秀率高于乙班的优秀率
C.表中 的值为15, 的值为50
D.根据表中的数据,若按 的可靠性要求,能认为“成绩与班级有关系”
2.(2024·福建南平·模拟预测)(多选)2023年10月全国多地医院出现较多的支原体肺炎感染患者,患
者多以儿童为主.某研究所在某小学随机抽取了46名儿童,得到他们是否接种流感疫苗和是否感染支原体
肺炎的情况的相关数据,如下表所示,则( )
感染情况接种情
感染支原体肺炎 未感染支原体肺炎 合计
况
接种流感疫苗
未接种流感疫苗
合计 46
附: .
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
A.
B.
C.认为是否接种流感疫苗与是否感染支原体肺炎有关联,此推断犯错的概率不大于0.1
D.没有充分的证据推断是否接种流感疫苗与是否感染支原体肺炎有关联
3.(2024·广东佛山·模拟预测)某区中考体育科目有必选项目和选考项目,其中篮球为一个选考项目.该
区体育老师为了了解初中学生的性别和喜欢篮球是否有关,随机调查了该区1000名初中学生,得到成对样
本数据的分类统计结果,如下表所示:
是否喜欢篮球
性别 合计
喜欢 不喜欢
男生 450 150 600
女生 150 250 400
合计 600 400 1000
(1)依据 的独立性检验,能否认为该区初中学生的性别与喜欢篮球有关联;
(2)用按性别比例分配的分层随机抽样的方法从参与调查的喜欢篮球的600名初中学生中抽取8名学生做进
一步调查,将这8名学生作为一个样本,从中随机抽取3人,用X表示随机抽取的3人中女生的人数,求
X的分布列和数学期望.
附:参考数据
,其中 .
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
一、单选题
1.(2024·四川南充·一模)甲同学近10次数学考试成绩情况如下:103,106,113,119,123,118,
134,118,125,121,则甲同学数学考试成绩的第75百分位数是( )
A.118 B.121 C.122 D.123
2.(2024·广东珠海·模拟预测)下列说法正确的是( )
A.一组数据的标准差为0,则这组数据中的数均相等
B.两组数据的标准差相等,则这两组数据的平均数相等
C.若两个变量的相关系数越接近于0,则这两个变量的相关性越强
D.已知变量 ,由它们的样本数据计算得到 的观测值 的部分临界值如下表:
0.1 0.05 0.025 0.012.706 3.841 5.024 6.635
则在犯错误的概率不超过0.025的前提下认为变量 没有关系
3.(2024·江苏苏州·模拟预测)设研究某两个属性变量时,作出零假设 并得到2×2列联表,计算得
,则下列说法正确的是( )
A.有99.5%的把握认为 不成立 B.有5%的把握认为 的反面正确
C.有95%的把握判断 正确 D.有95%的把握能反驳
4.(2024·安徽芜湖·模拟预测)下列说法正确的是( )
A.若随机变量 ,则当 较小时,对应的正态曲线“矮胖”,随机变量X的分布比较分散
B.在做回归分析时,可以用决定系数 刻画模型回归效果, 越小,说明模型拟合的效果越好
C.一元线性回归模型中,如果相关系数 ,表明两个变量的相关程度很强
D.在 列联表中,若所有数据均变成原来的2倍,则 不变( ,其
中 )
二、多选题
5.(2024·海南海口·模拟预测)某校为了解学生的身体状况,随机抽取了50名学生测量体重,经统计,
这些学生的体重数据(单位:千克)全部介于45至70之间,将数据整理得到如图所示的频率分布直方图,
则( )
A.频率分布直方图中 的值为0.04
B.这50名学生体重的众数约为52.5
C.该校学生体重的上四分位数约为61.25
D.这50名学生中体重不低于65千克的人数约为10
6.(2024·湖北武汉·模拟预测)某科技公司统计了一款App最近5个月的下载量如表所示,若 与 线性
相关,且线性回归方程为 ,则( )
月份编号 1 2 3 4 5下载量 (万次) 5 4.5 4 3.5 2.5
A. 与 负相关 B.
C.预测第6个月的下载量是2.1万次 D.残差绝对值的最大值为0.2
7.(2024·江西新余·模拟预测)已知对 个数据 做如下变换:当 为奇数时,对应的 变为
;当 为偶数时,对应的 变为 ,则对于该组数据的变化,下列情况中可能发生的是:( ).
A.平均数增大 B.方差不变
C. 分位数减小 D.众数减小
三、填空题
8.(2024·四川成都·模拟预测)已知关于x的一组数据:
x 1 m 3 4 5
y 0.5 0.6 n 1.3 1.4
根据表中数据得到的线性回归直线方程为 ,则 的值 .
四、解答题
9.(2024·浙江嘉兴·二模)为了有效预防流感,很多民众注射了流感疫苗.市防疫部门随机抽取了1000人
进行调查,发现其中注射疫苗的800人中有220人感染流感,另外没注射疫苗的200人中有80人感染流感.
医学研究表明,流感的检测结果有检错的可能,已知患流感的人其检测结果有 呈阳性(流感),而没
有患流感的人其检测结果有 呈阴性(未感染)
(1)估计该市流感感染率是多少?
(2)根据所给的数据,判断是否有99%的把握认为注射流感疫苗与预防流感有关;
(3)已知某人的流感检查结果呈阳性,求此人真的患有流感的概率.(精确到0.001)
附: .
0.050 0.010 0.001
k 3.841 6.635 10.828
10.(2024·陕西安康·模拟预测)某乒乓球训练机构以训练青少年为主,其中有一项打定点训练,就是把
乒乓球打到对方球台的指定位置(称为“准点球”),在每周末,记录每个接受训练的学员在训练时打的
所有球中“准点球”的百分比( ),A学员已经训练了1年,下表记录了 学员最近七周“准点球”
的百分比:
周次(x) 1 2 3 4 5 6 752 52.8 53.5 54 54.5 54.9 55.3
若 .
(1)根据上表数据,计算 与 的相关系数 ,并说明 与 的线性相关性的强弱;
(若 ,则认为 与 线性相关性很强;若 ,则认为 与 线性相关性一般;若
,则认为 与 线性相关性较弱)(精确到 )
(2)求 关于 的回归方程,并预测第 周“准点球”的百分比.(精确到 )
参考公式和数据:
, ,
.
一、单选题
1.(2024·江苏镇江·三模)命题P: 的平均数与中位数相等;命题Q: 是
等差数列,则P是Q的( )
A.充分不必要条件 B.必要不充分条件
C.充要条件 D.既不充分也不必要条件
2.(2024·江西新余·模拟预测)已知一组数据 大致呈线性分布,其回归直线方程为
,则 的最小值为( ).
A. B. C. D.无法确定
3.(2024·吉林·模拟预测)设样本数据 , ,…, 的平均数为 ,标准差为 ,若样本数据 ,
,…, 的平均数比标准差少3,则 的最大值为( )
A.1 B. C.4 D.
二、多选题
4.(2024·湖南邵阳·三模)为了解一片经济林的生长情况,随机抽取了其中60株树木,测量底部周长
(单位:cm),所得数据均在区间 内,其频率分布直方图如图所示,则( )A.图中 的值为0.025
B.样本中底部周长不小于110cm的树木有12株
C.估计该片经济林中树木的底部周长的 分位数为115
D.估计该片经济林中树木的底部周长的平均数为104(每组数据用该组所在区间的中点值作代表)
5.(2024·辽宁·模拟预测)已知由样本数据 组成的一个样本,得到回归直线方程为
,且 ,去除两个歧义点 和 后,得到新的回归直线的回归系数为2.5,则下列说
法正确的是( )
A.相关变量 具有正相关关系
B.去除两个歧义点后,随 值增加相关变量 值增加速度变小
C.去除两个歧义点后,重新求得回归方程对应的直线一定过点
D.去除两个歧义点后,重新求得的回归直线方程为
6.(2024·吉林长春·模拟预测)已知变量x和变量y的一组成对样本数据 ( )的散点落在
一条直线附近, , ,相关系数为 ,线性回归方程为 ,则( )
A.当 越大时,成对样本数据的线性相关程度越强
B.当 时,
C. , 时,成对样本数据 ( )的相关系数 满足
D. 时,成对样本数据 ( )的线性回归方程 满足
参考公式:
7.(2024·福建·模拟预测)已知一组数据的平均数、中位数、众数依次成等差数列,现在丢失了其中一个
数据,另外六个数据分别是7,9,10,7,15,7.将丢失数据的所有可能值从小到大排列成数列{a },记
n
,则( )
A. B.C.{a }是等差数列 D.{a }是等比数列
n n
8.(2024·湖北·模拟预测)已知互不相同的20个样本数据,若去掉其中最大和最小的数据,设剩下的18
个样本数据的方差为 ,平均数 ;去掉的两个数据的方差为 ,平均数 ;原样本数据的方差为 ,平
均数 ,若 ,则( )
A.
B.
C.剩下18个数据的中位数大于原样本数据的中位数
D.剩下18个数据的 分位数不等于原样本数据的 分位数
三、解答题
9.(2024·海南海口·模拟预测)制定适合自己的学习计划并在学习过程中根据自己的实际情况有效地安排
和调整学习方法是一种有效的学习策略.某教师为研究学生制定学习计划并坚持实施和数学成绩之间的关
系,得到如下数据:
成绩 分 成绩 分 合计
制定学习计划并坚持实
施
没有制定学习计划
合计 50
(1)依据小概率值 的独立性检验,能否认为“制定学习计划并坚持实施”和“数学成绩高于
分”有关联?
(2)若该校高三年级每月进行一次月考,该校学生小明在高三开学初认真制定了学习计划,其中一项要求自
己每天要把错题至少重做一遍,做对为止.以下为小明坚持实施计划的月份和他在学校数学月考成绩的校
内名次数据:
月考时间 月初 月初 次年 月初 次年 月初 次年 月初
时间代码
月考校内名次
参考数据: , .
(ⅰ)求月考校内名次 与时间代码 的线性回归方程 ;
(ⅱ)该校老师给出了上一年该校学生高考( 月初考试)数学成绩在校内的名次和在全省名次的部分数
据:校内名次
全省名次
利用数据分析软件,根据以上数据得出了两个回归模型和决定系数 :
模型① 模型②
在以上两个模型中选择“较好”模型(说明理由),并结合问题(ⅰ)的回归方程,依据“较好”模型预
测小明如果能坚持实施学习计划,他在次年高考中数学成绩的全省名次(名次均保留整数).(参考数据:
, , )
附:(ii) ,其中 .
(i)对于一组数据 ,其回归直线 的斜率和截距的最小二乘估计分别为:
, .
10.(2024·江苏无锡·模拟预测)由于人们对工业高度发达的负面影响预料不够,预防不利,导致了全球
性的三大危机:资源短缺、环境污染、生态破坏 环境污染指自然的或人为的破坏,向环境中添加某种物
质而超过环境的自净能力而产生危害的行为 或由于人为的因素,环境受到有害物质的污染,使生物的生
长繁殖和人类的正常生活受到有害影响 由于人为因素使环境的构成或状态发生变化,环境质量下降,从
而扰乱和破坏了生态系统和人类的正常生产和生活条件的现象 据研究,某种污染物具有极强的污染力,
现在对这种污染物的污染力进行调查研究,通过实验调查,可以得到某地区该污染物到来后的污染时间
小时 与该污染物的污染面积 平方米 的一些数据如下:
通过分析可知,数据 与 之间存在很强的线性回归关系.
(1)求出 与 之间的关系式;
(2)根据 中的关系式,该污染物到来后的污染时间是多少时,该污染物的污染面积的平均增长最慢?
参考公式:对于一组数据 ,其回归直线 的斜率和截距的最小二乘估计分别 , ..
1.(2024·天津·高考真题)下列图中,线性相关性系数最大的是( )
A. B.
C. D.
2.(2024·全国·高考真题)某工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的
产品中随机抽取150件进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1)填写如下列联表:
优级品 非优级品
甲车
间
乙车
间
能否有 的把握认为甲、乙两车间产品的优级品率存在差异?能否有 的把握认为甲,乙两车间产品
的优级品率存在差异?(2)已知升级改造前该工厂产品的优级品率 ,设 为升级改造后抽取的n件产品的优级品率.如果
,则认为该工厂产品的优级品率提高了,根据抽取的150件产品的数据,能否认为生
产线智能化升级改造后,该工厂产品的优级品率提高了?( )
附:
0.050 0.010 0.001
k 3.841 6.635 10.828
3.(2024·上海·高考真题)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29000名学生
中抽取580人,得到日均体育锻炼时长与学业成绩的数据如下表所示:
时间范围学业成绩
优秀 5 44 42 3 1
不优秀 134 147 137 40 27
(1)该地区29000名学生中体育锻炼时长不少于1小时人数约为多少?
(2)估计该地区初中学生日均体育锻炼的时长(精确到0.1)
(3)是否有 的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关?
(附: 其中 , .)
4.(2023·全国·高考真题)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中
20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠
饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
(1)计算试验组的样本平均数;
(2)(ⅰ)求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,
完成如下列联表对照
组
试验
组
(ⅱ)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增
加量有差异?
附: ,
0.100 0.050 0.010
2.706 3.841 6.635
5.(2023·全国·高考真题)一项试验旨在研究臭氧效应.实验方案如下:选40只小白鼠,随机地将其中20
只分配到实验组,另外20只分配到对照组,实验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养
在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).
(1)设 表示指定的两只小白鼠中分配到对照组的只数,求 的分布列和数学期望;
(2)实验结果如下:
对照组的小白鼠体重的增加量从小到大排序为:
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
实验组的小白鼠体重的增加量从小到大排序为:
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
(i)求40只小鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于的数据的个数,完成如
下列联表:
对照
组
实验
组
(ii)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与正常环境中体重的增加
量有差异.
附:0.100 0.050 0.010
2.706 3.841 6.635
6.(2023·全国·高考真题)某厂为比较甲乙两种工艺对橡胶产品伸缩率的处理效应,进行10次配对试验,
每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测
量处理后的橡胶产品的伸缩率.甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为 , .
试验结果如下:
试验序号
1 2 3 4 5 6 7 8 9 10
伸缩率 545 533 551 522 575 544 541 568 596 548
伸缩率 536 527 543 530 560 533 522 550 576 536
记 ,记 的样本平均数为 ,样本方差为 .
(1)求 , ;
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高(如果
,则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高,否
则不认为有显著提高)
7.(2022·北京·高考真题)在北京冬奥会上,国家速滑馆“冰丝带”使用高效环保的二氧化碳跨临界直冷
制冰技术,为实现绿色冬奥作出了贡献.如图描述了一定条件下二氧化碳所处的状态与T和 的关系,
其中T表示温度,单位是K;P表示压强,单位是 .下列结论中正确的是( )
A.当 , 时,二氧化碳处于液态
B.当 , 时,二氧化碳处于气态
C.当 , 时,二氧化碳处于超临界状态D.当 , 时,二氧化碳处于超临界状态
8.(2022·全国·高考真题)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机
抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前
和讲座后问卷答题的正确率如下图:
则( )
A.讲座前问卷答题的正确率的中位数小于
B.讲座后问卷答题的正确率的平均数大于
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
9.(2022·全国·高考真题)甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途
客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数 未准点班次数
A 240 20
B 210 30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附: ,
0.100 0.050 0.010
2.706 3.841 6.635
10.(2022·全国·高考真题)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯
分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良
良好
好
病例组 40 60
对照组 10 90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该
疾病”. 与 的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标
为R.
(ⅰ)证明: ;
(ⅱ)利用该调查数据,给出 的估计值,并利用(ⅰ)的结果给出R的估计值.
附 ,
0.050 0.010 0.001
k 3.841 6.635 10.828
11.(2021·全国·高考真题)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较
两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级
二级品 合计
品
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:
0.050 0.010 0.001
k 3.841 6.635 10.82812.(2020·江苏·高考真题)已知一组数据 的平均数为4,则 的值是 .
13.(2020·全国·高考真题)在一组样本数据中,1,2,3,4出现的频率分别为 ,且 ,
则下面四种情形中,对应样本的标准差最大的一组是( )
A. B.
C. D.
14.(2020·全国·高考真题)设一组样本数据x ,x ,…,xn的方差为0.01,则数据10x ,10x ,…,10xn
1 2 1 2
的方差为( )
A.0.01 B.0.1 C.1 D.10
15.(2020·全国·高考真题)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:°C)的
关系,在20个不同的温度条件下进行种子发芽实验,由实验数据 得到下面的散点图:
由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型
的是( )
A. B.
C. D.
16.(2020·海南·高考真题)我国新冠肺炎疫情进入常态化,各地有序推进复工复产,下面是某地连续11
天复工复产指数折线图,下列说法正确的是
A.这11天复工指数和复产指数均逐日增加;
B.这11天期间,复产指数增量大于复工指数的增量;
C.第3天至第11天复工复产指数均超过80%;
D.第9天至第11天复产指数增量大于复工指数的增量;17.(2020·天津·高考真题)从一批零件中抽取80个,测量其直径(单位: ),将所得数据分为9组:
,并整理得到如下频率分布直方图,则在被抽取的零件中,
直径落在区间 内的个数为( )
A.10 B.18 C.20 D.36
18.(2020·全国·高考真题)某厂接受了一项加工业务,加工出来的产品(单位:件)按标准分为A,B,C,
D四个等级.加工业务约定:对于A级品、B级品、C级品,厂家每件分别收取加工费90元,50元,20元;
对于D级品,厂家每件要赔偿原料损失费50元.该厂有甲、乙两个分厂可承接加工业务.甲分厂加工成本费
为25元/件,乙分厂加工成本费为20元/件.厂家为决定由哪个分厂承接加工业务,在两个分厂各试加工了
100件这种产品,并统计了这些产品的等级,整理如下:
甲分厂产品等级的频数分布表
等
A B C D
级
频
40 20 20 20
数
乙分厂产品等级的频数分布表
等
A B C D
级
频
28 17 34 21
数
(1)分别估计甲、乙两分厂加工出来的一件产品为A级品的概率;
(2)分别求甲、乙两分厂加工出来的100件产品的平均利润,以平均利润为依据,厂家应选哪个分厂承接
加工业务?
19.(2017·全国·高考真题)为了监控某种零件的一条生产线的生产过程,检验员每隔 从该生产线
上随机抽取一个零件,并测量其尺寸(单位: ).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次
1 2 3 4 5 6 7 8
序零件尺
9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04
寸
抽取次
9 10 11 12 13 14 15 16
序
零件尺
10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95
寸
经计算得 , ,
,其中 为抽取的第 个零件的尺寸, .
(1)求 的相关系数 ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行
而系统地变大或变小(若 ,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
(2)一天内抽检零件中,如果出现了尺寸在 之外的零件,就认为这条生产线在这一天的生
产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ⅱ)在 之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均
值与标准差.(精确到 )附:样本 的相关系数
, .
20.(2016·全国·高考真题)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
(Ⅰ)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(Ⅱ)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:参考数据: , ,
, ≈2.646.
参考公式:相关系数
回归方程 中斜率和截距的最小二乘估计公式分别为: