文档内容
专题23 变量间的相关关系、统计案例
1、(2021年全国高考甲卷数学(理))为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,
将农户家庭年收入的调查数据整理得到如下频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是( )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
2、(2021年全国新高考Ⅰ卷数学试题)(多选题)有一组样本数据 , ,…, ,由这组数据得到新
样本数据 , ,…, ,其中 ( 为非零常数,则( )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样数据的样本极差相同
3、(2021年全国高考乙卷数学(文)试题)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7
新设备 10.1 10.4 10.1 10.0 10.1 10.3 10.6 10.5 10.4 10.5
旧设备和新设备生产产品的该项指标的样本平均数分别记为 和 ,样本方差分别记为 和 .
(1)求 , , , ;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果 ,则认为
新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).
4、(2021年全国高考甲卷数学(理)试题)甲、乙两台机床生产同种产品,产品按质量分为一级品和二
级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:
0.050 0.010 0.001
k 3.841 6.635 10.8284
∑ p =1
i
i=1
5、(2020全国Ⅲ理3)在一组样本数据中, 出现的频率分别为 ,且 ,
则下面四种情形中,对应样本的标准差最大的一组是 ( )
A. B.
C. D.
6、(2020天津4)从一批零件中抽取80个,测量其直径(单位: ),将所得数据分为9组:
,并整理得到如下频率分布直方图,则在被抽取的零
件中,直径落在区间 内的个数为( )
A.10 B.18 C.20 D.36
7、(2020年全国统一高考数学试卷(文科)(新课标Ⅰ))某校一个课外学习小组为研究某作物种子的
发芽率y和温度x(单位:°C)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据
得到下面的散点图:由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型
的是( )
A. B.
C. D.
8、(2019全国II理5)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个
原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的
数字特征是
A.中位数 B.平均数
C.方差 D.极差
9、(2019全国II理13)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次
的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车
所有车次的平均正点率的估计值为__________.
10、(2020年全国统一高考数学试卷(文科)(新课标Ⅱ))某沙漠地区经过治理,生态系统得到很大改
善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些
地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x,y)(i=1,2,…,20),其中x和y
i i i i
分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得 ,
, , , .(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平
均数乘以地块数);
(2)求样本(x,y)(i=1,2,…,20)的相关系数(精确到0.01);
i i
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动
物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r= , ≈1.414.
11、(2020年全国统一高考数学试卷(理科)(新课标Ⅲ))某学生兴趣小组随机调查了某市100天中
每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次
[0,200] (200,400] (400,600]
空气质量等级
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称
这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握
认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次≤400 人次>400
空气质量好
空气质量不好附: ,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
12、(2019年全国统一高考数学试卷(文科)(新课标Ⅰ))某商场为提高服务质量,随机调查了50名
男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意 不满意
男顾客 40 10
女顾客 30 20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附: .
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
题组一、线性回归方程
1-1、(2022·湖南常德·高三期末)根据如下样本数据得到的回归直线方程 中的 ,根据此
方程预测当 时,y的取值为( )x 3 4 5 6 7 8 9
y 4.0 2.5 0.5
A. B. C. D.
1-2、(2022·湖北江岸·高三期末)(多选题)某电子商务平台每年都会举行“年货节”商业促销狂欢活动,
现在统计了该平台从2013年到2021年共9年“年货节”期间的销售额(单位:亿元)并作出散点图,将
销售额y看成年份序号x(2013年作为第一年)的函数.运用excel软件,分别选择回归直线和三次函数回归
曲线进行拟合,效果如下图,则下列说法正确的是( )
A.销售额y与年份序号x正相关
B.销售额y与年份序号x线性关系不显著
C.三次函数回归曲线的拟合效果好于回归直线的拟合效果
D.根据三次函数回归曲线可以预测2022年“年货节”期间的销售额约为2680.54亿元
1-3、(2022·湖北·高三期末)(多选题)某工厂研究某种产品的产量x(单位:吨)与需求某种材料y(单
位:吨)之间的相关关系,在生产过程中收集了4组数据如表所示
x 3 4 6 7
y 2.5 3 4 5.9
根据表中的数据可得回归直线方程 ,则以下正确的是( )
A.变量x与y正相关 B.y与x的相关系数
C. D.产量为8吨时预测所需材料约为5.95吨
1-4、(2022·山东青岛·高三期末)已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有
如下对应数据:
x 2 4 5 6 8y 30 40 50 60 70
根据上表可得回归方程 ,其中 ,据此估计,当投入10万元广告费时,销售额为_________万
元;
1-5、(2022·山东青岛·高三期末)由样本数据 得到的回归方程为: ,
已知如下数据: ,则实数 的值为___________.
1-6、(2022·河北唐山·高三期末)某统计部门依据《中国统计年鉴——2017》提供的数据,对我国1997-
2016年的国内生产总值(GDP)进行统计研究,作出了两张散点图:图1表示1997-2016年我国的国内生
产总值(GDP),图2表示2007-2016年我国的国内生产总值(GDP).(1)用 表示第i张图中的年份与GDP的线性相关系数, ,依据散点图的特征分
别写出 的结果;
(2)分别用线性回归模型和指数回归模型对两张散点图进行回归拟合,分别计算出统计数据——相关指数
的数值,部分结果如下表所示:
年份 1997-2016 2007-2016
线性回归模型 0.9306
指数回归模型 0.9899 0.978
①将上表中的数据补充完整(结果保留3位小数,直接写在答题卡上);
②若估计2017年的GDP,结合数据说明采用哪张图中的哪种回归模型会更精准一些?若按此回归模型来估
计,2020年的GDP能否突破100万亿元?事实上,2020年的GDP刚好突破了100万亿元,估计与事实是
否吻合?结合散点图解释说明.
1-7、(2022·江苏通州·高三期末)当今时代,国家之间的综合国力的竞争,在很大程度上表现为科学技术
水平与创新能力的竞争.特别是进入人工智能时代后,谁掌握了核心科学技术,谁就能对竞争对手进行降维
打击.我国自主研发的某种产品,其厚度越小,则该种产品越优良,为此,某科学研发团队经过较长时间的
实验研发,不断地对该产品的生产技术进行改造提升,最终使该产品的优良厚度达到领先水平并获得了生
产技术专利.
(1)在研发过程中,对研发时间x(月)和产品的厚度y(nm)进行统计,其中1~7月的数据资料如下:
x(月) 1 2 3 4 5 6 7y(nm) 99 99 45 32 30 24 21
现用 作为y关于x的回归方程类型,请利用表中数据,求出该回归方程,并估计该产品的“理
想”优良厚度约为多少?
(2)某企业现有3条老旧的该产品的生产线,迫于竞争压力,决定关闭并出售生产线.现有以下两种售卖方案
可供选择:
①直接售卖,则每条生产线可卖5万元;
②先花20万元购买技术专利并对老旧生产线进行改造,使其达到生产领先水平后再售卖.已知在改造过程
中,每条生产线改造成功的概率均为 ,若改造成功,则每条生产线可卖20万元;若改造失败,则卖价为
0万元.请判断该企业应选择哪种售卖方案更为科学? 并说明理由.
参考数据:设z= ,zi= , =0.37, =50, =184.5, -7 2=0.55;
参考公式:对于一组数据(u ,v ),(u ,v ),…,(un,vn),其回归直线 = u+ 中的斜率和纵截距的最
1 1 2 2
小二乘法估计的计算公式为 = , = - .
题组二、独立性检验
2-1、(2022·广东揭阳·高三期末)每年的毕业季都是高校毕业生求职和公司招聘最忙碌的时候,甲、乙两家
公司今年分别提供了2个和3个不同的职位,一共收到了100份简历,具体数据如下:公 文史
文史男 理工男 理工女
司 女
甲 10 10 20 10
乙 15 20 10 5
分析毕业生的选择意愿与性别的关联关系时,已知对应的 的观测值 ;分析毕业生的选择意愿
与专业关联的 的观测值 ,则下列说法正确的是( )
A.有 的把握认为毕业生的选择意愿与专业相关联
B.毕业生在选择甲、乙公司时,选择意愿与专业的关联比与性别的关联性更大一些
C.理科专业的学生更倾向于选择乙公司
D.女性毕业生更倾向于选择甲公司
2-2、(2022·山东莱西·高三期末)通过随机询问某中学110名中学生是否爱好跳绳,得到如下列联表:
性别
跳绳 合计
男 女
爱好 40 20 60
不爱好 20 30 50
合计 60 50 110
已知 , ,根据小概率值 的 独立性检验,
以下结论正确的为( )
A.爱好跳绳与性别有关
B.爱好跳绳与性别有关,这个结论犯错误的概率不超过0.001
C.爱好跳绳与性别无关
D.爱好跳绳与性别无关,这个结论犯错误的概率不超过0.001
2-3、(2022·湖北武昌·高三期末)武汉热干面既是中国四大名面之一,也是湖北武汉最出名的小吃之一.某热干面店铺连续10天的销售情况如下(单位:份):
天数 1 2 3 4 5 6 7 8 9 10
套餐一 120 100 140 140 120 70 150 120 110 130
套餐二 80 90 90 60 50 90 70 80 90 100
(1)分别求套餐一、套餐二的均值、方差,并判断两种套餐销售的稳定情况;
(2)假定在连续10天中每位顾客只购买了一份,根据图表内容填写下列 列联表,并据此判断能否有95%
的把握认定顾客性别与套餐选择有关?
顾客套餐 套餐一 套餐二 合计
男顾客 400
女顾客 500
合计
附:
0.10 0.05 0.025 0.010
2.706 3.841 5.024 6.635
2-4、(2022·江苏苏州·高三期末) 年 月国务院印发《全民健身计划 》,《计划》中提
出了各方面的主要任务,包括加大全民健身场地设施供给、广泛开展全民健身赛事活动、提升科学健身指
导服务水平、激发体育社会组织活动、促进重点人群健身活动开展和营造全民健身社会氛围等.在各种健
身的方式中,瑜伽逐渐成为一种新型的热门健身运动.某瑜伽馆在 月份随机采访了 名市民,对于是否
愿意把瑜伽作为主要的健身方式作了调查.
愿意 不愿意 合计男性
女性
合计
(1)能否在犯错误的概率不超过 的前提下认为“愿意把瑜伽作为主要健身方式”与性别有关?
附:
(2)为了推广全民健身,某市文化馆计划联合该瑜伽馆举办“瑜你一起”的公益活动,在全市范围内开设一
期公益瑜伽课,先从上述参与调查的 人中选择“愿意”的人按分层抽样抽出 人,再从 人中随机抽
取 人免费参加.市文化馆拨给瑜伽馆一定的经费补贴,补贴方案为:男性每人 元,女性每人 元.
求补贴金额的分布列及数学期望(四舍五入精确到元)
题组三、统计案例、线性回归分析与概率的综合
3-1、(2022·河北张家口·高三期末)已知某区 、 两所初级中学的初一年级在校学生人数之比为 ,
该区教育局为了解双减政策的落实情况,用分层抽样的方法在 、 两校初一年级在校学生中共抽取了
名学生,调查了他们课下做作业的时间,并根据调查结果绘制了如下频率分布直方图:(1)在抽取的 名学生中, 、 两所学校各抽取的人数是多少?
(2)该区教育局想了解学生做作业时间的平均时长(同一组中的数据用该组区间的中点值作代表)和做作业
时长超过 小时的学生比例,请根据频率分布直方图,估计这两个数值;
(3)另据调查,这 人中做作业时间超过 小时的人中的 人来自 中学,根据已知条件填写下面列联表,
并根据列联表判断是否有 的把握认为“做作业时间超过 小时”与“学校”有关?
做作业时间超过 小时 做作业时间不超过 小时 合计
校
校
合计
附表:
附: .
3-2、(2022·山东济南·高三期末)某机构为了解市民对交通的满意度,随机抽取了100位市民进行调查结
果如下:回答“满意”的人数占总人数的一半,在回答“满意”的人中,“上班族”的人数是“非上班
族”人数的 ;在回答“不满意”的人中,“非上班族”占 .
(1)请根据以上数据填写下面 列联表,并依据小概率值 的独立性检验,分析能否认为市民对于
交通的满意度与是否为上班族存关联?
满意 不满意 合计上班族
非上班族
合计
(2)为了改善市民对交通状况的满意度,机构欲随机抽取部分市民做进一步调查.规定:抽样的次数不超过
,若随机抽取的市民属于不满意群体,则抽样结束;若随机抽取的市民属于满意群体,则继续
抽样,直到抽到不满意市民或抽样次数达到 时,抽样结束.
(i)若 ,写出 的分布列和数学期望;
(ii)请写出 的数学期望的表达式(不需证明),根据你的理解说明 的数学期望的实际意义.
附:
参考公式: ,其中 .
1、(2022·山东青岛·高三期末)如图是民航部门统计的 年春运期间十二个城市售出的往返机票的平均
价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是( )A.深圳的变化幅度最小,北京的平均价格最高
B.深圳和厦门的春运期间往返机票价格同去年相比有所下降
C.平均价格的涨幅从高到低居于前三位的城市为天津、西安、厦门
D.平均价格从高到低居于前三位的城市为北京、深圳、广州
2、(2022·江苏扬州·高三期末)(多选题)下列说法中正确的有( )
A.将一组数据中的每个数据都乘以 后,平均数也变为原来的 倍
B.若一组数据的方差越小,则该组数据越稳定
C.由样本数据点 、 、 、 所得到的回归直线 至少经过其中的一个点
D.在某项测量中,若测量结果 ,则
3、(2022·湖北襄阳·高三期末)(多选题)下列说法正确的是( )
A.当总体是由差异明显的几个部分组成时,通常采用分层抽样的方法抽样
B.频率分布直方图中每个小矩形的高就是该组的频率
C.若两个满足线性回归的变量负相关,则其回归直线的斜率为负
D.已知随机变量 服从正态分布 , ,则
4、(2022·湖北省鄂州高中高三期末)(多选题)下列说法正确的是( )
A.线性回归方程 对应的直线一定经过点
B.若随机变量 ,则
C.方差描述了一组数据围绕平均数波动的大小,方差越大,数据的离散程度越大;方差越小,数据的离散程度越小
D.“事件 是互斥事件”是“事件 是对立事件”的充分不必要条件
5、(2022·山东临沂·高三期末)为研究数学成绩与物理成绩是否具有线性相关性,李老师将班级里4位同
学的某次数学成绩和物理成绩记录如下表所示:
学生编号 1 2 3 4
数学分数x 98 102 118 122
物理分数y 80 83 m 100
经检验数学成绩确实与物理成绩具有相关性,且线性回归方程为 ,则表中 ______.
6、(2022·湖南郴州·高三期末)2021年东京奥运会,中国举重代表队共10人,其中主教练、教练各1人,
参赛选手8人,赛后结果7金1银,在全世界面前展现了真正的中国力量;举重比赛根据体重进行分级,
某次举重比赛中,男子举重按运动员体重分为下列十级:
级别 54公斤级 59公斤级 64公斤级 70公斤级 76公斤级
体重
级别 83公斤级 91公斤级 99公斤级 108公斤级 108公斤级以上
体重
每个级别的比赛分为抓举与挺举两个部分,最后综合两部分的成绩得出总成绩,所举重量最大者获胜,在
该次举重比赛中,获得金牌的运动员的体重以及举重成绩如下表
体重 54 59 64 70 76 83 91 99 106
举重成
291 304 337 353 363 389 406 421 430
绩
(1)根据表中的数据,求出运动员举重成绩 与运动员的体重 的回归直线方程(保留1位小数);
(2)某金牌运动员抓举成绩为180公斤,挺举成绩为218公斤,则该运动员最有可能是参加的哪个级别的举
重?
(3)凯旋回国后,中央一台记者从团队的10人中随机抽取3人进行访谈,用 表示抽取到的是金牌得主的人
数,求 的概率分布列与数学期望.
参考数据: ;参考公式: .
7、(2022·广东清远·高三期末)某市为积极响应上级部门的号召,通过沿街电子屏、微信公众号等各种渠
道对抗疫进行了深入的宣传,帮助全体市民深入了解新型冠状病毒,增强战胜疫情的信心.为了检验大家
对新型冠状病毒及防控知识的了解程度,该市推出了相关的问卷调查,随机抽取了年龄在18~99岁之间的
200人进行调查,把年龄在 和 内的人分别称为“青年人”和“中老年人”.经统计,“青年
人”和“中老年人”的人数之比为2∶3,其中“青年人”中有50%的人对防控的相关知识了解全面,“中
老年人”中对防控的相关知识了解全面和了解不全面的人数之比是2∶1.
(1)根据已知条件,完成下面的 列联表,并根据统计结果判断是否有95%的把握认为“中老年人”比
“青年人”更加了解防控的相关知识.
了解全
了解不全面 合计
面
青年人
中老年人
合计
(2)用频率估计概率从该市18~99岁市民中随机抽取3位市民,记抽出的市民对防控相关知识了解全面的人
数为X,求随机变量X的分布列与数学期望.
附表及公式: ,其中 .
0.15 0.10 0.05 0.025 0.010 0.005 0.001
k 2.072 2.706 3.841 5.024 6.635 7.879 10.8288、(2022·广东·铁一中学高三期末) 年 月底,为严防新型冠状病毒疫情扩散,有效切断病毒传播途
径,坚决遏制疫情蔓延势头,确保人民群众生命安全和身体健康,多地相继做出了封城决定.某地在 月
日至 日累计确诊人数如下表:
日期( 月) 日 日 日 日 日 日 日
人数(人)
由上述表格得到如散点图( 月 日为封城第一天).
(1)根据散点图判断 与 ( , 均为大于 的常数)哪一个适宜作为累计确诊人数 与
封城后的天数 的回归方程类型(给出判断即可,不必说明理由);并根据上表中的数据求出回归方程;
(2)随着更多的医护人员投入疫情的研究, 月 日武汉影像科医生提出存在大量核酸检测呈阴性(阳
性则确诊),但观其 肺片具有明显病变,这一提议引起了广泛的关注, 月 日武汉疾控中心接收了
份血液样本,假设每份样本的检验结果是阳性还是阴性都是相互独立的,且每份样本是阳性样本的概
率为 ,核酸试剂能把阳性样本检测出阳性结果的概率是 (核酸检测存在阳性样本检测不出来的情
况,但不会把阴性检测呈阳性),求这 份样本中检测呈阳性的份数的期望.
参考数据:其中 , ,参考公式:对于一组数据 , ,…, ,其回归直线
的斜率和截距的最小二乘估计公式分别为 , .