文档内容
班级 姓名 学号 分数
第八章 成对数据的统计分析(B 卷·能力提升练)
(时间:120分钟,满分:150分)
一、选择题:本题共8小题,每小题5分,共40分。在每小题给出的四个选项中,只有一项是符合题目要
求的。
1.(2023·四川绵阳·绵阳中学校考模拟预测)近期记者调查了热播的电视剧《狂飙》,发现年龄段与爱看
的比例存在较好的线性相关关系,年龄在 , , , , 的爱看比例分别为
, , , , ,现用这5个年龄段的中间值x代表年龄段,如12代表 ,17代表
,根据前四个数据求得x关于爱看比例y的线性回归方程为 ,由此可推测t的值为
( )
A.33 B.35 C.37 D.39
【答案】B
【解析】因为比例和线性回归方程均带有 ,故为了方便计算,以下数据省略 ,
前四组的平均数为 , ,
代入线性回归方程 得 ,解得 ,
所以,线性回归方程为 ,
当 时, ,由此可推出 的值为 .
故选:B.
2.(2023春·江苏常州·高三校联考开学考试)下表提供了某厂进行技术改造后生产产品过程中记录的产量
(单位: )与相应的生产能耗 (单位: 标准煤)的几组对应数据:
3 4 5 6
标准煤 3 4
已知该厂技术改造前 产品的生产能耗为 标准煤,试根据以上数据求出的线性回归方程,预测该厂
技术改造后 产品的生产能耗比技术改造前降低了( )附:在线性回归方程 中, ,其中 为样本平均值.A. 标准煤
B. 标准煤
C. 标准煤 D. 标准煤
【答案】A
【解析】 , ,
, ,
所以线性回归方程为 ,
当 , , .
故选:A.
3.(2023·高三课时练习)通过随机询问110名不同的大学生是否爱好某项运动,得到了如下的列联表:
男 女 合计
爱好 40 20 60
不爱好 20 30 50
总计 60 50 110
附表:
0.05 0.010 0.001
3.841 6.635 10.828
参照附表,能得到的正确结论是( ). A.有99%以上的把握认为“爱好该项运动与性别有关”
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
【答案】A
【解析】由题意知本题所给的观测值,
,所以有 以上的把握认为“爱好该项运动与性别有关”,
即在犯错误的概率不超过 的前提下,认为“爱好该项运动与性别有关”.
故选:A.
4.(2023秋·河南安阳·高三校考期末)为了研究汽车减重对降低油耗的作用,对一组样本数据 、
、 、 进行分析,其中 表示减重质量(单位:千克), 表示每行驶一百千米降低的油
耗(单位:升), 、 、 、 ,由此得到的线性回归方程为 .下述四个说法:
① 的值一定为 ;② 越大,减重对降低油耗的作用越大;
③残差的平方和越小,回归效果越好;④至少有一个数据点在回归直线上.
其中所有正确说法的编号是( )
A.①④ B.②③ C.②③④ D.①②④
【答案】B
【解析】 的实际意义为当减重质量为 时,汽车每行驶一百千米所降低的油耗,
从其意义上来看, 的值应该等于 ,
但拟合直线并不一定过坐标原点,因此 的值可能比 略大或略小,所以①错误;
的实际意义是每行驶一百千米降低的油耗量与减重质量之比,
因此 越大,减重对降低油耗的作用越大,所以②正确;
相关指数 ,所以残差的平方和 越小, 越接近于 ,回归效果越好,所以
③正确;
有可能没有数据点在回归直线上,所以④错误.
故选:B.
5.(2023·河南·高三安阳一中校联考阶段练习)下表为某外来生物物种入侵某河流生态后的前3个月繁殖
数量y(单位:百只)的数据,通过相关理论进行分析,知可用回归模型y=e1+at(a∈R)对y与t的关系进行拟合,则根据该回归模型,预测从第( )个月开始该物种的繁殖数量超过5000只(参考数据:
e3≈20.09,e4≈54.60)
第 个月 1 2 3
繁殖数量
A.4 B.5 C.6 D.7
【答案】C
【解析】由题意, 两边取自然对数得 ,令 ,则 .
, ,将数值代入回归直线,得 ,得 ,因此
,则 .
当 时, ;当 时, ;当 时, 从第6
个月开始,该物种的繁殖数量超过5000只.
故选:C
6.(2023·全国·高三专题练习)为了了解居家学习期间性别因素是否对学生体育锻炼的经常性有影响,某
校随机抽取了40名学生进行调查,按照性别和体育锻炼情况整理出如下的 列联表:
锻炼情况
性别 合计
不经常 经常
女生/人 14 7 21
男生/人 8 11 19
合计/人 22 18 40
注: 独立性检验中, .
常用的小概率值和相应的临界值如下表:
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
根据这些数据,给出下列四个结论:①依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性有影响;
②依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性没有影响;
③根据小概率值 的独立性检验,可以认为性别对体育锻炼的经常性有影响,这个推断犯错误的概
率不超过0.05;
④根据小概率值 的独立性检验,没有充分证据推断性别对体育锻炼的经常性有影响,因此可以认
为性别对体育锻炼的经常性没有影响.
其中,正确结论的序号是( )A.①③ B.①④ C.②③ D.②④
【答案】B
【解析】由表可知,女生有21人,其中经常锻炼的有7人,频率为 ,
男生有19人,其中经常锻炼的有11人,频率为 ,
因为 ,依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性有影响,故①正确,②错误;
,所以根据小概率值 的独立性检验,没有充分证据推断性
别对体育锻炼的经常性有影响,因此可以认为性别对体育锻炼的经常性没有影响,故④正确,③错误.
故选:B.
7.(2023·全国·高三专题练习)某工厂为了对研发的一种产品进行合理定价,将该产品按事先拟定的价格
进行试销,得到如下数据:
单价x元 9 9.2 9.4 9.6 9.8 10
销量y件 100 94 93 90 85 78
(附:对于一组数据(x,y),(x,y)…(xn,yn),其回归直线 的斜率的最小二乘估计值
1 1 2 2
为 参考数值: , );预计在今后的销售中,销量与单价
仍然服从这种线性相关关系,且该产品的成本是5元/件,为使工厂获得最大利润,该产品的单价应定为(
)A.9.4元 B.9.5元 C.9.6元 D.9.7元
【答案】B【解析】由题意
由
所以 ,则
设该产品的售价为 元,工厂的利润为 ,则
由
当且仅当 ,即 时等号成立.
所以 时,工厂的利润的最大为405元
故选:B
8.(2023·全国·高二专题练习)某公司为了解某产品的研发费x(单位:万元)对销售量y(单位:百
件)的影响,收集了该公司以往的5组数据,发现用函数模型 (e为自然对数的底数)拟合比较合
适.令 ,得到 ,经计算,x,z对应的数据如下表所示:
研发费x 5 8 12 15 20
4.5 5.2 5.5 5.8 6.5
则 ( ).A. B. C. D.
【答案】B
【解析】 , ,
所以, ,解得 ,所以 ,
又因为 ,所以 ,所以 ,
所以 .
故选:B.
二、选择题:本题共4小题,每小题5分,共20分。在每小题给出的选项中,有多项符合题目要求。全部
选对的得5分,部分选对的得2分,有选错的得0分。
9.(2023春·浙江·高三开学考试)下列结论中,正确的有( )
A.数据4,1,6,2,9,5,8的第60百分位数为5
B.若随机变量 ,则
C.已知经验回归方程为 ,且 ,则
D.根据分类变量X与Y的成对样本数据,计算得到 ,依据小概率值 的 独立性检验
,可判断X与Y有关联,此推断犯错误的概率不大于0.001
【答案】BC
【解析】数据4,1,6,2,9,5,8整理为1,2,4,5,6,8,9, ,则数据4,1,6,2,
9,5,8的第60百分位数为第五位数据6,所以选项A错误:
随机变量 ,则 ,所以选项B正确;
经验回归方程为 ,且 ,则 ,所以选项C正确;
根据分类变量X与Y的成对样本数据,计算得到 ,依据小概率值 的 独立性检验
,可判断X与Y有关联,此推断犯错误的概率大于0.001,所以选项D错误.
故选:BC.
10.(2023春·广东广州·高三统考阶段练习)下列命题正确的是( )
A.若甲、乙两组数据的相关系数分别为0.66和 ,则乙组数据的线性相关性更强;
B.在检验A与B是否有关的过程中,根据数据算得 ,已知 ,,则有99%的把握认为A与B有关;
C.已知随机变量X服从正态分布 ,若 ,则 ;
D.在回归分析中,残差平方和与决定系数 都可以用来刻画回归的效果,它们的值越小,则模型的拟合
效果越好.
【答案】AC
【解析】A:由 知:乙组数据的线性相关性更强,正确;
B:由 ,即 ,则有97.5%的把握认为A与B有关,错误;
C:由已知:随机变量X的分布曲线关于 对称,故 ,正确;
D:残差平方和越小,模型的拟合效果越好,但决定系数 越大,模型的拟合效果越好,错误.
故选:AC
11.(2023·全国·高三专题练习)2022年6月18日,很多商场都在搞促销活动.重庆市物价局派人对5个商
场某商品同一天的销售量及其价格进行调查,得到该商品的售价 元和销售量 件之间的一组数据如下表
所示:
10
90 95 100 110
5
11 10 8 6 5
用最小二乘法求得 关于 的经验回归直线是 ,相关系数 ,则下列说法正确的有
( )A.变量 与 负相关且相关性较强
B.
C.当 时, 的估计值为13
D.相应于点 的残差为
【答案】ABD
【解析】对A,由回归直线可得变量 , 线性负相关,且由相关系数 可知相关性强,故A正
确;对B,由题可得 , ,
故回归直线恒过点 ,故 ,即 ,故B正确;
对C,当 时, ,故C错误;
对D,相应于点 的残差 ,故D正确.
故选:ABD.
12.(2023·全国·高二专题练习)某市为了研究该市空气中的PM2.5浓度和 浓度之间的关系,环境监
测部门对该市空气质量进行调研,随机抽查了100天空气中的PM2.5浓度和 浓度(单位: ),
得到如下所示的2×2列联表:
PM2.5
64 16
10 10
经计算 ,则可以推断出( )
附:
0.050 0.010 0.001
3.841 6.635 10.828
A.该市一天空气中PM2.5浓度不超过 ,且 浓度不超过 的概率估计值是0.64
B.若2×2列联表中的天数都扩大到原来的10倍, 的观测值不会发生变化
C.有超过99%的把握认为该市一天空气中PM2.5浓度与 浓度有关
D.在犯错的概率不超过1%的条件下,认为该市一天空气中PM2.5浓度与 浓度有关【答案】ACD
【解析】补充完整列联表如下:
合计
PM2.5
64 16 80
10 10 20
合计 74 26 100
对于A选项,该市一天中,空气中PM2.5浓度不超过 ,且 浓度不超过 的概率估计
值为 ,故A正确;
对于B选项, ,故B不正确;
因为7.4844>6.635,根据临界值表可知,在犯错的概率不超过1%的条件下,即有超过99%的把握认为该市
一天空气中PM2.5浓度与 浓度有关,故C,D均正确.
故选:ACD.
三、填空题:本题共4小题,每小题5分,共20分。
13.(2023·高二课时练习)蟋蟀鸣叫的频率x(次/分)与气温y( )存在着较强的线性相关关系.某地
观测人员根据如表所示的观测数据,建立了y关于x的线性回归方程 ,则当蟋蟀每分钟鸣叫56
次时,该地当时的气温预报值为______.
x(次/分) 20 30 40 50 60
y( ) 25 27.5 29 32.5 36
【答案】
【解析】 , ,
故 ,解得 ,故 ,当 时, .
故答案为:14.(2023·高二课时练习)从2015年到2020年六年间我国公共图书馆业机构数与对应年份编号的散点图
如图所示(为便于计算,设2015年编号为1,2016年编号为2,…,2020年编号为6,把每年的公共图书
馆业机构数作为预报变量,把年份编号作为解释变量进行回归分析),并得到回归直线方程为
,其相关指数 ,则下列结论中正确的是______.(写出所有满足要求的结
论编号)
①公共图书馆业机构数与年份编号的正相关性较强;
②公共图书馆业机构数平均每年增加13.743;
③可预测2021年公共图书馆业机构数为3192.
【答案】①②③
【解析】因为相直线方程为 ,斜率为正数 ,相关指数 ,
所以,公共图书馆业机构数与年份编号的正相关性较强,故①正确;
公共图书馆业机构数平均每年增加13.743,故②正确;
当 时, ,故预测2021年公共图书馆业机构数为3192,③正确;
故答案为: ①②③
15.(2023·上海·高三专题练习)为了考察某种药物预防疾病的效果,进行动物试验,得到如下列联表:
疾病
药物 合计
未患病 患病
服用 a 50-a 50
未服用 80-a a-30 50
合计 80 20 100
若在本次考察中得出“在犯错误的概率不超过0.01的前提下认为药物有效”的结论,则a的最小值为___________(其中a≥40且a∈ )(参考数据: ≈2.58, ≈3.29)
参考公式
临界值表
0.02 0.01 0.00
0.50 0.40 0.25 0.15 0.10 0.05 0.001
5 0 5
0.45 0.70 1.32 2.07 2.70 3.84 5.02 6.63 7.87 10.82
5 8 3 2 6 1 4 5 9 8
【答案】46
【解析】由题意可得 ,
整理得: ,
所以 或 ,
解得: 或 ,
又因为a≥40且a∈ ,
所以 ,
所以a的最小值为46.
故答案为:46.
16.(2023秋·江西新余·高三统考期末)在新冠疫情政策改变后,某社区统计了核酸检测为阳性的人数,
用 表示天数, 表示每天核酸检测为阳性的人数,统计数据如下表所示:
1 2 3 4 5 6 7
2
6 11 34 66 101 196
1
根据散点图判断,核酸检测为阳性的人数 关于天数 的回归方程适合用 来表示,则其回归方程
为______.
参考数据:设 , , ,
参考公式:对于一组数据 , ,… .其回归直线 的斜率和截距的最小二乘估计公式分别为: ,
【答案】
【解析】由 ,可得 ,
设 ,则 ,
因为 , ,
,
所以 ,
,
所以 ,
所以 .
故答案为: .
四、解答题:本题共6小题,共70分。解答应写出文字说明、证明过程或演算步棸。
17.(10分)
(2023秋·陕西榆林·高二统考期末)某型号机床的使用年数x和维护费y有下表所示的统计数据:
x/年 2 3 4 5 6
y/万元 2.0 3.5 6.0 6.5 7.0
已知x与y线性相关.
(1)求y关于x的线性回归方程;
(2)某厂有一台该型号的机床,现决定当维护费达到15万元时,更换机床,请估计使用12年后,是否需要
更换机床?参考公式: , .
【解析】(1)由题意得 , ,
,
,
∴ , ,
∴y关于x的线性回归方程为: .
(2)由(1)得 ,
当 时, ,
∴估计使用12年后,需要更换机床.
18.(12分)
(2023春·甘肃天水·高三校考开学考试)2022年9月2日第十三届全国人民代表大会常务委员会第三十六
次会议通过《中华人民共和国反电信网络诈骗法》.某高校为了提高学生防电信网络诈骗的法律意识,举
办了专项知识竞赛,从竞赛成绩中随机抽取了100人的成绩,成绩数据如下表:
性别 [60, [70, [80, [90,
成绩 70) 80) 90) 100]
女生 8 10 16 6
男生 7 15 25 13
若学生的测试成绩大于等于80分,则“防电信诈骗意识强”,否则为“防电信诈骗意识弱”
(1)100人中男生、女生“防电信诈骗意识强”的频率分别是多少?
(2)根据上表数据,完成2×2列联表,能否有99%的把握认为“防电信诈骗意识强弱”有性别差异.
男生 女生 合计
防诈骗意识强
防诈骗意识弱合计
附:
P(
0.050 0.010 0.005
)
3.841 6.635 7.879
【解析】(1)男生“防电信诈骗意识强”的频率是 ,
女生“防电信诈骗意识强”的频率是 ;
(2)列联表如下:
男生 女生 合计
防诈骗意识强 38 22 60
防诈骗意识弱 22 18 40
合计 60 40 100
,
因此没有99%的把握认为“防电信诈骗意识强弱”有性别差异.
19.(12分)
(2023春·浙江绍兴·高三统考开学考试)原定于2022年9月在杭州举行的亚运会延期至2023年的9月,
据调查此次亚运会已签约145家赞助企业,亚运会赞助成为一项跨度时间较长的营销方式,为了解其中在
浙江地区的50家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对50家赞助企业进行
跟踪调查,其中每天线上销售时间不少于8小时的企业有30家,销售额不足50万元的企业有25家,统计
后得到如下 列联表:
销售额不少于50万元 销售额不足50万元 合计
线上销售时间不少于8小时 17 30
线上销售时间不足8小时
合计 50
(1)请完成上面的 列联表,并依据 的独立性检验,能否认为赞助企业每天的销售额与每天线上销售时间有关;
(2)(i)按销售额进行分层随机抽样,在线上销售时间不足8小时的赞助企业中抽取5家,求销售额不少于
50万元和销售额不足50万元的企业数;
(ii)从销售额不少于50万元的企业抽取2家时,设抽到每天线上销售时间不足8小时的企业数是 ,求
的分布列及期望值.
附:
参考公式: ,其中 .
【解析】(1)由题意完成列联表如下:
销售额不少于50万元 销售额不足50万元 合计
线上销售时间不少于8小时 17 13 30
线上销售时间不足8小时 8 12 20
合计 25 25 50
因为 ,所以不能认为赞助企业每天的销售额与每天线上销售时间有
关;
(2)(i)因为在线上销售时间不足8小时的赞助企业中抽取5家,
所以销售额不少于50万元的企业数为 ,
和销售额不足50万元的企业数 ;
(ii)根据列联表可知: ,
所以 的分布列如下:
0 1 2所以 .
20.(12分)
(2023春·河南·高三洛阳市第三中学校联考开学考试)抖音(TikTok)是由今日头条推出的一款短视频分
享APP,于2016年9月上线,是一个专注于年轻人音乐短视频创作分享的社区平台.抖音的出现是一把双
刃剑,可以鼓励人们表达、沟通和记录,让每一个人看见并连接更大的世界,但同时也出现部分网民长时
间沉迷刷抖音的现象,长时间刷抖音会影响用眼健康.为了解网民刷抖音的情况,某研究小组从抖音用户中
随机抽取100人,对其平均每天刷抖普的时长进行统计,得到统计表如下:
平均每天刷抖音的时长 不大于1小时 大于1小时且小于3小时 不少于3小时
人数(男) 20 25 6
人数(女) 20 15 14
该研究小组按照用户平均每天刷抖音时长将沉迷刷抖音程度分为重度、中度、轻度、若某人平均每天刷抖
音的时长不少于3小时则称为“重度沉迷”;平均每天刷抖音的时长大于1小时且小于3小时,叫称为
“中度沉迷”;平均每天刷抖音的时长不大于1小时,则称为“轻度沉迷”.
(1)根据调查数据,填写下面列联表,并根据数据判断是否有95%的把握认为性别与是否为“重度沉迷”刷
抖音有关系?
非“重度沉 “重度沉
合计
迷” 迷”
人数
(男)
人数
(女)
合计
(2)该研究小组为鼓励用户适度刷抖音,从这100名研究对象中按分层抽样的方式随机抽取20位,分别给
与“重度沉迷”“中度沉迷”和“轻度沉迷”的抖音用户50元、100元、150元的购书券奖励.现从这20
位抖音用户中随机抽取两人,求这两人所获得购书券总和X的分布列和期望.
附: ,其中 .0.15 0.10 0.05 0.025 0.010 0.001
2.072 2.706 3.841 5.024 6.635 10.828
【解析】(1)由图表可知,非“重度沉迷”的抖音用户男性有: (人),“重度沉迷”的抖
音用户男性有:6人;
非“重度沉迷”的抖音用户女性有: (人),“重度沉迷”的抖音用户女性有:14人
填写列联表如下:
非“重度沉 “重度沉
合计
迷” 迷”
人数
45 6 51
(男)
人数
35 14 49
(女)
合计 80 20 100
根据列联表中的数据计算可得 ,
因此有95%的把握认为性别与是否为“重度沉迷”刷抖音有关系.
(2)由表可知:“重度沉迷”的抖音用户有 (人),“中度沉迷”的抖音用户有
(人),“轻度沉迷”的抖音用户有 (人).
抽取的“重度沉迷”“中度沉迷”与“轻度沉迷”的抖音用户分别有 (人),
(人), (人),
X的所有可能取值为100,150,200,250,300,
则 ; ; ;
; .
所以X的分布列为:
X 100 150 200 250 300P
故购书券总和 的数学期望为
.
21.(12分)
(2023秋·辽宁辽阳·高三统考期末)宠物猫作为伴侣动物出现在越来越多的家庭中,但这也导致了流浪猫
群体的出现.流浪猫生存环境恶劣,常常出现健康问题,其中猫瘟就是一种对猫的生命威胁极大的传染性
疾病.某流浪猫救助组织,同时救助了4只精神状态不好的流浪猫,而精神状态不好的流浪猫感染猫瘟病
毒的概率为 .为检查这4只猫是否已感染该病毒,要对这4只猫的排泄物进行病毒检测,为节约检测成
本,宠物医院建议分组检测.检测方案如下:每2只为一组,样本混合后检测,若混合样本呈现阴性,则
提供样本的猫均未感染该病毒,若混合样本呈现阳性,则样本中至少有1只猫感染该病毒,就需对该组每
只猫分别单独检测一次.
(1)若按宠物医院提供的检测方案,记检测总次数为X,写出X的分布列,并分析是否应该接受这个建议.
(2)为预防猫瘟,市场研发相应疫苗,该疫苗连续“接种2针”或“接种3针”才能起到保护作用,某宠物
医院随机对接种该疫苗的100只猫作了数据跟踪,得到如下数据:这100只猫中共有12只抗体未达标,其
中只接种2针疫苗未达标的有8只,占只接种2针疫苗总数的 .
抗体达标数
抗体未达标数量
量
接种2针疫苗
接种3针疫苗
完成上面的列联表,试根据小概率值 的独立性检验,分析该疫苗“接种3针”是否比“接种2
针”有更好的保护作用(注:抗体达标才能具有保护作用).
附: .
0.05 0.010 0.005
3.84 6.63 7.88
【解析】(1)X可取的值为2,4,6,,
,
,
分布列为:
2 4 6
,
因为 ,所以出于节约检测成本的考虑,应该接受这个建议.
(2)列联表如下:
抗体达标数
抗体未达标数量
量
接种2针疫苗 32 8
接种3针疫苗 56 4
零假设为 :“接种3针”与“接种2针”独立,即保护作用没有差异.
因为 ,
所以根据小概率值 的独立性检验,我们推断 不成立,
又 ,
所以根据频率稳定于概率的原理,我们认为该疫苗“接种3针”比“接种2针”有更好的保护作用.
22.(12分)
(2023秋·内蒙古包头·高三统考期末)9年来,某地区第 年的第三产业生产总值 (单位:百万元)统计
图如下图所示.根据该图提供的信息解决下列问题.(1)在所统计的9个生产总值中任选2个,记其中不低于平均值的个数为 ,求 的分布列和数学期望
;
(2)由统计图可看出,从第6年开始,该地区第三产业生产总值呈直线上升趋势,试从第6年开始用线性回
归模型预测该地区第11年的第三产业生产总值.
(附:对于一组数据 , ,…, ,其回归直线 的斜率和截距的最小二乘法估
计分别为: , .
【解析】(1)依题知,9个生产总值的平均数为:
,
由此可知,不低于平均值的有3个,
所以 服从超几何分布,
,
所以 ,
,,
分布列为:
0 1 2
所以 ;
(2)由后面四个数据得:
, ,
,
,
所以 , ,
所以线性回归方程为 ,
当 时, ,
所以该地区第11年的第三产业生产总值约为