文档内容
班级 姓名 学号 分数
第八章 成对数据的统计分析(A 卷·知识通关练)
核心知识1:线性回归方程
1.(2023·江苏·泗阳县实验高级中学高二阶段练习)若某地的财政收入x与支出y满足线性回归方程
(单位:亿元),其中 , , .若今年该地区财政收入为10亿元,则年支
出预计不会超过________亿元.
【答案】10
【解析】由题意得财政收入x与支出y满足线性回归方程为 ,其中 ,
当 时, ,
因为 ,所以 ,
所以今年该地区财政收入为10亿元,则年支出预计不会超过10亿元,
故答案为:10
2.(2023·广东·五华县五华中学高二期中)已知下列命题:
①在线性回归模型中,相关指数 越接近于1,表示回归效果越好;
②两个变量相关性越强,则相关系数r就越接近于1;
③在回归直线方程 中,当解释变量 每增加一个单位时,预报变量 平均减少0.5个单位;
④两个模型中残差平方和越小的模型拟合的效果越好.
⑤回归直线 恒过样本点的中心 ,且至少过一个样本点;
⑥若 的观测值满足 ≥6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中
必有99人患有肺病;
⑦从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误. 其中
正确命题的序号是__________.
【答案】①③④⑦
【解析】在线性回归模型中,相关指数 越接近于1,表示回归效果越好,①正确;两个变量相关性越强,则相关系数r的绝对值就越接近于1,②错误;③正确;两个模型中残差平方和越小的模型拟合的效果越好,
④正确;回归直线 恒过样本点的中心 ,不一定过样本点,⑤错误;若 的观测值满足
≥6.635,我们有99%的把握认为吸烟与患肺病有关系,并不能说在100个吸烟的人中必有99人患有肺病,
⑥错误;从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误,
⑦正确.
故答案为①③④⑦.
3.(2023·全国·高二课时练习)对四对变量 与 进行线性相关检验,已知 是观测值组数, 是相关系
数,若已知① , ;② , ;③ , ;④ , ;则
变量 和 具有线性相关关系的是________.
【答案】①③
【解析】一般而言,当 ,则变量 和 具有较强的线性相关关系,
所以,①和③中变量 和 具有线性相关关系,②中相关系数的绝绝对值较小,
④中观察值的组数较少.
故答案为:①③.
4.(2023·全国·高二课时练习)某同学10次考试的物理成绩y与数学成绩x如下表所示.
7 8
数学成绩x 82 72 87 93 78 89 66 76
6 1
8 10 8
物理成绩y 87 75 a 79 93 68 77
0 0 5
已知y与x线性相关,且y关于x的回归直线方程为 ,则下列说法正确的是________.(参考数
据: )
① ;②y与x正相关;③y与x的相关系数为负数;④若数学成绩每提高5分,则物理成绩估计能提
高5.5分.
【答案】①②④
【解析】对于①,因为 ,
,y关于x的回归直线方程为 ,所以 ,解得 ,所以①正确,
对于②,因为回归方程 中的 ,所以y与x正相关,所以②正确,
对于③,因为回归方程 中的 ,所以y与x的相关系数为正数,所以③错误,
对于④,由于y关于x的回归直线方程为 ,所以当数学成绩每提高5分,则物理成绩估计能提
高 分,所以④正确,
故答案为:①②④
5.(2023·全国·高二课时练习)将两个变量x、y的n对样本数据 , , ,…,
在平面直角坐标系中表示为散点图,根据x、y满足一元线性回归模型及最小二乘法,求得其经验
回归方程为 .设 为回归直线上的点,则下列说法正确的是________.
① 越小,说明模型的拟合效果越好;
②利用最小二乘法求出的线性回归直线一定经过散点图中的某些点;
③相关系数r的绝对值越接近于1,说明成对样本数据的线性相关程度越强;
④通过经验回归方程进行预报时,解释变量的取值不能距离样本数据的范围太远,求得的预报值不是响应
变量的精确值.
【答案】③④
【解析】对于①,对于线性回归方程,用相关系数来刻画回归效果,并非 越小,模型的拟合效
果就越好,所以①错误,
对于②,利用最小二乘法求出的线性回归直线有可能不经过散点图中的所有点,所以②错误,
对于③,相关系数r的绝对值越接近于1,说明成对样本数据的线性相关程度越强,所以③正确,
对于④,若解释变量的取值超出样本数据范围太多,则导致预报值准确度降低,得到预报值已不是准确值,
所以④正确,
故答案为:③④
6.(2023·陕西·宝鸡市金台区教育体育局教研室高二期末(理))如图是某采矿厂的污水排放量 单位:
吨 与矿产品年产量 单位:吨 的折线图:(1)依据折线图计算相关系数 精确到 ,并据此判断是否可用线性回归模型拟合y与x的关系? 若
,则线性相关程度很高,可用线性回归模型拟合
(2)若可用线性回归模型拟合 与 的关系,请建立 关于 的线性回归方程,并预测年产量为10吨时的污
水排放量.
相关公式: ,参考数据: .
回归方程 中,
【解析】(1)由折线图得如下数据计算得:
, , ,
所以相关系数 ,
因为 ,所以可用线性回归模型拟合y与x的关系
(2)
,
所以回归方程为 ,
当 时, ,所以预测年产量为10吨时的污水排放量为 吨
7.(2023·安徽·高二期末)为了解温度对物质 参与的某种化学反应的影响,研究小组在不同温度条件下
做了四次实验,实验中测得的温度x(单位:°C)与 的转化率y% (转化率= )的数据如下
表所示:
x 45 55 65 75
y 23 38 65 74
(1)求y与x的相关系数(结果精确到0.01);
(2)该研究小组随后又进行了一次该实验,其中 的起始量为50 g,反应结束时还剩余2.5 g,若已知y关于
x的线性回归方程为 ,估计这次实验是在多少摄氏度的温度条件下进行的..
参考数据: , , , .
参考公式:相关系数
【解析】(1) ,
所以
;
(2)根据回归直线的性质, ,即 ,得 .
由条件可知 ,
令 ,得 ,
因此估计这次实验是在85°C的温度条件下进行的.
8.(2023·江西吉安·高二期末(理))防疫抗疫,人人有责,随着奥密克戎的全球肆虐,防疫形势越来越严峻,防疫物资需求量急增.下表是某口罩厂今年的月份 与订单 (单位:万元)的几组对应数据:
月份 1 2 3 4 5
订单
20 24 43 52
(1)求 关于 的线性回归方程,并估计6月份该厂的订单数;
(2)求相关系数 (精确到0.01),说明 与 之间具有怎样的相关关系.
参考数据: , , . , .参考公式:相关系数
;回归直线的方程是 ,其中 .
【解析】(1)由题可得: ,
,
,
关于 的线性回归方程为 ,
2022年6月对应的变量为6,将 代入 ,
得 ,
估计6月份该厂的订单数为59.9万元.
(2)相关系数 .
与 之间具有很强的正相关关系.9.(2023·江西·南昌十五中高二阶段练习(文))近些年来,短视频社交软件日益受到追捧,用户可以通
过软件选择歌曲,拍摄音乐短视频,创作自己的作品.某用户对自己发布的视频个数x与收到的点赞个数之
和y之间的关系进行了分析研究,得到如下数据:
x 3 4 5 6 7
4 6
y 50 65 70
5 0
(1)计算x,y的相关系数r(计算结果精确到0.01),并判断是否可以认为发布的视频个数与收到的点赞数
之和的相关性很强;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程.
参考公式: , , .参考数据:
, .
【解析】(1)因为 , ,
所以 , .
因为 ,所以
所以 ,
由此可以认为发布的视频个数与收到的点赞数之和的相关性很强.
(2)由(1)知 , ,
所以 .
因为 ,所以y关于x的线性回归方程为 .
核心知识2:非线性回归方程
10.(2023·全国·高二专题练习)根据党的“扶贫同扶志、扶智相结合”精准扶贫、精准脱贫政策,中国
儿童少年基金会为了丰富留守儿童的课余文化生活,培养良好的阅读习惯,在农村留守儿童聚居地区捐建
“小候鸟爱心图书角”.2016年某村在寒假和暑假组织开展“小候鸟爱心图书角读书活动”,号召全村少
年儿童积极读书,养成良好的阅读习惯,下表是对2016年以来近5年该村庄100位少年儿童的假期周人均
读书时间的统计:
年份 2016 2017 2018 2019 2020
年份代码 1 2 3 4 5
每周人均读书时间 (小
1.3 2.8 5.7 8.9 13.8
时)
现要建立 关于 的回归方程,有两个不同回归模型可以选择,模型一: ;模型二: ,即
使画出 关于 的散点图,也无法确定哪个模型拟合效果更好,现用最小二乘法原理,已经求得模型一的
方程为 .
(1)请你用最小二乘法原理,结合下面的参考数据及参考公式求出模型二的方程(计算结果保留到小数点后
一位);
(2)用计算残差平方和的方法比较哪个模型拟合效果更好,已经计算出模型一的残差平方和为
.
附:参考数据: ,其中 , .
参考公式:对于一组数据 , ,…, ,其回归直线 的斜率和截距的最小二乘法估计公式分别为 , .
【解析】(1)令 ,则模型二可化为 关于 的线性回归问题,则
, ,
则由参考数据可得 ,
,
则模型二的方程为 ;
(2)由模型二的回归方程可得, ,
, , ,
,
∴ ,
故模型二的拟合效果更好.
11.(2023·全国·高二专题练习)某市一中学课外活动小组为了研究经济走势,对该市1994—2016年的
GDP(国内生产总值)相关数据进行了初步处理,得到下面的散点图及一些统计量的值.12 113.7 3.9 2.24 1012
15 17840 212.52 1699.6
其中 , , , , , , ,
.
(1)根据散点图判断, , 与 哪一个适合作为该市GDP值y关于年份代码x的
回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)试预测该市2018年的GDP值.
参考公式: , .
【解析】(1)散点图可以判断, 适宜作为该市GDP值y关于年份代码x的回归方程类型.
(2)已知 ,则 ,所以 .
所以 ,
.
所以z关于x的回归方程为 ,
所以y关于x的回归方程为 .
(3)由(2)可知, .所以当 时, .
所以预测该市2018年的GDP值为757.482亿元.
12.(2023·全国·高二专题练习)某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每
件产品的非原料成本 (元)与生产该产品的数量 (千件)有关,经统计得到如下数据:
x 1 2 3 4 5 6 7 8
y 56.5 31 22.75 17.8 15.95 14.5 13 12.5
根据以上数据绘制了散点图观察散点图,两个变量间关系考虑用反比例函数模型 和指数函数模型
分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为 ,
与x的相关系数 .
(1)用反比例函数模型求y关于x的回归方程;
(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.001),并用其估计产量为10千件时每件
产品的非原料成本;
(3)根据企业长期研究表明,非原料成本y服从正态分布 ,用样本平均数 作为 的估计值 ,用
样本标准差s作为 的估计值 ,若非原料成本y在 之外,说明该成本异常,并称落在
之外的成本为异样成本,此时需寻找出现异样成本的原因.利用估计值判断上述非原料成本数
据是否需要寻找出现异样成本的原因?
参考数据(其中 ):0.34 0.115 1.53 184 5777.555 93.06 30.705 13.9
参考公式:对于一组数据 ,其回归直线 的斜率和截距的最小二乘估计
公式分别为: , ,相关系数 .
【解析】(1)令 ,则 可转化为 ,
因为 ,
所以 ,
所以 ,所以 ,
所以y关于x的回归方程为
(2) 与 的相关系数为
因为 ,所以用反比例函数模型拟合效果更好,
把 代入回归方程得 (元),
所以产量为10千件时每件产品的非原料成本约为11元
(3)因为 ,所以 ,因为样本标准差为 ,
所以 ,
所以非原料成本y服从正态分布 ,
所以
因为 在 之外,所以需要此非原料成本数据寻找出现异样成本的原因
13.(2023·全国·高二专题练习)我国为全面建设社会主义现代化国家,制定了从2021年到2025年的
“十四五”规划某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了
了解年研发资金投入额x(单位:亿元)对年盈利额y(单位:亿元)的影响,研究了“十二五”和“十三五”
规划发展期间近10年年研发资金投入额 和年盈利额 的数据通过对比分析,建立了两个函数模型:①
,② ,其中 均为常数,e为自然对数的底数.令 ,
经计算得如下数据:
26 215 65 2 680 5.36
11250 130 2.6 12
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)(i)根据(1)的选择及表中数据,建立y关于x的回归方程;(系数精确到0.01)
(ii)若希望2021年盈利额y为200亿元,请预测2021年的研发资金投入额x为多少亿元?(结果精确到
0.01)
附:①相关系数 ,回归直线 中: , ;
②参考数据: .【解析】(1)设 和 的相关系数为 和 的相关系数为 ,由题意,
,
,
则 ,因此从相关系数的角度,模型 的拟合程度更好.
(2)(i)先建立ν关于x的线性回归方程,
由 ,得 ,即 ,
,
,
所以v关于x的线性回归方程为 ,
所以 ,则 .
(ii)2021年盈利额 (亿元),
所以2021年的研发资金投入量约为26.32亿元.
14.(2023·全国·高二专题练习)某公司在市场调查中,发现某产品的单位定价 (单位:万元/吨)对月销
售量 (单位:吨)有影响.对不同定价 和月销售量 数据作了初步处理,
0.24 43 9 0.164 820 68 3956
表中 .经过分析发现可以用 来拟合 与 的关系.(1)求 关于 的回归方程;
(2)若生产 吨产品的成本为 万元,那么预计价格定位多少时,该产品的月利润取最大值,求此时的
月利润.
附:对于一组数据 , ,…, ,其回归直线线 的的斜率和截距的最小二乘估
计分别为: , .
【解析】(1)令 ,则 ,
则 ,
,
∴ ,
(2)月利润
(当且仅当 即 时取等号)
答:(1) 关于 的回归方程为 ;
(2)预计价格定位 万元/吨时,该产品的月利润取最大值,最大值为 万元.
15.(2023春·江西·高三校联考阶段练习)数据显示中国车载音乐已步入快速发展期,随着车载音乐的商
业化模式进一步完善,市场将持续扩大,下表为2018—2022年中国车载音乐市场规模(单位:十亿元),
其中年份2018—2022对应的代码分别为1—5.
年份代码x 1 2 3 4 5
车载音乐市场规模y 2.8 3.9 7.3 12.0 17.0(1)由上表数据知,可用指数函数模型 拟合y与x的关系,请建立y关于x的回归方程(a,b的值
精确到0.1);
(2)综合考虑2023年及2024年的经济环境及疫情等因素,某预测公司根据上述数据求得y关于x的回归方
程后,通过修正,把 作为2023年与2024年这两年的年平均增长率,请根据2022年中国车载音乐市
场规模及修正后的年平均增长率预测2024年的中国车载音乐市场规模.
参考数据:
1.94 33.82 1.7 1.6
其中 , .
参考公式:对于一组数据 , ,…, ,其回归直线 的斜率和截距的最小二乘
估计公式分别为 , .
【解析】(1)因为 ,所以两边同时取常用对数,得 ,设 ,所以
,设 ,
因为 ,所以
,
所以
所以所以
(2)由题意知2023年与2024年这两年的年平均增长率 ,
2022年中国车载音乐市场规模为1.7,
故预测2024年的中国车载音乐市场规模 (十亿元).
16.(2023·广西南宁·高三南宁二中校考期末)2020年,是人类首次成功从北坡登顶珠峰60周年,也是中
国首次精确测定并公布珠峰高程的45周年.华为帮助中国移动开通珠峰峰顶5G,有助于测量信号的实时开
通,为珠峰高程测量提供通信保障,也验证了超高海拔地区5G信号覆盖的可能性,在持续高风速下5G信
号的稳定性,在条件恶劣地区通过简易设备传输视频信号的可能性.正如任总在一次采访中所说:“华为公
司价值体系的理想是为人类服务.”有人曾问,在珠峰开通5G的意义在哪里?“我认为它是科学技术的一次
珠峰登顶,告诉全世界,华为5G、中国5G的底气来自哪里.现在,5G的到来给人们的生活带来更加颠覆
性的变革,某IT公司基于领先技术的支持,5G经济收入在短期内逐月攀升,该IT公司在1月份至6月份
的5G经济收入y(单位:百万元)关于月份x的数据如下表所示,并根据数据绘制了如图所示的散点图.
月份x 1 2 3 4 5 6
收入y(百万元) 6.6 8.6 16.1 21.6 33.0 41.0
(1)根据散点图判断, 与 (a,b,c,d均为常数)哪一个更适宜作为5G经济收入y关于
月份x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的结果及表中的数据,求出y关于x的回归方程,并预测该公司7月份的5G经济收入.(结果
保留小数点后两位)
(3)从前6个月的收入中抽取2个,记收入超过20百万元的个数为X,求X的分布列和数学期望.参考数据:3.50 21.15 2.85 17.70 125.35 6.73 4.57 14.30
其中,设 (i=1,2,3,4,5,6).
参考公式:对于一组具有线性相关关系的数据( , )(i=1,2,3,…,n),其回归直线 的
斜率和截距的最小二乘估计公式分别为 , .
【解析】(1)根据散点图判断, 更适宜作为5G经济收入y关于月份x的回归方程类型;
(2)因为 ,所以两边同时取常用对数,得 ,设 ,所以 ,因为
,所以
所以 .
所以 ,即 ,所以 .
令 ,得 ,
故预测该公司7月份的5G经济收入大约为65.35百万元.
(3)前6个月的收入中,收入超过20百万元的有3个,所以X的取值为0,1,2,
所以X的分布列为:
0 1 2
P
所以 .核心知识3:独立性检验
17.(2023·高二课时练习)某中学为调查高一年级学生的选科倾向,随机抽取了300人,其中选考物理的
有220人,选考历史的有80人,统计各选科人数如表所示,则下列说法中正确的是( ).
选择科目
选考类别
思想政
地理 化学 生物
治
物理类 80 100 145 115
历史类 50 45 30 35
参考数据: ,其中 .
附表:
0.10 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
A.选考物理类的学生中选择政治的比例比选考历史类的学生中选择政治的比例高
B.选考物理类的学生中选择地理的比例比选考历史类的学生中选择地理的比例高
C.参照附表,根据小概率值 的独立性检验,我们认为选择生物与选考类别无关
D.参照附表,根据小概率值 的独立性检验,我们认为选择生物与选考类别有关
【答案】C
【解析】对于A项, , ,显然 ,故A项错误;
对于B项,因为 , ,所以 ,故B项错误;
对于C项,
根据已知,可列出 列联表
选择生物 不选择生物 合计
物理类 115 105 220
历史类 35 45 80
合计 150 150 300,
所以根据小概率值 的独立性检验,我们认为选择生物与选考类别无关,故C项正确;
对于D项,根据C项可知,D项错误.
故选:C.
18.(2023·高二课时练习)疫苗是为预防、控制传染病的发生、流行,用于人体预防接种的预防性生物制
品,其前期研发过程中,一般都会进行动物保护测试,为了考察某种疫苗的预防效果,在进行动物试验时,
得到如下统计数据:
发
未发病 总计
病
未注射疫苗 30
注射疫苗 40
总计 70 30 100
现从试验动物中任取一只,取得“注射疫苗”的概率为0.5,则下列判断中错误的是( ).A.注射疫苗
发病的动物数为10
B.某个发病的小动物为未注射疫苗动物的概率为
C.能在犯错概率不超过0.005的前提下认为疫苗有效
D.该疫苗的有效率约为80%
【答案】C
【解析】由题意,“注射疫苗”与“未注射疫苗”的动物分别为50,故完善表格如下:
发
未发病 总计
病
未注射疫苗 30 20 50
注射疫苗 40 10 50
总计 70 30 100
由表格可知,A正确;
某个发病的小动物为未注射疫苗动物的概率为 ,故B正确;,故C错误;
注射疫苗的50个动物中,未发病的概率约为 ,故D正确.
故选:C.
19.(2023·全国·高三专题练习)四川省将从2022年秋季入学的高一年级学生开始实行高考综合改革,高
考采用“3+1+2”模式,其中“1”为首选科目,即物理与历史二选一.某校为了解学生的首选意愿,对部分高
一学生进行了抽样调查,制作出如下两个等高条形图,根据条形图信息,下列结论正确的是( )
A.样本中选择物理意愿的男生人数少于选择历史意愿的女生人数
B.样本中女生选择历史意愿的人数多于男生选择历史意愿的人数
C.样本中选择物理学科的人数较多
D.样本中男生人数少于女生人数
【答案】C
【解析】根据等高条形图图1可知样本中选择物理学科的人数较多,故C正确;
根据等高条形图图2可知样本中男生人数多于女生人数,故D错误;
样本中选择物理学科的人数多于选择历史意愿的人数,而选择物理意愿的男生比例高,选择历史意愿的女
生比例低,
所以样本中选择物理意愿的男生人数多于选择历史意愿的女生人数,故A错误;
样本中女生选择历史意愿的人数不一定多于男生选择历史意愿的人数,故B错误.
故选:C.
20.(2023·全国·高二专题练习)假设2个分类变量 和 的 列联表如下:
合计
a 10c 30
合计 40 100
对于同一样本,以下数据能说明 和 有关系的可能性最大的一组是( )
A. , B. ,
C. , D. ,
【答案】B
【解析】 ,
根据 列联表和独立性检验的相关知识,知当 , 一定时, , 相差越大,
与 相差就越大, 就越大,即 和 有关系的可能性越大,
结合选项,知B中 与其他选项相比相差最大.
故选:B.
21.(2023·陕西咸阳·武功县普集高级中学统考一模)某学校为研究高三学生的身体素质与体育锻炼时间
的关系,对该校400名高三学生(其中女生220名)平均每天体育锻炼时间进行调查,得到下表:
平均每天锻炼时间(分
钟)
人数 40 72 88 100 80 20
将日平均体育锻炼时间在40分钟以上的学生称为“锻炼达标生”,调查知女生有40人为“锻炼达标生”.
(1)完成下面2×2列联表,试问:能否有99.9%以上的把握认为“锻炼达标生”与性别有关?
锻炼达标生 锻炼不达标 合计
男
女
合计 400
附: ,其中 .0.100 0.050 0.010 0.001
2.706 3.841 6.635 10.828
(2)在“锻炼达标生”中用分层抽样方法抽取10人进行体育锻炼体会交流,再从这10人中选2人作重点发
言,记这2人中女生的人数为X,求X的分布列和数学期望.
【解析】(1)补充完整的2×2列联表如下:
锻炼达标生 锻炼不达标 合计
男 60 120 180
女 40 180 220
合
100 300 400
计
∵ ,
∴有99.9%以上的把认为“锻炼达标生”与有关.
(2)“锻炼达标生”中男女人数之比为60:40=3:2,抽取的男生有6,女生有4人,
易知X=0,1,2, , , ,
X的分布列为:
X 0 1 2
P
.
22.(2023·山东日照·高二统考期末)某中学在该校高一年级开设了选修课《中国数学史》,经过一年的
学习,为了解同学们在数学史课程的学习后学习数学的兴趣是否浓厚,该校随机抽取了 名高一学生进
行调查,得到统计数据如下:
对数学兴趣浓
对数学兴趣薄弱 合计
厚
选学了《中国数学史》
未选学《中国数学史》合计
(1)求 列联表中的数据 的值,并确定能否有 的把握认为对数学兴趣浓厚与选学《中国
数学史》课程有关;
(2)在选学了《中国数学史》的 人中按对数学是否兴趣浓厚,采用分层随机抽样的方法抽取 人,再从
人中随机抽取 人做进一步调查.若初始总分为 分,抽到的 人中,每有一人对数学兴趣薄弱减 分,
每有一人对数学兴趣浓厚加 分.设得分结果总和为 ,求 的分布列和数学期望.
附:
0.150 0.100 0.050 0.025 0.010
2.072 2.706 3.841 5.024 6.635
【解析】(1)由题意得: , , , .
则 ,
所以,有 的把握认为对数学兴趣浓厚与选学数学史课程有关
(2)在选学了数学史的120人中按对数学是否兴趣浓厚,采用分层随机抽样的方法抽取12人,可知其中
对数学兴趣浓厚有10人,对数学兴趣薄弱有2人,再从12人中抽取3人,当这3人中恰有2人对数学兴趣
薄弱时, ;当这3人中恰有1人对数学兴趣薄弱时, ;当这3人都对数学兴趣浓厚时,
;故: , ,
所以 的分布列为:
10 13 16
的数学期望为: .
23.(2023·浙江绍兴·高三统考期末)从某学校获取了容量为200的有放回简单随机样本,将所得数学和
语文期末考试成绩的样本观测数据整理如下:语文成绩
数学成绩 合计
不优
优秀
秀
不优秀 80 40 120
优秀 40 40 80
合计 120 80 200
(1)依据 的独立性检验能否认为数学成绩与语文成绩有关联?
(2)从200个样本中任取3个,记这3人中语文数学成绩至少一门优秀的人数为 ,求 的分布列与期望.
附:
参考公式: ,其中 .
【解析】(1)根据表格计算可得:
所以依据 的独立性检验,即认为数学成绩与语文成绩有关联;
(2)语文数学成绩至少一门优秀的概率为 ,
因为 的取值可能为 ,
,
,
所以 的分布列为:于是, .
24.(2023春·全国·高三校联考开学考试)2023年元旦,某鞋店搞促销,进行降价销售,在该天累计到店
的人员有100人.经评估后将到店人员分为购买组和观察组,统计到店人员的分布如下表:
60岁以下 60岁及以上 总计
购买组的人数 20 10 30
观察组的人数 60 10 70
总计 80 20 100
(1)是否有 的把握认为到店人员是否购买与年龄有关?
(2)现从购买组的人中按分层抽样的方法(各层按比例分配)抽取6人,再从这6人中随机抽取2人,求这
2人全部为60岁以下的概率.
参考公式: ,其中 .
0.15 0.10 0.05 0.025 0.010 0.001
2.072 2.706 3.841 5.024 6.635 10.828
【解析】(1)根据公式,得
,
故有 的把握认为到店人员是否购买与年龄有关.
(2)现从购买组的人中按分层抽样方法(各层按比例分配)抽取6人,其中60岁以下的人数为 ,
分别设为a,b,c,d;60岁及以上的人数为 ,分别设为A,B.
从这6人中迶机抽取2人的所有可能的结果为 , , , , , , ,
, , , , , , , ,共15种,
其中2人全部为60岁以下的结果有 , , , , , ,共6种,所以这2人全部为60岁以下的概率为 .
核心知识4:统计的综合应用
25.(2023·河南·长葛市第一高级中学统考模拟预测)相关统计数据显示,中国经常参与体育锻炼的人数
比例为37.2%,城乡居民达到《国民体质测定标准》合格以上的人数比例达到90%以上.某市一健身连锁
机构对其会员进行了统计,制作成如下两个统计图,图1为会员年龄分布图(年龄为整数),图2为会员
一个月内到健身房次数分布扇形图.
若将会员按年龄分为“年轻人”(20岁-39岁)和“非年轻人”(19岁及以下或40岁及以上)两类,将一
个月内到健身房锻炼16次及以上的会员称为”健身达人”,15次及以下的会员称为“健身爱好者”,且
已知在“健身达人”中有 是“年轻人”.
(1)现从该健身连锁机构会员中随机抽取一个容量为100的样本,根据图的数据,补全下方2×2列联表,并
判断是否有95%的把握认为“健身达人”与年龄有关?
年轻人 非年轻人 合计
健身达人
健身爱好
者
合计
附:
0.10 0.05 0.025 0.010 0.005 0.001
2.706 3.841 5.024 6.635 7.879 10.828(2)将(1)中相应的频率作为概率,该健身连锁机构随机选取3名会员进行回访,设3名会员中既是“年
轻人”又是“健身达人”的人数为随机变量X,求X的分布列和数学期望.
【解析】(1)根据年轻人标准结合图1可得年轻人占比为80%,则年轻人人数为100 80%=80,
则非年轻人为20人,
根据图2表格得健身达人所占比60%,所以其人数为100 60%=60,根据其中年轻人占比 ,
所以健身达人中年轻人人数为 ,则非年轻人为10人;
健身爱好者人数为100-60=40,再通过总共年轻人合计为80人,则健身爱好者中年轻人人数为80-50=30,
根据非年轻人总共为20人,则健身爱好者中非年轻人人数为20-10=10,
所以列联表为
年轻人 非年轻人 合计
健身达人 50 10 60
健身爱好者 30 10 40
合计 80 20 100
,
所以没有95%的把握认为“健身达人”与年龄有关.
(2)由(1)知,既是年轻人又是健身达人的概率为 ,
则随机变量X满足二项分布 , ,
, ,
,
故X的分布列:X 0 1 2 3
P
则 的数学期望为 .
26.(2023·全国·高三专题练习)某工厂为了提高生产效率,对生产设备进行了技术改造,为了对比技术
改造后的效果,采集了技术改造前后各 次连续正常运行的时间长度(单位:天)数据,整理如下:
改造前: ;
改造后: .
(1)完成下面的列联表,并依据小概率值 的独立性检验,分析判断技术改造前后的连续正常运行
时间是否有差异?
设备连续正常运行天数
技术改造 合计
超过 不超过
改造前
改造后
合计
(2)工厂的生产设备的运行需要进行维护,工厂对生产设备的生产维护费用包括正常维护费和保障维护费两
种,对生产设备设定维护周期为 天(即从开工运行到第 天, )进行维护,生产设备在一个生
产周期内设置几个维护周期,每个维护周期相互独立.在一个维护周期内,若生产设备能连续运行,则只产
生一次正常维护费,而不会产生保障维护费;若生产设备不能连续运行,则除产生一次正常维护费外,还
产生保障维护费,经测算,正常维护费为 万元/次,保障维护费第一次为 万元/周期,此后每增加一
次则保障维护费增加 万元.现制定生产设备一个生产周期(以 天计)内的维护方案: ,
.以生产设备在技术改造后一个维护周期内能连续正常运行的频率作为概率,求一个生产周期内
生产维护费的分布列及均值.(其中 )
【解析】(1)列联表为:
设备连续正常运行天数
技术改造 合计
超过 不超过
改造前
改造后
合计
零假设 :技术改造前后的连续正常运行时间无差异.
,
依据小概率值 的独立性检验分析判断 不成立,
即技术改造前后的连续正常运行时间有差异;
(2)由题知,生产周期内有4个维护周期,一个维护周期为30天,
一个维护周期内,生产线需保障维护的概率为 ,
设一个生产周期内需保障维护的次数为 ,则 ,
一个生产周期内的正常维护费为 万元,保障维护费为 万元,
一个生产周期内需保障维护 次时的生产维护费为 万元,
设一个生产周期内的生产维护费为 ,则 的所有可能取值为 ,所以, 的分布列为
一个生产周期内生产维护费的均值为 万元.
27.(2023·全国·高三专题练习)足球是一项大众喜爱的运动.2022卡塔尔世界杯揭幕战将在2022年11月
21日打响,决赛定于12月18日晚进行,全程为期28天.
(1)为了解喜爱足球运动是否与性别有关,随机抽取了男性和女性各100名观众进行调查,得到2 2列联表
如下:
喜爱足球运
不喜爱足球运动 合计
动
男性 60 40 100
女性 20 80 100
合计 80 120 200
依据小概率值a=0.001的独立性检验,能否认为喜爱足球运动与性别有关?
(2)校足球队中的甲、乙、丙、丁四名球员将进行传球训练,第1次由甲将球传出,每次传球时,传球者都
等可能的将球传给另外三个人中的任何一人,如此不停地传下去,且假定每次传球都能被接到.记开始传
球的人为第1次触球者,第 次触球者是甲的概率记为 ,即 .(i)求 (直接写出结果即可);
(ii)证明:数列 为等比数列,并判断第19次与第20次触球者是甲的概率的大小.
【解析】(1)假设 :喜爱足球运动与性别独立,即喜爱足球运动与性别无关.
根据列联表数据,经计算得
根据小概率值 的独立性检验,我们推断 不成立,
即认为喜爱足球运动与性别有关,此推断犯错误的概率不超过0.001.
(2)(i)由题意得:第二次触球者为乙,丙,丁中的一个,第二次触球者传给包括甲的三人中的一人,
故传给甲的概率为 ,故 .
(ii)第 次触球者是甲的概率记为 ,则当 时,第 次触球者是甲的概率为 ,
第 次触球者不是甲的概率为 ,
则 ,
从而 ,
又 , 是以 为首项,公比为 的等比数列.
则 ,
∴ , ,
,故第19次触球者是甲的概率大
28.(2023·全国·高三专题练习)某厂计划购买 台机床,该种机床使用四年后即被淘汰,并且在使用过程中机床有一易损零件,若在购进机床同时额外购买这种易损零件作为备用件,此时每个只需 元.在
使用期间如果备件不足再购买,则每个要 元.所以在购买前要决策购买数目.使得该厂购买机床时搭
配的易损备用零件费用最省.为此业内相关人员先搜集了 台以往这种机床在四年内更换的易损零件数,
并整理数据后得如下柱状图.
以这 台机床更换的易损零件数的频率代替每台机床更换的易损零件数发生的概率.记 表示 台机床四
年内实际共需更换的易损零件数, 表示购买 台机床的同时备用的易损零件数目, 为购买机床
时备用件数 发生的概率.
(1)求 时 的最小值;
(2)求 的分布列及备用的易损零件数 时 的数学期望;
(3)将购买的机床分配给 名年龄不同(视技术水平不同)的人加工一批模具,因熟练程度不同而加工
出的产品数量不同,故产生的经济效益也不同.若用变量 表示不同技工的年龄,变量 为相应的效益值
(元),根据以往统计经验,他们的每日工作效益满足最小二乘法和 关于 的线性回归方程 ,
已知他们年龄 的方差为 ,所对应的效益方差为 .
①试预测年龄为 岁的技工使用该机床每日所产生的经济效益;
②试根据 的值判断使用该批机床的技工人员所产生的效益与技工年龄的相关性强弱.
附:下面三个计算回归直线方程 的斜率 和截距 及表示随机变量 与 相关关系强弱的系数计算公式: , .
【解析】(1)根据图示柱表,易知更换易损零件的频数为 的频率为 .易损零件的频数为 的
频率为 .
将频率视为概率,且知每台机床易损零件的发生与否是相互独立的,结合图表得:
当 时, ;
当 时, ;
当 时, ;
当 时, .
据互斥事件发生的概率知 ;
.
于是 的最小值为 ;
(2)由(1)进而知,随机变量 的可能取值为: 、 、 、 、 、 ,
当 时, ;
当 时, ;
当 时, .
于是分布列为:
进而结合(1)知,当备用的易损零件数 时, 随机变量取值为 、 、 、 、 、 ,需注
意的是,虽备用的易损零件数 时,但发生的概率仍按实际需要的 台机床时计算.则购买易损零件所产生的实际费用数学期望为
(元);
(3)①先根据回归方程易知 (元),即 岁的技工日使用该机床产生的效益为
元;
② 由方差计算公式知 ,
即等价化为 ,
同理 .
又 , , ,据公式求出相关系数 则有
.
易知:该机床的技工所产生的日经济效益与技工的年龄具有非常强的相关关系.
29.(2023·全国·高三专题练习)某种疾病可分为Ⅰ、Ⅱ两种类型.为了解该疾病类型与性别的关系,在
某地随机抽取了患该疾病的病人进行调查,其中男性人数为z,女性人数为2z,男性患Ⅰ型病的人数占男
性病人的 ,女性患Ⅰ型病的人数占女性病人的 .
(1)完成下面的2×2列联表.若在犯错误的概率不超过0.05的前提下认为“所患疾病类型”与“性别”有关,
则男性患者至少有多少人?
Ⅰ型 Ⅱ型
合计
病 病
男女
合计
(2)某药品研发公司欲安排甲、乙两个研发团队来研发此疾病的治疗药物,两个团队各至多安排2个接种周
期进行试验,每人每次接种花费 元.甲团队研发的药物每次接种后产生抗体的概率为p,根据以
往试验统计,甲团队平均花费为 ;乙团队研发的药物每次接种后产生抗体的概率为q,每个周
期必须完成3次接种,若一个周期内至少出现2次抗体,则该周期结束后终止试验,否则进入第二个接种
周期.假设两个研发团队每次接种后产生抗体与否均相互独立.若 ,从两个团队试验的平均花费考
虑,该公司应选择哪个团队进行药品研发?
【解析】(1)2×2列联表如下:
Ⅰ型 Ⅱ型
合计
病 病
男 z
女 2z
合计 3z
要使在犯错误的概率不超过0.05的前提下认为“所患疾病类型”与“性别”有关,
则 ,解得: .
因为 , ,所以z的最小整数值为6.所以男性患者至少有6人.
(2)设甲研发团队试验总花费为X元, ;
设乙研发团队试验总花费为Y元,则Y的可能取值为3m,6m,
所以 , ,
所以 ;因为 ,所以
.
①当 时, ,因为 ,所以 ,
所以 ,乙团队试验的平均花费较少,所以选择乙团队进行研发;
②当 时, ,因为 ,所以 ,
所以 ,甲团队试验的平均花费较少,所以选择甲团队进行研发;
③当 时, ,
所以 ,甲团队试验的平均花费和乙团队试验的平均花费相同,从两个团队试验的平均花费考虑,
该公司选择甲团队或乙团队进行研发均可.