文档内容
【一轮复习讲义】2024年高考数学高频考点题型归纳与方法总结(新高考通用)
第 49 讲 成对数据的统计分析(精讲)
题型目录一览
①相关关系的判断
②线性回归方程
③非线性回归方程
④残差和相关指数的问题
⑤独立性检验
一、知识点梳理
一、变量间的相关关系
1.变量之间的相关关系
当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关
关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大
量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.
注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且
函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
2.散点图
将样本中的 个数据点 描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点
的分布可以直观地判断两个变量之间的关系.
(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称
为正相关,如图(1)所示;
(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称
为负相关,如图(2)所示.3.相关系数
若相应于变量 的取值 ,变量 的观测值为 ,则变量 与 的相关系数
,通常用 来衡量 与 之间的线性关系的强弱,
的范围为 .
(1)当 时,表示两个变量正相关;当 时,表示两个变量负相关.
(2) 越接近 ,表示两个变量的线性相关性越强; 越接近 ,表示两个变量间几乎不存在线性相关关
系.当 时,所有数据点都在一条直线上.
(3)通常当 时,认为两个变量具有很强的线性相关关系.
二、线性回归
1.线性回归
线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.
对于一组具有线性相关关系的数据(x,y),(x,y),…,(x,y),其回归方程 的求法
1 1 2 2 n n
为
其中, , ,( , )称为样本点的中心.
2.残差分析
对于预报变量 ,通过观测得到的数据称为观测值 ,通过回归方程得到的 称为预测值,观测值减去预
测值等于残差, 称为相应于点 的残差,即有 .残差是随机误差的估计结果,通过对残
差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分
析.(1)残差图
通过残差分析,残差点 比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的
带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和 分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反
之,不合适.
(3)相关指数
用相关指数来刻画回归的效果,其计算公式是: .
越接近于 ,说明残差的平方和越小,也表示回归的效果越好.
三、非线性回归
解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回
归方程化归转化为我们熟悉的线性回归方程.
求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即
可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.
1.建立非线性回归模型的基本步骤:
(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);
(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次
函数、指数函数、对数函数、幂函数模型等);
(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;
(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;
(6)消去新元,得到非线性回归方程;
(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.
四、独立性检验
1.分类变量和列联表
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x,x}和{y,y},其样本频数列联表(称为2×2
1 2 1 2
列联表)为
总计
总计
从 列表中,依据 与 的值可直观得出结论:两个变量是否有关系.
2.等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列
联表数据的频率特征.
(2)观察等高条形图发现 与 相差很大,就判断两个分类变量之间有关系.
3.独立性检验
(1)定义:利用独立性假设、随机变量 来确定是否有一定把握认为“两个分类变量有关系”的方法称
为两个分类变量的独立性检验.
(2)公式: ,其中 为样本容量.
(3)独立性检验的具体步骤如下:
①计算随机变量 的观测值 ,查下表确定临界值 :
0.5 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
②如果 ,就推断“ 与 有关系”,这种推断犯错误的概率不超过 ;否则,就认为在犯
错误的概率不超过 的前提下不能推断“ 与 有关系”.
【常用结论】
常见的非线性回归模型
(1)指数函数型 ( 且 , )两边取自然对数, ,即 ,
令 ,原方程变为 ,然后按线性回归模型求出 , .
(2)对数函数型
令 ,原方程变为 ,然后按线性回归模型求出 , .
(3)幂函数型
两边取常用对数, ,即 ,
令 ,原方程变为 ,然后按线性回归模型求出 , .
(4)二次函数型
令 ,原方程变为 ,然后按线性回归模型求出 , .
(5)反比例函数型 型
令 ,原方程变为 ,然后按线性回归模型求出 , .
二、题型分类精讲
题型 一 相关关系的判断
策略方法 判定两个变量正、负相关的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,
两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.(3)线性回归直线方程中:b>0时,正相关;b<0时,负相关.
【典例1】(多选题)对小明在连续9次高考模拟数学测试中的成绩(单位:分)进行统计得到如图所示
的散点图.他的同桌小刚根据散点图对他的数学成绩的分析中,正确的有( ).
A.小明的数学成绩总的趋势是在逐步提高
B.小明在这连续9次测试中的最高分与最低分的差超过40分
C.小明的数学成绩与测试序号具有线性相关性,且为负相关
D.小明的数学成绩与测试序号具有线性相关性,且为正相关
【答案】ABD
【分析】利用散点显示的各次成绩的情况,逐项分析判断作答.
【详解】散点图从左向右看呈上升趋势,则小明的数学成绩总的趋势是在逐步提高,A正确;
小明在这连续9次测试中的最高分大于130分,最低分小于90分,两者的差超过40分,B正确;
散点落在某条直线附近,小明的数学成绩与测试序号具有比较明显的线性相关性,且为正相关,C错误,
D正确.
故选:ABD
【典例2】(多选题)在下列所示的四个图中,每个图的两个变量间具有相关关系的是( ).
A. B. C. D.
【答案】BC
【分析】利用散点图判断相关关系的方法,逐一分析各个选项中的图形,判断作答.
【详解】对于A,散点落在某条曲线上,两个变量具有函数关系;
对于B、C,散点落在某条直线附近,这两个变量具有相关关系;
对于D,散点杂乱无章,无规律可言,这两个变量无相关性,不具有相关关系.
故选:BC【题型训练】
一、单选题
1.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
月份 1 2 3 4 5 6
人均销售
6 5 8 3 4 7
额
利润率(%) 12.6 10.4 18.5 3.0 8.1 16.3
根据表中数据,下列说法正确的是( )
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
【答案】A
【解析】画出利润率与人均销售额的散点图即可判断.
【详解】画出利润率与人均销售额的散点图,如图.
由图可知利润率与人均销售额成正相关关系.
故选:A.
2.某生物兴趣小组为研究一种红铃虫的产卵数y与温度x(单位:℃)的关系.现收集了7组观测数据
得到下面的散点图:由此散点图,在20℃至36℃之间,下面四个回归方程类型中最适宜作为红铃虫产卵数y和温度x的回归方
程类型的是( )
A. B. C. D.
【答案】C
【分析】结合散点图的特点,选择合适的方程类型作为回归方程类型.
【详解】由散点图可以看出红铃虫产卵数y随着温度x的增长速度越来越快,
所以 最适宜作为红铃虫产卵数y和温度x的回归方程类型.
故选:C
3.根据身高和体重散点图,下列说法正确的是( )
A.身高越高,体重越重 B.身高越高,体重越轻 C.身高与体重成正相关 D.
身高与体重成负相关
【答案】C
【分析】根据给定的散点图的特征,直接判断作答.
【详解】由于身高比较高的人,其体重可能大,也可能小,则选项AB不正确;由散点图知,身高和体重有明显的相关性,且身高增加时,体重也呈现增加的趋势,
所以身高与体重呈正相关,C正确,D错误.
故选:C
4.在如图所示的散点图中,若去掉点 ,则下列说法正确的是( )
A.样本相关系数 变大
B.变量 与变量 的相关程度变弱
C.变量 与变量 呈正相关
D.变量 与变量 的相关程度变强
【答案】D
【分析】根据散点图及相关系数的概念判断即可.
【详解】由散点图知,自变量 与因变量 呈负相关,即 ,故C错误;
去掉点 后, 进一步接近1,所以 变小,故A错误;
去掉点 后, 与 的线性相关加强,即相关程度变强,故B错误,D正确.
故选:D.
5.变量X与Y相对应的一组数据为 , , , , ;变量U与V相对应的
一组数据为 , , , , . 表示变量Y与X之间的线性相关系数, 表示
变量V与U之间的线性相关系数,则( ).
A. B.
C. D.
【答案】C
【分析】根据变量对应数据可确定 与 之间正相关, 与 之间负相关,由此可得相关系数的大小关系.【详解】由变量 与 相对应的一组数据为 , , , , ,可得变量 与
之间正相关,
;
由变量 与 相对应的一组数据为 , , , , ,可知变量 与 之间负
相关,
;
综上所述: 与 的大小关系是 .
故选:C.
6.在研究急刹车的停车距离问题时,通常假定停车距离等于反应距离( ,单位:m)与制动距离( ,
单位:m)之和.如图为某实验所测得的数据,其中“KPH”表示刹车时汽车的初速度 (单位:km/h).根
据实验数据可以推测,下面四组函数中最适合描述 , 与 的函数关系的是( )A. , B. ,
C. , D. ,
【答案】B
【分析】设 , ,根据图象得到函数图象上的点,作出散点图,即可得到答案.
【详解】设 , .
由图象知, 过点 , , , , , ,
, , , , , , , ,
.
作出散点图,如图1.
由图1可得, 与 呈现线性关系,可选择用 .
过点 , , , , , , ,
, , , , , , , .
作出散点图,如图2.由图2可得, 与 呈现非线性关系,比较之下,可选择用 .
故选:B.
题型二 线性回归方程
策略方法 求线性回归方程的一般步骤
【典例1】某工厂生产某种产品的月产量(单位:千件)与单位成本(单位:元/件)的数据如下:
月份 产量x/千件 单位成本y/(元/件)
1 2 73
2 3 723 4 71
4 3 73
5 4 69
6 5 68
(1)计算产量与单位成本的相关系数;
(2)建立产量与单位成本的回归方程;
(3)若该工厂计划7月份生产7千件该产品,则单位成本预计是多少?
【答案】(1)
(2)
(3) 元/件
【分析】(1)根据相关系数的公式进行计算即可;
(2)根据回归直线的相关公式计算即可;
(3)利用(2)中求出的回归直线方程进行求解.
【详解】(1)根据相关系数的公式, ,由表格数据,
, , ,
, ,
于是
(2)设回归直线方程为 ,根据公式, ,
,故回归直线方程为(3)根据(2)可知, , 时, ,预计成本是 元/件
【题型训练】
一、单选题
1.对四组数据进行统计,获得如下散点图,将四组数据相应的相关系数进行比较,正确的是( )
A. B. C. D.
【答案】A
【分析】根据题目给出的散点图,先判断是正相关还是负相关,然后根据点的集中程度分析相关系数的大
小.
【详解】由给出的四组数据的散点图可以看出,
图1和图3是正相关,相关系数大于0,
图2和图4是负相关,相关系数小于0,
图1和图2的点相对更加集中,所以相关性要强,所以 接近于1, 接近于 ,
由此可得 .
故选:A.
2.变量 , 之间有如下对应数据:
4 4.5 5.5 6
12 11 10
已知变量 对 呈线性相关关系,且回归方程为 ,则 的值是( )
A.10 B.9 C.8 D.7
【答案】B
【分析】计算出 ,代入回归方程,求出 的值.【详解】 , ,
则有 ,解得 .
故选:B.
3.某公司一种型号的产品近期销售情况如表:
月份 2 3 4 5 6
销售额 (万元) 15.1 16.3 17.0 17.2 18.4
根据上表可得到回归直线方程 ,据此估计,该公司7月份这种型号产品的销售额为( )
A.18.85万元 B.19.3万元 C.19.25万元 D.19.05万元
【答案】D
【分析】根据题意,由回归直线方程过样本点的中心,即可求得 ,然后代入计算,即可得到结果.
【详解】由表中数据可得 , ,
因为回归直线过样本点的中心,所以 ,解得 ,
所以回归直线方程为 ,
则该公司7月份这种型号产品的销售额为 万元.
故选:D
4.已知某生产商5个月的设备销售数据如下表所示:
时间代码 1 2 3 4 5
销售台数 (单位:百
5 7 8 14 16.5
台)
生产商发现时间代码和销售台数有很强的相关性,决定用回归方程 进行模拟,则 的值是( )
参考数据、公式: ; ;若 ,则
A.3.2 B.3.1 C.3 D.2.9
【答案】C【分析】计算出 ,代入公式,求出 .
【详解】 , ,
故 .
故选:C
5.某社区为了丰富退休人员的业余文化生活,自2018年以来,始终坚持开展“悦读小屋读书活动”.下表
是对2018年以来近5年该社区退休人员的年人均借阅量的数据统计:
202
年份 2018 2019 2021 2022
0
年份代码 1 2 3 4 5
年人均借阅量
16 22 28
(册)
(参考数据: )通过分析散点图的特征后,年人均借阅量 关于年份代码 的回归分析模型为
,则2023年的年人均借阅量约为( )
A.31 B.32 C.33 D.34
【答案】C
【分析】首先求 ,并代入回归直线方程求 ,最后代入 ,即可求解.
【详解】因为 , ,所以 ,即 .
所以回归方程为 ,当 时, .
故选:C.
6.某地为响应“扶贫必扶智,扶智就扶知识、扶技术、扶方法”的号召,建立了农业科技图书馆,供农
民免费借阅.现收集了该图书馆五年的借阅数据如下表:
年份 2016 2017 2018 2019 2020
年份代码x 1 2 3 4 5年借阅量y(万册) 4.9 5.1 5.5 5.7 5.8
根据上表,可得y关于x的线性回归方程为 ,则下列说法中错误的是( ).
A.
B.借阅量4.9,5.1,5.5,5.7,5.8的第75百分位数为5.7
C.y与x的线性相关系数
D.2021年的借阅量一定少于6.12万册
【答案】D
【分析】对于A:根据线性回归方程必过样本中心点运算求解;对于B:根据百分位的定义运算求解;对
于C:根据相关系数的定义分析判断;对于D:根据回归方程的进行预测.
【详解】对于选项A:年份代码x的平均数 ,
年借阅量y的平均数 (万册),
则 ,解得 ,故A正确;
对于选项B:因为 ,所以借阅量的第75百分位数为5.7,故B正确;
对于选项C: 因为 ,所以y与x的线性相关系数 ,故C正确;
对于选项D:由选项A可得: ,
令 ,可得 ,
预计2021年的借阅量为6.12万册,但并不能确定具体结果,故D错误;
故选:D.
7.用模型 拟合一组数据组 ,其中 ,设 ,得变换后
的线性回归方程为 ,则 ( )
A. B. C.70 D.35
【答案】B【分析】根据回归直线方程必过样本中心点 ,再结合题意以及对数的运算计算即可.
【详解】因为 ,
所以 ,则 ,
即 ,
即 ,所以 .
故选:B.
二、多选题
8.“冬吃萝卜夏吃姜,不劳医生开药方.”鲁山县张良镇生产的黄姜,有“姜中之王”的美誉,自汉朝起便
为历代宫廷贡品,闻名天下.某黄姜种植户统计了某种有机肥料的施肥量x(单位:吨)与姜的产量y(单
位:吨)的一组数据,由表中数据,得到回归直线方程为 ,则下列结论正确的是( )
施肥量x(吨) 0.6 0.8 1 1.2 1.4
姜的产量y(吨) 3.1 4.2 5.2 6.4 7.3
A.
B.姜的产量与这种有机肥的施肥量正相关
C.回归直线过点
D.当施肥量为1.8吨时,预计姜的产量约为8.48吨
【答案】ABC
【分析】由表中数据可得 ,由回归直线过样本中心,可判断C;进而求得 ,可判断A;由系数
可判断B;在回归方程中令 ,得 可判断D.
【详解】由表中数据可得 ,所以回归直线 过点 ,故C正确;
,故A正确;
因为系数 ,所以姜的产量与这种有机肥的施肥量正相关,故B正确;
在回归方程中令 ,得 ,所以预计姜的产量约为9.48吨,故D错误.
故选:ABC.
9.某商店的某款商品近5个月的月销售量 (单位:千瓶)如下表:
第 个月 1 2 3 4 5
月销售量 2.5 3.2 4 4.8 5.5
若变量 和 之间具有线性相关关系,用最小二乘法建立的经验回归方程为 ,则下列说法正确
的是( )
A.点 一定在经验回归直线 上
B.
C.相关系数
D.预计该款商品第6个月的销售量为7800瓶
【答案】AB
【分析】对于A,根据表中的数据可求出样本中心点进行判断,对于B,将样本中心点代入回归方程可求
出 判断,对于C,由 进行判断,对于D,将 代入回归方程求解判断.
【详解】对于A, ,
所以样本点中心 一定在经验回归直线 上,所以A正确,
对于B,因为样本点中心 一定在经验回归直线 上,所以 ,解得 ,
所以B正确,
对于C,因为 ,所以变量 与 成正相关,所以相关系数 ,所以C错误,
对于D,当 时, ,预计该款商品第6个月的销售量为6280瓶,所以D错误,
故选:AB10.由变量 和变量 组成的10个成对样本数据 得到的经验回归方程为
,设过点 的直线方程为 ,记 ,则( )
A.变量 正相关
B.若 ,则
C.经验回归直线 至少经过 中的一个点
D.
【答案】ABD
【分析】根据回归直线的相关性质分别判断各个选项即可.
【详解】对于A:回归方程一次项系数大于零是正相关,A正确;
对于B: 代入回归直线可得 ,B正确;
经验回归直线可以不经过任意一个点,C错误;
根据回归直线的求法最小二乘法值,回归直线的残差平方和最小,D正确.
故选:ABD.
11.某学校数学学习兴趣小组利用信息技术手段探究两个数值变量x,y之间的线性关系,随机抽取8个样
本点 , ,……, ,由于操作过程的疏忽,在用最小二乘法求经验回归方程时
只输入了前6组数据,得到的线性回归方程为 ,其样本中心为 .后来检查发现后,输入8组
数据得到的新的经验回归方程为 ,新的样本中心为 ,已知 , ,则( )
A.新的样本中心仍为
B.新的样本中心为
C.两个数值变量x,y具有正相关关系D.
【答案】BC
【分析】对于A、B:根据题意结合平均数公式运算求解;对于C:根据线性回归方程经过样本中心点求
得 ,分析判断即可;对于D:根据最小二乘法分析判断.
【详解】对于选项A,B:因为前6组数据的样本中心为 ,且 , ,
可得 , ,
所以新的样本中心为 ,故A错误,B正确;
对于选项C:因为8组数据的样本中心为 ,经验回归方程为 ,
则 ,解得 ,
所以两个数值变量为正相关关系,故C正确;
对于选项D:根据样本估计总体及最小二乘法原理,利用8组数据所得的经验回归方程是与所有样本点
“距离”平方和最小的直线方程,
即 ,故D错误.
故选:BC.
三、填空题
12.某课外兴趣小组对某地区不同年龄段的人群阅读经典名著的情况进行了相关调查,相关数据如下表.
年龄区间/岁
赋值变量
人群数量
根据表中数据,人群数量 与赋值变量 之间呈线性相关,且关系式为 ,则 .【答案】
【分析】将样本中心点代入回归直线即可构造方程求得结果.
【详解】由表格数据知: , ,
,解得: .
故答案为: .
13.数学兴趣小组对具有线性相关的两个变量x和y进行了统计分析,得到了下表:
x 4 6 8 10 12
y a 2 b c 6
并由表中数据求得y关于x的回归方程为 ,若a,b,c成等差数列,则 .
【答案】3
【分析】求出 ,结合回归方程可求得 ,从而得出 ,结合a,b,c成等差数列,即可求
得答案.
【详解】由题意得 ,代入回归方程 得 ,
则 ,所以 ,
又 ,所以 ,
故答案为:3
14.已知对于一组数据 , ,…, ,y关于x的经验回归方程为 ,若
,则 = .
【答案】60
【分析】先根据题意求出 ,将 代入回归方程得到 ,即可求出最后结果.
【详解】由 可得 ,把 代入经验回归方程可得 ,故 .
故答案为:60
15.网购作为一种新的消费方式,因其具有快捷、商品种类齐全、性价比高等优势而深受广大消费者认可.某
网购公司统计了近五年在本公司网购的人数,得到如下的相关数据(其中“ ”表示2015年,“
”表示2016年,且x为整数,依次类推;y表示人数):
1 2 3 4 5
2
(万人) 50 100 150 180
0
根据表中的数据,可以求出 ,若预测该公司的网购人数能超过300万人,则 的最
小值为 .
【答案】8
【分析】求出样本中心,根据样本中心在回归直线上求回归方程,再由 求 的范围,即得最小值.
【详解】由题设 , ,
所以 ,即 ,则 ,
令 ,可得 ,又x为整数,
所以 的最小值为8.
故答案为:8
四、解答题
16.某农科所对冬季昼夜温差与某反季节大豆种子发芽多少之间的关系进行分析研究,他们记录了12月1
日至5日的昼夜温差与每天100颗种子的发芽数,数据如下.
日期 12月1日 12月2日 12月3日 12月4日 12月5日
温差x(℃) 10 11 13 12 8
发芽数y(颗) 23 25 30 26 16
该农科所确定的研究方案:先从五组数据中选取两组,用剩下的3组数据求线性回归方程,再用被选取的两组数据进行检验.
(1)若先选取的是12月1日和5日的数据,请根据2日至4日的三组数据,求y关于x的线性回归方程
;
(2)若由线性回归方程得到的估计数据与检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠
的,试判断(1)中所得到的线性回归方程是否可靠.
注: , .
【答案】(1)
(2)是可靠的
【分析】(1)根据回归方程公式直接求解即可;
(2)根据(1)中的回归直线方程求得相应的值比较即可
【详解】(1)由数据,求得 , ,
由公式,求得 , ,
所以y关于x的线性回归方程为: .
(2)当 时, , ,
同样,当 时, , .
所以该农科所得到的线性回归方程是可靠的.
17.某连锁经营公司所属5个零售店某月的销售额和利润额资料如下表:
商店名称 A B E
销售额x/千万元 3 5 6 7 9
利润额y/百万元 2 3 3 4 5
(1)画出散点图,观察散点图,说明两个变量有怎样的相关性;(2)用最小二乘法计算利润额y对销售额x的回归直线方程;
(3)当销售额为4(千万元)时,估计利润额的大小.
参考公式: , , .
【答案】(1)答案见解析
(2)
(3)2.4(百万元)
【分析】(1)根据已知数据作出散点图,由图形从而得出相关性;
(2)根据公式计算出回归方程系数得回归方程;
(3)回归方程中 代入计算.
【详解】(1)散点图如下图,由散点图可知,两个变量符合正相关.
(2)设回归直线方程是 ,
, ,
所以,
;
故利润额 对销售额 的回归直线方程为 .
(3)当销售额为4(千万元)时,利润额为 (百万元).
18.新冠肺炎疫情发生以来,中医药全面参与疫情防控救治,做出了重要贡献.某中医药企业根据市场调研
与模拟,得到研发投入 (亿元)与产品收益 (亿元)的数据统计如下:
研发投入 (亿元) 1 2 3 4 5
产品收益 (亿元) 3 7 9 10 11
(1)计算 , 的相关系数 ,并判断是否可以认为研发投入与产品收益具有较高的线性相关程度?(若
,则线性相关程度一般,若 ,则线性相关程度较高)
(2)求出 关于 的线性回归方程,并预测若想收益超过50(亿元)则需研发投入至少多少亿元?(结果保
留一位小数)参考数据: , .
附:相关系数公式: ,
回归直线方程的斜率 ,截距 .
【答案】(1) ,线性相关程度较高
(2)回归直线方程为 ;至少投资 亿元【分析】(1)通过计算相关系数 来进行判断.
(2)先计算回归直线方程,并由此作出预测.
【详解】(1) ,
,
, ,
所以 ,所以线性相关程度较高.
(2)由(1)得 , ,
所以 , ,
所以 ,由 ,
得 ,所以至少投资 亿元.
19.配速是马拉松运动中常使用的一个概念,是速度的一种,是指每千米所需要的时间.相比配速,把心率
控制在一个合理水平是安全理性跑马拉松的一个重要策略.已知图①是某次马拉松比赛中一位跑者的心率y
(单位:次/分钟)和配速x(单位:分钟/千米)的散点图,图②是本次马拉松比赛(全程约42千米)前
5000名跑者成绩(单位:分钟)的频率分布直方图.
(1)由散点图看出,可用线性回归模型拟合y与x的关系,求y与x的线性回归方程;(2)在本次比赛中,该跑者如果将心率控制在160(单位:次/分钟)左右跑完全程,估计他跑完全程花费的
时间及他能获得的名次.
参考公式: 中, , ,其中 , 为样本平均值.
【答案】(1) ;
(2)约210分钟,约320名.
【分析】(1)利用图中数据结合已知公式计算即可得出回归方程;
(2)结合(1)先得出心率160左右的用时,再利用频率分布直方图计算名次即可.
【详解】(1)由散点图中数据和参考公式得
, ,
∴ , ,
所以y与x的线性回归方程为 .
(2)将 代入回归方程得 ,
所以该跑者跑完马拉松全程所花的时间为 分钟,
从马拉松比赛前5000名跑者成绩的频率分布直方图可知:
成绩好于210分钟的累计频率为 .
有6.4%的跑者成绩超过该跑者,
则该跑者在本次比赛获得的名次大约是 名.
20.如图是M市某爱国主义教育基地宣传栏中标题为“2015~2022年基地接待青少年人次”的统计图.根
据该统计图提供的信息解决下列问题.①参考数据:
0 1 2 3
90 330
②参考公式:对于一组数据 ,其回归直线 的斜率和截距的最小二乘法公
式分别为: .
(1)求M市爱国主义教育基地所统计的8年中接待青少年人次的平均值和中位数;
(2)由统计图可看出,从2019年开始,M市爱国主义教育基地接待青少年的人次呈直线上升趋势,请你用
线性回归分析的方法预测2024年基地接待青少年的人次.
【答案】(1)平均值为: ;中位数为:
(2)1365
【分析】(1)根据统计图数据计算平均数及中位数即可;
(2)利用最小二乘法计算回归方程并预测数据即可.
【详解】(1)由图表数据可知:平均值为:
,
中位数为: .
(2)由图表数据得: ,则 ,
所以线性回归方程 ,
所以在2024年时 ,
所以 ,预测2024年基地接待青少年的人次为 .
21.2023年是全面贯彻落实党二十大精神的开局之年,也是实施“十四五”规划承上启下的关键之年,经
济增长呈现稳中有进的可喜现象.2023年8月4日,贵州省工业和信息化厅召开推进贵州刺梨产业高质量发
展专题会议,安排部署加快推进特色优势产业刺梨高质量发展工作,集中资源、力量打造“贵州刺梨”公
共品牌.贵州省为做好刺梨产业的高质量发展,项目组统计了全省近5年刺梨产业综合总产值的各项数据如
下:
年份x,综合产值y(单位:亿元)
年份 2018 2019 2020 2021 2022
年份代码 1 2 3 4 5
综合产值 23.1 37.0 62.1 111.6 150.8
(1)根据表格中的数据,可用一元线性回归模型刻画变量y与变量x之间的线性相关关系,请用相关系数加
以说明(精确到0.01);
(2)求出y关于x的经验回归方程,并预测2023年底贵州省刺梨产业的综合总产值.
参考公式:相关系数 回归方程 中斜率和截距的最小二乘法估计公式分
别为 ;
参考数据:
【答案】(1) ,变量y与变量x之间有强相关性;(2) ,预测2023年底贵州省刺梨产业的综合总产值 亿元.
【分析】(1)利用相关系数公式求相关系数,判断变量间的相关性,即得结论;
(2)应用最小二乘法求回归直线,将 代入估计2023年底综合总产值.
【详解】(1)由题设 ,则
, ,
,
所以 ,两个变量有强相关性,
故可用一元线性回归模型刻画变量y与变量x之间的线性相关关系.
(2)由(1), , ,
所以 ,
当 ,则 亿元.
22.在入室盗窃类案件中,出现频率最高的痕迹物证之一就是足迹. 负重行走对足迹步伐特征影响的规
律强,而且较为稳定. 正在行走的人在负重的同时,步长变短,步宽变大,步角变大. 因此, 以身高
分别为170cm, 175cm, 180cm的人员各 20名作为实验对象,让他们采取双手胸前持重物的负重方式行
走,得到实验对象在负重0kg,5kg,10kg,15kg,20kg状态下相对稳定的步长数据平均值. 并在不同身
高情况下,建立足迹步长s(单位:cm)关于负重x(单位:kg)的三个经验回归方程. 根据身高 170cm组数
据建立线性回归方程①: ;根据身高 175cm组数据建立线性回归方程②:
根据身高 180cm 组数据建立线性回归方程③: .
(1)根据身高 180cm组的统计数据,求 , 的值,并解释参数 的含义;
身高 180cm不同负重情况下的步长数据平均值负重x/kg 0 5 10 15 20
足迹步长s/cm 74.35 73.50 71.80 68.60 65.75
(2)在一起盗窃案中,被盗窃物品重为9kg,在现场勘查过程中,测量得犯罪嫌疑人往返时足迹步长的差值
为4.464cm,推测该名嫌疑人的身高,并说明理由.
附: .为回归方程, , , ,
【答案】(1) , ,参数 的含义详见解析
(2)嫌疑人身高为175cm,理由详见解析
【分析】(1)根据回归直线相关公式计算可得;
(2)根据参数 的几何意义计算即可判断.
【详解】(1)由题意可知: , , ,
所以 , ;
的含义表示,负重每增加 足迹步长减少 .
(2)设被盗窃物品重为9kg时,身高170cm的步长误差为 ,高175cm的步长误差为 ,高180cm的
步长误差为 ,
由题意可得, , , ,
因为 与测量得犯罪嫌疑人往返时足迹步长的差值 最接近,
所以犯罪嫌疑人身高为175cm.
23.下图是我国2014年至2020年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2014-2020(2021年后代码依次类推).
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2023年我国生活垃圾无害化处理量.
附注:参考数据: .
参考公式:相关系数
回归方程 中斜率和截距的最小二乘估计公式分别为: .
【答案】(1)答案见解析
(2) ,1.92亿吨
【分析】(1)根据相关系数的计算公式,直接计算求解即可;
(2)根据题意,列方程计算出回归方程,进而代入预测值,即可求解.
【详解】(1)由折线图中数据和附注中参考数据得 , , ,
,
所以 ,
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与
t的关系.(2)由 及(1)得 ,
所以,y关于t的回归方程为: .
将2023年对应的 代入回归方程得: ,
所以预测2023年我国生活垃圾无害化处理量将约1.92亿吨.
24.2023年,国家不断加大对科技创新的支持力度,极大鼓舞了企业投入研发的信心,增强了企业的创新
动能.某企业在国家一系列优惠政策的大力扶持下,通过技术革新和能力提升,极大提升了企业的影响力和
市场知名度,订单数量节节攀升,右表为该企业今年1~4月份接到的订单数量.
月份t 1 2 3 4
订单数量y(万件) 5.2 5.3 5.7 5.8
(1)试根据样本相关系数r的值判断订单数量y与月份t的线性相关性强弱( ,则认为y与t的线
性相关性较强, ,则认为y与t的线性相关性较弱).(结果保留两位小数)
(2)建立y关于t的线性回归方程,并预测该企业5月份接到的订单数量.
附:相关系数,
回归方程 中斜率和截距的最小二乘法估计公式分别为 , ,
.
【答案】(1) ,订单数量y与月份t的线性相关性较强
(2) ,6.05万件
【分析】(1)根据公式求出相关系数 的值,即可判断;(2)利用最小二乘法求出回归方程,再令 ,代入回归方程求解即可.
【详解】(1) , ,
,
,
,
,
订单数量y与月份t的线性相关性较强;
(2) ,
,
线性回归方程为 ,
令 ,则 (万件),
即该企业5月份接到的订单数量预计为6.05万件.
25.2015-2019年,中国社会消费品零售额占 的比重超过4成,2020年后,中国社会消费品零售额占
的比重逐年下降.下表为2018-2022年中国社会消费品零售额(单位:万亿元)及其占 的比重
(单位:%)的数据,其中2018-2022年对应的年份代码 依次为1~5.
年份代码 1 2 3 4 5
社会消费品零售额 37.8 40.8 39.2 44.1 44.0
社会消费品零售额占 的比重 41.3 41.5 39.0 38.6 36.7
附: , , , ,相关系数 .对于一组数据 , ,…, ,其一元线性回归直
线 的斜率和截距的最小二乘估计公式分别为 , .
(1)由上表数据,是否可用一元线性回归模型拟合 与 的关系,请用相关系数加以说明.
(2)请建立 关于 的一元线性回归方程.
【答案】(1)可以用一元线性回归模型拟合 与 的关系,理由见解析
(2)
【分析】(1)根据题干中所给数据与计算公式带入计算即可判断.
(2)根据回归方程结构,代入数据计算即可.
【详解】(1)由题意,知 , .
因为 , , ,
所以 ,
所以 .
所以 与 的线性相关程度高,可以用一元线性回归模型拟合 与 的关系.
(2)因为 , , , ,
所以 .把点 的坐标代入 ,得 ,
所以 关于 的一元线性回归方程为 .
26.某二手汽车经销商对其所经营的某型号二手汽车的使用年数 ( )与每辆车的销售价
格 (万元)进行整理,得到如下对应数据:
使用年数 2 4 6 8 10
售价 16 13 9 7 5
(1)根据表中数据,用最小二乘法求 关于 的线性回归方程 ;
(2)已知每辆该型号汽车的收购价格 (万元)与使用年数 ( )的函数关系为
,根据(1)中所求回归方程,预测 为何值时,该经销商销售一辆该型号
汽车所获得的利润 最大,最大利润是多少?
附:回归直线的斜率和截距的最小二乘估计公式: , ;
参考数据: .
【答案】(1) ;
(2)当 时,利润 最大,最大利润是1.75万元.
【分析】(1)利用表中数据求出 ,再利用最小二乘法公式计算即得.
(2)利用(1)的结论,求出利润 的函数关系,再求出分段函数最大值即得.
【详解】(1)依题意, , ,
,, ,
所以回归方程为: .
(2) ,
当 时, ,当 时, ;
当 时, ,当 时, ,显然 ,
所以当 时,利润 最大,最大利润是1.75万元.
题型三 非线性回归方程
策略方法
对于非线性回归分析问题,应先进行变量代换,求出代换后的回归直线方程,再求非线性回
归方程.
【典例1】今年刚过去的4月份是“全国消费促进月”,各地拼起了特色经济”,带动消费复苏、市场回
暖.“小饼烤炉加蘸料,灵魂烧烤三件套”,最近,淄博烧烤在社交媒体火爆出圈,吸引全国各地的游客坐
着高铁,直奔烧烤店,而多家店铺的营业额也在近一个月内实现了成倍增长.因此某烧烤店老板考虑投入更
多的人工成本,现有以往的服务人员增量x(单位:人)与年收益增量y单位:万元)的数据如下:
服务人员增量x/人 2 3 4 6 8 10 13
年收益增量y/万元 13 22 31 42 50 56 58
据此,建立了y与x的两个回归模型:
模型①:由最小二乘公式可求得 与 的一元线性经验回归方程为 ;模型②:由散点图(如图)的样本点分布,可以认为样本点集中在曲线 的附近.
对数据进行初步处理后,得到了一些统计的量的值: , , , ,
其中 ,
(1)根据所给的统计量,求模型②中 关于 的经验回归方程(精确到0.1);
(2)根据下列表格中的数据,比较两种模型的决定系数 ,并选择拟合精度更高的模型,预测服务人员增
加25人时的年收益增量.
回归模型 模型① 模型②
回归方程
182.4 79.2
附:样本 的最小二乘估计公式为 , ,刻画样
本回归效果的决定系数
【答案】(1) =21.3 -14.4
(2)模型①的R2小于模型②,说明回归模型②刻画的拟合效果更好,92.1万元.
【分析】(1)令 ,则 ,然后根据表中的数据和公式可求出模型②中y关于x的经验回归方
程;
(2)由表中的数据和样本回归效果的决定系数可判断回归模型②刻画的拟合效果更好,再根据模型②的
回归方程可预测服务人员增加25人时的年收益增量.
【详解】(1)令 ,则 . 由参考数据得= =38.9-21.32×2.5≈-14.4,
所以,模型②中y关于x的经验回归方程为 =21.3 -14.4.
(2)由表格中的数据,有182.4>79.2,即 ,
模型①的 小于模型②,说明回归模型②刻画的拟合效果更好
当x=25时,模型②的收益增量的预测值为 =21.3× -14.4=21.3×5-14.4=92.1(万元).
所以预测服务人员增加25人时的年收益增量为92.1万元.
【题型训练】
一、单选题
1.某科技公司为加强研发能力,研发费用逐年增加,最近6年的研发费用y(单位:亿元)与年份编号x
得到样本数据 ,令 ,并将 绘制成下面的散点图.若用方程 对y
与x的关系进行拟合,则( )
A. , B. ,
C. , D. ,
【答案】A
【分析】根据非线性回归方程结合图象即可得到答案.
【详解】因为 ,令 ,则z与x的回归方程为 .
根据散点图可知z与x正相关,所以 .从回归直线图象可知, 回归直线的纵截距大于0,
即 ,所以 .
故选:A.
2.某校一个课外学习小组为研究某作物种子的发芽率 和温度 (单位: )的关系,在20个不同的温
度条件下进行种子发芽实验,由实验数据 得到下面的散点图:
由此散点图,在10℃至35℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型
的是( )
A. B. C. D.
【答案】D
【分析】根据散点图的变化趋势,结合常见函数的性质特征可得.
【详解】由图可知,随着稳定的增加,发芽率的增长速度越来越慢,符合对数型函数的特征.
故选:D
3.如图是某地在50天内感染新冠病毒的累计病例y(单位:万人)与时间x(单位:天)的散点图,则下
列最适宜作为此模型的回归方程类型的是( )
A. B.
C. D.
【答案】B
【分析】由选项的图象特征即可得到答案.【详解】选项A, 对应的“直线型”的拟合函数,散点图中的点应在某直线附近,故A错误;
选项B,根据散点图可以看出散点大致分布在一条“指数型”函数曲线附近,
则 的图象可以如图所示,故B正确;
选项C, 对应的“幂函数型”的拟合函数,则其对应图象应上凸下凹,故C错误;
选项D, 对应的“对数型”的拟合函数,则其对应图象应上凸下凹,故D错误.
故选:B.
4.用模型 拟合一组数据时,设 ,将其变换后得到回归方程为 ,则
( )
A. B.1 C. D.2
【答案】D
【分析】由 两边取对数,与 ,利用待定系数法求解.
【详解】解:因为 , ,
所以 ,
又 ,
所以 ,解得 ,
所以 ,
故选:D
5.某市卫健委用模型 的回归方程分析 年 月份感染新冠肺炎病毒的人数,令 后
得到的线性回归方程为 ,则 ( )
A. B. C. D.
【答案】A
【分析】利用对数与指数的互化可得出关于 的等式,即可解得 的值.
【详解】 ,所以, ,解得 .故选:A.
二、解答题
6.一企业生产某种产品,通过加大技术创新投入降低了每件产品成本,为了调查年技术创新投入 (单位:
千万元)对每件产品成本 (单位:元)的影响,对近 年的年技术创新投入 和每件产品成本
的数据进行分析,得到如下散点图,并计算得: , , ,
, .
(1)根据散点图可知,可用函数模型 拟合 与 的关系,试建立 关于 的回归方程;
(2)已知该产品的年销售额 (单位:千万元)与每件产品成本 的关系为 .该
企业的年投入成本除了年技术创新投入,还要投入其他成本 千万元,根据(1)的结果回答:当年技术
创新投入 为何值时,年利润的预报值最大?
(注:年利润=年销售额一年投入成本)
参考公式:对于一组数据 、 、 、 ,其回归直线 的斜率和截距的最小乘估
计分别为: , .【答案】(1)
(2)当年技术创新投入为 千万元时,年利润的预报值取最大值
【分析】(1)令 ,可得出 关于 的线性回归方程为 ,利用最小二乘法可求出 、 的
值,即可得出 关于 的回归方程;
(2)由 可得 ,可计算出年利润 关于 的函数关系式,结合二次函数的基本性质
可求得 的最小值及其对应的 值.
【详解】(1)解:令 ,则 关于 的线性回归方程为 ,
由题意可得 ,
,则 ,
所以, 关于 的回归方程为 .
(2)解:由 可得 ,
年利润
,
当 时,年利润 取得最大值,此时 ,
所以,当年技术创新投入为 千万元时,年利润的预报值取最大值.
7.新型冠状病毒肺炎COVID-19疫情发生以来,在世界各地逐渐蔓延.在全国人民的共同努力和各级部门
的严格管控下,我国的疫情已经得到了很好的控制.然而,小王同学发现,每个国家在疫情发生的初期,由
于认识不足和措施不到位,感染人数都会出现快速的增长.下表是小王同学记录的某国连续8天每日新型冠
状病毒感染确诊的累计人数.
日期代码x 1 2 3 4 5 6 7 81 7
累计确诊人数y 4 8 31 51 97 122
6 1
为了分析该国累计感染人数的变化趋势,小王同学分别用两杆模型:① ,② 对变量x
和y的关系进行拟合,得到相应的回归方程并进行残差分析,残差图如下(注:残差 ):经过计算
得 , , , ,其中 ,
.
(1)根据残差图,比较模型①,②的拟合效果,应该选择哪个模型?并简要说明理由;
(2)根据(1)问选定的模型求出相应的回归方程(系数均保留两位小数);
(3)由于时差,该国截止第9天新型冠状病毒感染确诊的累计人数尚未公布.小王同学认为,如果防疫形势没
有得到明显改善,在数据公布之前可以根据他在(2)问求出的回归方程来对感染人数做出预测,那么估
计该地区第9天新型冠状病毒感染确诊的累计人数是多少?(结果保留整数)
附:回归直线的斜率和截距的最小二乘估计公式分别为: , .
【答案】(1)选择模型①,理由见解析
(2)
(3)157
【分析】(1)选择模型①.根据残差的意义直接判断;(2)套公式求出系数,即可得到y关于x的回归方程;(3)将 代入,即可求得.
【详解】(1)选择模型①.理由如下:根据残差图可以看出,模型①的估计值和真实值相对比较接近,模
型②的残差相对较大一些,所以模型①的拟合效果相对较好
(2)由(1),知y关于x的回归方程为 ,令 ,则 .
由所给数据得: ,
, .
,∴y关于x的回归方程为 ,
(3)将 代入上式,得 (人),
所以预测该地区第9天新型冠状病毒感染确诊的累计人数为157人.
8.某公司研制了一种对人畜无害的灭草剂,为了解其效果,通过实验,收集到其不同浓度 ( )与
灭死率 的数据,得下表:
浓度 ( )
灭死率 0.1 0.24 0.46 0.76 0.94
(1)以 为解释变量, 为响应变量,在 和 中选一个作为灭死率 关于浓度 (
)的经验回归方程,不用说明理由;
(2)(i)根据(1)的选择结果及表中数据,求出所选经验回归方程;
(ii)依据(i)中所求经验回归方程,要使灭死率不低于 ,估计该灭草剂的浓度至少要达到多少 ?
参考公式:对于一组数据 , , , ,其经验回归直线 的斜率和截距的最小
二乘法估计分别为 , .
【答案】(1)选(2)(i) ,(ii)
【分析】(1)根据表格数据的特征选择回归模型;
(2)(i)令 ,将所给数据处理,再求出 , , , ,即可求出 , ,从而得到回
归方程;
(ii)令 ,根据对数函数的性质解出不等式,即可得解.
【详解】(1)根据表格数据可知解析变量 呈现指数增长,而响应变量 增长幅度不大,且相应的增加量
大约相等,
故选 .
(2)(i)令 ,则 ,
所以可得如下数据
0.1 0.24 0.46 0.76 0.94
则 , ,
,
,
所以 , ,
所以 ,即 ;
(ii)依题意 ,即 ,即 ,
所以 ,即要使灭死率不低于 ,则该灭草剂的浓度至少要达到 .
9.为了研究某种细菌随天数x变化的繁殖个数y,收集数据如下:
天数x 1 2 3 4 5 6繁殖个数y 6 12 25 49 95 190
(1)在图中作出繁殖个数y关于天数x变化的散点图,并由散点图判断
(a,b为常数)与 ( , 为常数,且 , )哪一个适宜作为繁殖个数y关于天数x变
化的回归方程类型?(给出判断即可,不必说明理由)
(2)对于非线性回归方程 ( , 为常数,且 , ),令 ,可以得到繁殖个数的
对数z关于天数x具有线性关系及一些统计量的值.
3.50 62.83 3.53 17.50 596.57 12.09
①证明:“对于非线性回归方程 ,令 ,可以得到繁殖个数的对数z关于天数x具有线性关
系(即 ,β,α为常数)”;
②根据(1)的判断结果及表中数据,建立y关于x的回归方程(系数保留2位小数).
附:对于一组数据 , ,…, ,其回归直线方程 的斜率和截距的最小二乘估
计分别为 , .
【答案】(1)作图见解析,选择 为回归方程较适宜
(2)① 证明见解析;②
【分析】(1)根据散点图,结合一次函数和指数型函数图象的特征进行判断即可;
(2)①根据对数与指数的互化公式进行求解即可;②利用题中所给的数据和公式进行求解即可.
【详解】(1)作出散点图如图所示.
由散点图看出样本点分布在一条指数型曲线的周围,
故选择 为回归方程较适宜;
(2)①由已知, ,则 ,
则 , ,即 .所以繁殖个数的对数z关于天数x具有线性关系.
②由①知繁殖个数的对数z关于天数x可以用线性回归方程来拟合.
由表中数据可得 ,
,
则z关于x的线性回归方程为 .
又 ,
因此细菌的繁殖个数y关于天数x的非线性回归方程为 .
10.多年来,清华大学电子工程系黄翔东教授团队致力于光谱成像芯片的研究,2022年6月研制出国际首
款实时超光谱成像芯片,相比已有光谱检测技术,实现了从单点光谱仪到超光谱成像芯片的跨越,为制定
下一年的研发投入计划,该研发团队为需要了解年研发资金投入量x(单位:亿元)对年销售额 (单位:
亿元)的影响,结合近12年的年研发资金投入量x,和年销售额 ,的数据( ,2, ,12),该团
队建立了两个函数模型:① ② ,其中 均为常数,e为自然对数的底数,经对历史
数据的初步处理,得到散点图如图,令 ,计算得如下数据:20 66 770 200 14
460 3125000 21500
(1)设 和 的相关系数为 和 的相关系数为 ,请从相关系数的角度,选择一个拟合程度更好
的模型;
(2)(i)根据(1)的选择及表中数据,建立 关于 的回归方程(系数精确到0.01);
(ii)若下一年销售额 需达到80亿元,预测下一年的研发资金投入量 是多少亿元?
附:①相关系数 ,回归直线 中斜率和截距的最小二乘估计公式分别为:
, ;
②参考数据: .
【答案】(1)模型 的拟合程度更好
(2)(i) (ii)预测下一年的研发资金投入量是 亿元
【分析】(1)由题意计算相关系数,比较它们的大小即可判断;(2)(i)先建立 关于 的的线性回归方程,再转化为y关于 的回归方程;(2)利用回归方程计算 时x的值即可.
【详解】(1)由题意进行数据分析:
则 ,因此从相关系数的角度,模型 的拟合程度更好
(2)(i)先建立 关于 的线性回归方程.
由 ,得 ,即 .
由于
所以 关于 的线性回归方程为 ,
所以 ,则 .
(ii)下一年销售额 需达到80亿元,即 ,代入 得, ,
又
所以 ,解得 ,
所以预测下一年的研发资金投入量是 亿元
11.某乡镇全面实施乡村振兴,大力发展特色产业——富硒水果.工作人员统计了近8年富硒水果种植面
积 (单位:百亩)与年销售额 (单位:千万元)的数据 .经计算得到如下处理后的统
计量: , , , , , , ,, ,其中 , .
(1)根据以上数据,从相关系数的角度,判断 与 哪个适宜作为年销售额 关于种植面积
的回归方程类型(相关系数精确到0.01).
(2)根据(1)的判断结果及相关数据,建立 关于 的回归方程(系数精确到0.01).
(3)该乡镇计划年销售额不低于10亿元,请预测种植面积至少为多少亩.
附:相关系数 ,回归直线 的斜率与截距的最小二乘估计分别为
, .
参考数据: , .
【答案】(1) 适宜作为年销售额 关于种植面积 的回归方程类型
(2)
(3)706亩
【分析】(1)根据已知条件与相关系数公式求出相关系数 , 的值,然后根据 , 的绝对值的大小,
可知 适宜作为年销售额 关于种植面积 的回归方程类型;
(2)通过公式求出回归系数 , 的值,从而可求出回归方程;
(3)把已知数据代入回归方程,即可求出预测值.
【详解】(1)若用 作为年销售额 关于种植面积 的回归方程类型,则设 ,则 .设 与 的相关系数为 ,则 .
由 , ,得 ,
则 ,所以 .
若用 作为年销售额 关于种植面积 的回归方程类型,则 .
设 ,则 .
设 与 的相关系数为 ,则
.
因为 ,所以 适宜作为年销售额 关于种植面积 的回归方程类型.
(2) .
由 ,得 .
,
所以 关于 的线性方程为 ,则 关于 的回归方程为 .
(3)由题意可知 .整理,得 ,
因为 ,
解得 或 (舍去),
故种植面积至少为706亩.题型四 残差和相关指数的问题
策略方法
对于预报变量 ,通过观测得到的数据称为观测值 ,通过回归方程得到的 称为预测值,观
测值减去预测值等于残差, 称为相应于点 的残差,即有 .残差是随机误差的
估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可
疑数据等,这方面工作称为残差分析.
【典例1】(单选题)已知一组样本数据 , ,, ,根据这组数据的散点图分析 与
之间的线性相关关系,若求得其线性回归方程为 ,则在样本点 处的残差为( )
A.38.1 B.22.6 C. D.91.1
【答案】C
【分析】对于响应变量 ,通过观测得到的数据为观测值,通过线性回归方程得到 的称为预测值,观测
值减去预测值称为残差.
【详解】因为观测值减去预测值称为残差,
所以当 时, ,
所以残差为 .
故选:C.
【典例2】(单选题)营养学家对某地区居民的身高 与营养摄入量 的几组数据进行研究后发现两个变
量存在相关关系,该营养学家按照不同的曲线拟合 与 之间的回归方程,并算出相关指数 如下表所示:
拟合曲线 直线 指数曲线 抛物线 三次曲线
与 的回归方
程
相关指数
0.893 0.986 0.931 0.312
则这组数据模型的回归方程的最好选择应是( )
A. B.C. D.
【答案】B
【分析】根据相关指数的性质,相关指数 的值越大,模型的拟合效果越好,即可得出答案.
【详解】相关指数 的值越大,说明模型的拟合效果越好,观察可知,指数曲线的 最大,故回归方程
的最好选择应是 ,
故选:B.
【题型训练】
一、单选题
1.某兴趣小组研究光照时长x(h)和向日葵种子发芽数量y(颗)之间的关系,采集5组数据,作如图所
示的散点图.若去掉 后,下列说法正确的是( )
A.相关系数r变小 B.决定系数 变小
C.残差平方和变大 D.解释变量x与预报变量y的相关性变强
【答案】D
【分析】从图中分析得到去掉 后,回归效果更好,再由相关系数,决定系数,残差平方和和相关
性的概念和性质作出判断即可.
【详解】从图中可以看出 较其他点,偏离直线远,故去掉 后,回归效果更好,
对于A,相关系数 越接近于1,模型的拟合效果越好,若去掉 后,相关系数r变大,故A错误;
对于B,决定系数 越接近于1,模型的拟合效果越好,若去掉 后,决定系数 变大,故B错误;
对于C,残差平方和越小,模型的拟合效果越好,若去掉 后,残差平方和变小,故C错误;对于D,若去掉 后,解释变量x与预报变量y的相关性变强,且是正相关,故D正确.
故选:D.
2.对两个变量 和 进行回归分析,得到一组样本数据: 、 、 、 ,则下列说法
中不正确的是( )
A.由样本数据得到的线性回归方程 必过样本点的中心
B.残差平方和越小的模型,拟合的效果越好
C.用相关指数 来刻画回归效果, 的值越小,说明模型的拟合效果越好
D.若变量 和 之间的相关系数 ,则变量 与 之间具有线性相关关系
【答案】C
【分析】根据回归直线过样本中心点可判断A选项;利用残差平方和与拟合效果的关系可判断B选项;利
用相关指数 与拟合效果的关系可判断C选项;利用相关系数与线性相关关系可判断D选项.
【详解】对于A选项,由样本数据得到的线性回归方程 必过样本点的中心 ,A对;
对于B选项,残差平方和越小的模型,拟合的效果越好,B对;
对于C选项,用相关指数 来刻画回归效果, 的值越小,说明模型的拟合效果越差,C错;
对于D选项,若变量 和 之间的相关系数 , ,则变量 与 之间具有线性相关关系,
D对.
故选:C.
3.某校数学兴趣小组在某座山测得海拔高度 (单位:千米)与气压 (单位:千帕)的六组数据
绘制成如下散点图,分析研究发现 点相关数据不符合实际,删除 点后重新进行回归
分析,则下列说法正确的是( )
A.删除点 后,样本数据的两变量 正相关
B.删除点 后,相关系数 的绝对值更接近于1C.删除点 后,新样本的残差平方和变大
D.删除点 后,解释变量 与响应变量 相关性变弱
【答案】B
【分析】结合散点图分析即可得出结论.
【详解】由题意,
从散点图中可知,删除点 后,样本数据的两变量 负相关,所以 错误;
由于 点较其他点偏离程度大,故去掉 点后,回归效果更好,从而相关系数 的绝对值更接近于 ,所以
B正确;
同理决定系数 越接近于 ,所以新样本的残差平方和变小,所以 错误;
从而解释变量 与响应变量 相关性增强,所以D错误.
故选:B.
二、多选题
4.某研究小组采集了 组数据,作出如图所示的散点图.若去掉 后,下列说法正确的是( )
A.相关系数 变小
B.决定系数 变大
C.残差平方和变大
D.解释变量 与预报变量 的相关性变强
【答案】BD
【分析】根据散点图判断出去掉点 后, 与 的线性相关性相关性以及残差平方和、决定系数的关
系逐项判断即可得出合适的结论.
【详解】根据散点图可知,去掉点 后, 与 的线性相关性加强,且为正相关,
相关系数 变大,则A错D对,去掉点 后,残差平方和变小,则 变大,B对C错.
故选:BD.
5.对具有相关关系的两个变量 和 进行回归分析时,经过随机抽样获得成对的样本数据
,则下列说法正确的是( )
A.若两变量 、 具有线性相关关系,则回归直线至少经过一个样本点
B.变量 、 的线性相关系数 的绝对值越接近 ,则两个变量 与 的线性相关程度越强
C.用残差平方和来比较两个模型的拟合效果时,残差平方和越小,模型的拟合效果越好
D.用 来刻画回归模型的拟合效果时,若所有样本点都落在一条斜率为非零的直线
上,则 的值为
【答案】BCD
【分析】利用回归直线的相关知识可判断A选项;利用相关系数与线性相关程度的关系可判断B选项;利
用残差平方和与模型的拟合效果的关系可判断C选项;利用相关指数与回归模型的拟合效果的关系可判断
D选项.
【详解】对于A选项,若两变量 、 具有线性相关关系,则回归直线过样本中心点,但不一定过样本点,
A错;
对于B选项,若变量 、 的线性相关系数 的绝对值越接近 ,则两个变量 与 的线性相关程度越强,
B对;
对于C选项,用残差平方和来比较两个模型的拟合效果时,残差平方和越小,模型的拟合效果越好,C对;
对于D选项,用 来刻画回归模型的拟合效果时,若所有样本点都落在一条斜率为非零
的直线上,则 的值为 ,D对.
故选:BCD.
6.某学校一同学研究温差 与本校当天新增感冒人数 (人)的关系,该同学记录了5天的数据:
x 5 6 8 9 12
y 1 20 2 28 357 5
经过拟合,发现基本符合经验回归方程 ,则( )
A.样本中心点为 B.
C. ,残差为 D.若去掉样本点 ,则样本的相关系数r增大
【答案】ABC
【分析】由回归直线必过样本中心可判断A项、B项,由残差公式可判断C项,由相关系数公式可判断D
项.
【详解】对于A项,因为 , ,
所以样本中心点为 ,故A项正确;
对于B项,由回归直线必过样本中心可得: 解得: ,故B项正确;
对于C项,由B项知, ,令 ,则 ,
所以残差为 ,故C项正确;
对于D项,由相关系数公式可知,去掉样本点 后,x与y的样本相关系数r不变,故D项错误.
故选:ABC.
三、解答题
7.耐盐碱水稻俗称“海水稻”,是一种可以长在滩涂和盐碱地的水稻.海水稻的灌溉是将海水稀释后进行灌
溉.某试验基地为了研究海水浓度 (‰)对亩产量 (吨)的影响,通过在试验田的种植实验,测得了某种海水稻
的亩产量与海水浓度的数据如表.绘制散点图发现,可用线性回归模型拟合亩产量 与海水浓度 之间的相关
关系,用最小二乘法计算得 与 之间的线性回归方程为 .
海水浓度
3 4 5 6 7
(‰)
亩产量 (吨)残差
(1)求 ,并估计当浇灌海水浓度为8‰时该品种的亩产量;
(2)(i)完成上述残差表:
(ii)统计学中常用相关指数 来刻画回归效果, 越大,模型拟合效果越好,如假设 ,就说明预报
变量 的差异有 是由解释变量 引起的.请计算相关指数 (精确到0.01),并指出亩产量的变化多大程度
上是由浇灌海水浓度引起的?
(附:残差公式 ,相关指数 )
【答案】(1)0.24吨(2)
【分析】(1)求出 ,再根据给出的回归方程可得 ,从而可求并估计当浇灌海水浓度为8‰时
该品种的亩产量.
(2)根据公式可求相关指数 ,从而可得亩产量的变化多大程度上是由浇灌海水浓度引起的.
【详解】(1)经计算, ,
由 可得, ,
当 时, ,
所以当海水浓度为8‰时,该品种的亩产量为0.24吨.
(2)(ii)由(1)知 ,从而有
浓度(千分之) 3 4 5 6 7
亩产量 (吨)
残差
(ii) ,
所以亩产量的变化有 是由海水引起的.8.已知 与 之间的数据如下表:
(1)求 关于 的线性回归方程;(2)完成下面的残差表:
并判断(1)中线性回归方程的回归效果是否良好(若 ,则认为回归效果良好).附:
, , , .
【答案】(1) ;(2)表格见解析,良好.
【分析】(1)由题意求出 , ,代入公式求值,从而得到回归直线方程;(2)根据公式计
算并填写残差表;由公式计算相关指数 ,结合题意得出统计结论.
【详解】(1)由已知图表可得 , , , ,
则 , ,
故 .
(2)∵ ,∴ , , , , ,则残差表如下表所示,
∵ ,∴ ,
∴该线性回归方程的回归效果良好.
【点睛】本题考查了线性回归直线方程与相关系数的应用问题,是中档题.
9.身高体重指数(BMI)的大小直接关系到人的健康状况,某高中高三(1)班班主任为了解该班学生的身体健
康状况,从该班学生中随机选取5名学生,测量其身高、体重的数据如下表.
学生编号 1 2 3 4 5
17 17
身高x/cm l65 175 170
0 0
体重y/kg 58 67 67 65 63
(1)求体重关于身高的线性回归方程,并预测身高为180cm的同学的体重;
(2)试分析学生的体重差异约有多少是由身高引起的?(注:结果保留两位小数)参考公式:线性回归方程
中, , ,其中 , 为样本平均值,
.
【答案】(1) ,身高为180cm的同学的体重大约为 ;
(2)
【分析】(1)由所给数据求出 , , , ,即可求出 、 ,从而求出回归直
线方程,再令 代入回归直线方程,从而得到预测值;
(2)根据(1)中的回归方程,求出残差,即可求出相关指数 ,即可判断;
【详解】(1)解:依题意可 , ,
,所以 ,
所以回归直线方程为 ,
当 时 ,所以身高为180cm的同学的体重大约为 ;
(2)由(1)回归方程可得,各组数据的残差,如表所示:
学生编号 1 2 3 4 5
身高 165 170 175 170 170
体重 58 67 67 65 63
残差
所以 ,
,
则 ,
故学生的体重差异约有 是由身高引起的.
10.从集市上买回来的蔬菜仍存有残留农药,食用时需要清洗数次,统计表中的 表示清洗的次数, 表
示清洗 次后 千克该蔬菜残留的农药量(单位:微克).
x 1 2 3 4 5
y 4.5 2.2 1.4 1.3 0.6
(1)在如图的坐标系中,描出散点图,并根据散点图判断, 与 哪一个适宜作为清洗
次后 千克该蔬菜残留的农药量的回归方程类型;(给出判断即可,不必说明理由)(2)根据判断及下面表格中的数据,建立 关于 的回归方程;
表中 , .
3 2 0.12 10 0.09 -8.7 0.9
(3)对所求的回归方程进行残差分析.
附:①线性回归方程 中系数计算公式分别为 , ;
② , 说明模拟效果非常好;
③ , , , , .
【答案】(1)见解析;(2) ;(3)拟合效果非常好.
【分析】(1)先根据数据作出散点图,结合散点图给出判断;
(2)根据 , ,及相关公式可求 关于 的回归方程;
(3)先求解估计值与真实数据间的差,根据公式求出 ,然后进行判断.
【详解】(1)散点图如图,根据散点图可知用 作为清洗 次后 千克该蔬菜残留的农药量的回归方程类型.
(2)由题知 , ,
故所求的回归方程为 .
(3)列表如下:
0 0 0.1 0.3 -0.3
2.5 0.2 -0.6 -0.7 -1.4
所以 , , ,
所以回归模拟的拟合效果非常好.
【点睛】本题主要考查回归分析,散点图是选择回归方程的一个常用手段,非线性回归方程的求解一般利
用换元法转化为线性回归方程,残差分析是判断模拟效果的常用方法,侧重考查数据分析的核心素养.
题型 五 独立性检验
策略方法
1.比较几个分类变量有关联的可能性大小的方法
(1)通过计算K2的大小判断:K2越大,两变量有关联的可能性越大.
(2)通过计算|ad-bc|的大小判断:|ad-bc|越大,两变量有关联的可能性越大.
2.独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式K2=计算K2的观测值k.(3)比较观测值k与临界值的大小关系,作统计推断.
【典例1】(单选题)疫苗是为预防、控制传染病的发生、流行,用于人体预防接种的预防性生物制品,其
前期研发过程中,一般都会进行动物保护测试,为了考察某种疫苗预防效果,在进行动物试验时,得到如
下统计数据:
未发病 发 总计
病
未注射疫苗 30
注射疫苗 40
总计 70 30 100
附表及公式:
0.05 0.01 0.005 0.001
3.841 6.635 7.879 10.828
, .
现从试验动物中任取一只,取得“注射疫苗”的概率为0.5,则下列判断错误的是( )
A.注射疫苗发病的动物数为10
B.从该试验未注射疫苗的动物中任取一只,发病的概率为
C.能在犯错概率不超过0.05的前提下,认为疫苗有效
D.该疫苗的有效率为
【答案】D
【分析】完善列联表判断A,利用古典概型概率判断B,计算卡方利用独立性检验判断C,利用题目数据
判断D.
【详解】从试验动物中任取一只,取得“注射疫苗”的概率为0.5,
则取得“注射疫苗”的动物为 ,完善列联表得:
未发病 发病 总计
未注射疫苗 30 20 50
注射疫苗 40 10 50
总计 70 30 100所以注射疫苗发病的动物数为50-40=10,故选项A正确;
从该试验未注射疫苗的动物中任取一只,发病的概率为 ,故选项B正确;
又 ,
所以能在犯错概率不超过0.05的前提下,认为疫苗有效,故选项C正确;
对于选项D,虽说注射疫苗的动物中不发病的频率为 ,
但是未注射疫苗的动物中也有不发病的情况,错误.
故选:D
【题型训练】
一、单选题
1.某部门随机调查了90名工作人员,为了了解他们的休闲方式是读书还是健身与性别是否有关,得到的
数据如列联表所示.若认为性别与休闲方式有关,则此时犯错误的概率不超过( )
休闲方式
性
合计
别
读书 健身
女
25( ) 20( ) 45
生
男
15( ) 30( ) 45
生
合
40 50 90
计
附: , ,
0.050 0.010 0.001
3.841 6.635 10.828
A.0.01 B.0.05 C.95% D.99.5%
【答案】B【分析】计算 的值,由此确定正确答案.
【详解】依题意, ,
所以犯错误的概率不超过 的情况下,认为性别与休闲方式有关.
故选:B
2.根据分类变量 和 的样本观察数据的计算结果,有不少于 的把握认为 和 有关,则 的一
个可能取值为( )
0.10 0.05 0.025 0.010 0.005
2.706 3.841 5.024 6.635 7.879
A.3.971 B.5.872 C.6.775 D.9.698
【答案】D
【分析】根据独立性检验卡方与列表比较即可;
【详解】因为有不少于 的把握认为 和 有关,所以 ,
,满足题意,
故选:D.
3.某超市对一种商品受顾客的喜爱程度进行100份问卷调查,得到了如下的 列联表,从100人中随机
抽取1人,抽到喜爱该商品的男顾客的概率为 .
不喜爱该商
喜爱该商品 合计
品
男顾客 10
女顾客 35
合计 100
则有超过( )的把握认为喜爱该商品与性别有关.
下面的临界值表供参考:
0.25 0.15 0.010 0.0051.323 2.072 6.635 7.879
A. B. C. D.
【答案】A
【分析】先根据喜爱该商品的男顾客的概率,计算出喜爱该商品的男顾客人数,然后根据表中数据可补充
完善列联表,再根据公式计算卡方,对照临界值表可得.
【详解】因为在100人中随机抽取1人,抽到喜爱该商品的男顾客的概率为 .
所以喜爱该商品的男顾客人数为 ,列联表补充如下:
喜爱该商品 不喜爱该商品 合计
男顾客 40 10 50
女顾客 35 15 50
合计 75 25 100
由 ,
因为 ,所以有超过 的把握认为喜爱该商品与性别有关.
故选:A.
4.足球是一项大众喜爱的运动,为了解喜爱足球是否与性别有关,随机抽取了若干人进行调查,抽取女性人数
是男性的2倍,男性喜爱足球的人数占男性人数的 ,女性喜爱足球的人数占女性人数的 ,若本次调查得出
“在犯错误的概率不超过0.005的前提下认为喜爱足球与性别有关”的结论,则被调查的男性至少有( )
人
a 0.10 0.05 0.01 0.005 0.001
2.706 3.841 5.635 7.879 10.828
A.10 B.11 C.12 D.13
【答案】C【分析】根据题意,设出男生人数,从而计算出列联表,再算出 7.879比较即可.
【详解】设被调查的男性为 人,则女性为 人,依据题意可得列联表如下表:
男性 女性 合计
喜爱足球
不喜爱足球
合计
,
因为本次调查得出“在犯错误的概率不超过0.005的前提下认为喜爱足球与性别有关”的结论,所以有
,即 ,
解得 ,又因为上述列联表中的所有数字均为整数,
故 的最小值为12.
故选:C.
5.第19届亚运会将于2023年9月23日至10月8日在杭州举行,某网络直播平台调研“大学生是否喜欢
观看体育比赛直播与性别有关”,从某高校男、女生中各随机抽取100人进行问卷调查,得到如下数据
.
喜欢观看 不喜欢观看
男
生
女
生
通过计算,有95%以上的把握认为大学生喜欢观看直播体育比赛与性别有关,则在被调查的100名女生中
喜欢观看体育比赛直播的人数的最大值为( )
附: ,其中 .0.15 0.10 0.05 0.010 0.001
2.072 2.706 3.841 6.635 10.828
A.55 B.57 C.58 D.60
【答案】C
【分析】根据公式求出 的值,根据题意知 ,结合 的范围,可求出 的范围,即可得解.
【详解】因为
,
所以 ,
又 ,所以 ,解得 ,
故在被调查的100名女生中喜欢观看体育比赛直播的人数的最大值为58.
故选:
二、多选题
6.某高校有在校学生9000人,其中男生4000人,女生5000人,为了解学生每天自主学习中国古典文学
的时间,随机调查了40名男生和50名女生,其中每天自主学习中国古典文学的时间超过3小时的学生称
为“古文迷”,否则为“非古文迷”,调查结果如下表,则( )
古文
非古文迷
迷
男生 20 20
女生 40 10
参考公式: ,其中 .参考数据:
0.50 0.40 0.25 0.05 0.025 0.010
0.455 0.708 1.321 3.841 5.024 6.635A.该校某位学生为古文迷的概率的估计值为0.6
B.随机调查的男女生人数符合分层抽样的抽样方法
C.有 的把握认为学生是否为“古文迷”与性别有关系
D.没有 的把握认为学生是否为“古文迷”与性别有关系
【答案】BC
【分析】根据题中数据结合概率统计相关知识逐项分析.
【详解】该校某位学生为古文迷的概率的估计值为 ,A错.
男生4000人,女生5000人,随机调查了40名男生和50名女生, ,符合分层抽样的抽
样方法,B对.
因为 ,故有 的把握认为学生是否为“古文迷”与性别有关系,故
C对,D错,
故选:BC.
7.千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰
富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨
在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了A地区的100天日落和夜晚天气,
得到如下2×2 列联表,并计算得到χ2≈19.05,下列小波对A地区天气的判断正确的是( )
夜晚天气
日落云里
走
下雨 未下雨
出现 25 5
未出现 25 45
A.夜晚下雨的概率约为
B.未出现“日落云里走”,夜晚下雨的概率约为
C.依据α=0.005 的独立性检验,认为“日落云里走”是否出现与夜晚天气有关
D.依据α=0.005 的独立性检验,若出现“日落云里走”,则认为夜晚一定会下雨
【答案】ABC
【分析】用古典概型的计算公式判断 ;由独立性检验可判断 .【详解】根据列联表可知,100天中有50天下雨,50天未下雨,因此夜晩下雨的概率约为 = ,A正
确;
未出现“日落云里走”,夜晩下雨的概率约为 = ,B正确;
χ2≈19.05>7.879=x0.005,因此依据α=0.005 的独立性检验,
认为“日落云里走”是否出现与夜晩天气有关,C正确;
依据α=0.005的独立性检验,可判断“日落云里走,雨在半夜后”的说法犯错误的概率小于0.005,
但不代表一定会下雨,D错误.
故选:ABC
三、解答题
8.某高中有50名学生参加数学竞赛,得分(满分:150分)如下:
女
1 4 5 5 3 2
生
男
0 2 4 12 9 3
生
(1)若得分不低于120分的学生称为“数学优秀者”.问:是否有95%的把握认为“数学优秀者”与性别有关;
(2)若在竞赛得分不低于130分的男生中随机抽取3人,求这3人中至少有1人得分在 内的概率.
附: ,其中 .
0.05 0.025 0.010 0.001
3.841 5.024 6.635 10.828
【答案】(1)有95%的把握认为“数学优秀者”与性别有关;
(2) .
【分析】(1)列出二联表,由卡方公式计算对照表格判定即可;
(2)利用古典概型计算即可.
【详解】(1)由已知列2×2列联表如下:数学是否优秀
数学优秀者 不优秀 合计
性别
男 24 6 30
女 10 10 20
合计 34 16 50
所以
∴有95%的把握认为“数学优秀者”与性别有关.
(2)由表格可知得分不低于130分的男生有12人,其中得分在 内的有3人.
∴3人中至少有1人得分在 内的概率 .
9.“一带一路”是促进各国共同发展,实现共同繁荣的合作共赢之路.为了了解我国与某国在“一带一
路”合作中两国的贸易量情况,随机抽查了100天进口贸易量与出口贸易量(单位:亿人民币/天)得下表:
进口
出口
32 18 4
6 8 12
3 7 10
附: .
0.050 0.010 0.001
3.841 6.635 10.828
(1)估计事件“我国与该国贸易中,一天的进口贸易量与出口贸易量均不超过100亿人民币”的概率;
(2)根据所给数据,完成下面的 列联表:
进口
出口(3)根据(2)中的列联表,判断是否有99%的把握认为“我国与该国贸易中一天的进口贸易量与出口贸易
量”有关?
【答案】(1) ;
(2)列联表见解析;
(3)有99%的把握认为我国与该国贸易中一天的进口贸易量与出口贸易量有关.
【分析】(1)利用频率估计所求概率即可;
(2)根据题设完善列联表数据;
(3)由卡方公式及独立检验的基本思想判断结论.
【详解】(1)由表中,在100天中,进口贸易与出口贸易均不超过100的天数为 ,
用频率估计概率,可得所求概率为 .
(2)列出 列联表如下:
进口
出口
64 16
10 10
(3)由(2)得 ,
所以有99%的把握认为我国与该国贸易中一天的进口贸易量与出口贸易量有关.
10.为了了解高中学生课后自主学习数学时间( 分钟/每天)和他们的数学成绩( 分)的关系,某实验
小组做了调查,得到一些数据(表一).
表一
编号 1 2 3 4 5
3 6
学习时间 40 50 70
0 0
6 9
数学成绩 78 85 108
5 9
(1)请根据所给数据求出 , 的经验回归方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩:(参考数据: , , 的方差为200)
(2)基于上述调查,某校提倡学生周末在校自主学习.经过一学期的实施后,抽样调查了220位学生.按照
是否参与周未在校自主学习以及成绩是否有进步统计,得到 列联表(表二).依据表中数据及小概率
值 的独立性检验,分析“周末在校自主学习与成绩进步”是否有关.
表二
没有进步 有进步 合计
参与周末在校自主学习 35 130 165
未参与周末不在校自主学习 25 30 55
合计 60 160 220
附: , , .
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【答案】(1) ,140.5分
(2)可以认为“周末自主学习与成绩进步”有关.
【分析】(1)先求出平均数,利用最小二乘法求出回归方程,代入数据即可预测;
(2)根据题意计算出 ,进而由 的独立性检验得出答案.
【详解】(1) ,
,又 的方差为 ,
所以 ,
,故 ,当 时, ,
故预测每天课后自主学习数学时间达到100分钟时的数学成绩为140.5分.(2)零假设为 :学生周末在校自主学习与成绩进步无关.
根据数据,计算得到:
,
因为 ,
所以依据 的独立性检验,可以认为“周末自主学习与成绩进步”有关.
11.直播带货是一种直播和电商相结合的销售手段,目前已被广大消费者所接受.针对这种现状,某公司
决定逐月加大直播带货的投入,直播带货金额稳步提升,以下是该公司2023年前5个月的带货金额:
月份 1 2 3 4 5
带货金额 /万元 350 440 580 700 880
(1)计算变量 , 的相关系数 (结果精确到0.01).
(2)求变量 , 之间的线性回归方程,并据此预测2023年7月份该公司的直播带货金额.
(3)该公司随机抽取55人进行问卷调查,得到如下不完整的列联表:
参加过直播带货 未参加过直播带货 总计
女
25 30
性
男
10
性
总
计
请填写上表,并判断是否有90%的把握认为参加直播带货与性别有关.
参考数据: , , ,
, .
参考公式:相关系数 ,线性回归方程的斜率 ,截距
.附: ,其中 .
0.15 0.10 0.05 0.025
2.072 2.706 3.841 5.024
【答案】(1)0.99
(2) ,1118万元
(3)表格见解析,有
【分析】(1)直接代入求相关系数即可;
(2)根据线性回归方程求解回归方程即可;
(3)零假设之后计算 ,再比较大小判断零假设是否成立即可.
【详解】(1)
(2)因为 , , , ,
所以 , ,
所以变量 , 之间的线性回归方程为 ,
当 时, (万元).
所以预测2023年7月份该公司的直播带货金额为1118万元.
(3)补全完整的列联表如下.
参加过直播带货 未参加过直播带货 总计
女性 25 5 30
男性 15 10 25
总计 40 15 55零假设 :参加直播带货与性别无关,
根据以上数据,经计算得到 ,
根据小概率值 的独立性检验我们推断 不成立,即参加直播带货与性别有关,该判断犯错误的概
率不超过 .
12.某地区对某次考试成绩进行分析,随机抽取100名学生的A,B两门学科成绩作为样本.将他们的A
学科成绩整理得到如图所示的频率分布直方图,且规定成绩不小于70分为良好.已知他们中B学科良好的
有50人,两门学科均良好的有40人.
(1)根据所给数据,完成下面的 列联表,并根据列联表,判断是否有95%的把握认为这次考试学生的A
学科良好与B学科良好有关;
B学科良好 B学科不够良好 合计
A学科良好
A学科不够良好
合计
(2)为了进一步分析学生成绩,从A学科不够良好的学生中采用分层抽样的方法抽出6人,最后从这6人中
随机选出2人进行访谈,求其中恰有1人为B学科良好的概率.
附: ,其中 .
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
【答案】(1)列联表见解析,有95%把握认为 学科良好与 学科良好有关(2)
【分析】(1)根据题意,列出 列联表,求得 的值,结合附表,即可得到结论;
(2)根据题意,得到所抽 学科良好人数为2人,不够良好人数为4人,利用列举法求得基本事件的总数,
以及所求事件中包含的基本事件的个数,结合古典概型的概率计算公式,即可求解.
【详解】(1)解:由直方图可得 学科良好的人数为 (人),
所以 列联表如下:
B学科良好 B学科不够良好 合计
A学科良好 40 30 70
A学科不够良好 10 20 30
合计 50 50 100
假设 : 学科良好与 学科良好无关,
可得 ,
所以有95%把握认为 学科良好与 学科良好有关.
(2)解:由题意知, 学科不够良好的学生中, 学科良好和不够良好的学生比为
所抽 学科良好人数为2人, 学科不够良好人数为4人,
记“其中恰有1人为 学科良好”为事件 ,
设 学科良好为 , , 学科不够良好分别为 , , , ,
则所有结果为: ,共有15
种,
事件 包含的基本事件 ,共8种;
由古典概型的概率公式,可得概率为 .
13.某校为了弘扬中国诗词文化,现要求全校学生参加诗词大赛,随机抽取了100名学生的测试成绩(单位:分),将数据分成5组: 并整理得到如图的频率分布直方图.
(1)估计该校学生的测试成绩的中位数及平均数(同一组中的数据用该组区间的中点值作代表);
(2)若规定成绩不低于80分的记为“诗词达人”,已知被抽取的男生中的“诗词达人”人数占被抽取男生
总数的一半,且本次调查得出“在犯错误的概率不超过5%的前提下认为是否为诗词达人与性别有关”的
结论,则被调查的100名学生中男生至少有多少人?
附: .
0.100 0.050 0.025 0.010
2.706 3.841 5.024 6.635
【答案】(1) ,76.5
(2)48人
【分析】(1)根据频率之和为 求得 ,根据中位数、平均数的求法求得中位数和平均数.
(2)先填写 列联表,然后利用 列不等式,从而求得正确答案.
【详解】(1)由频率分布直方图得:
,解得 ,
又设中位数和平均数分别为 ,
又因为前三个矩形的面积和为 ,
前两个矩形的面积和为 ,故易知 ,
所以 ,解得: ;又 .
(2)由题意知,诗词达人总数为 ,
设样本中男生人数为 ,则列联表如下:
诗词达人 非诗词达人 合计
男生
女生
合计 40 60 100
,
解得: ,
又易知 为偶数,所以 的最小值为48,
即被调查的100名学生中男生至少有48人.
14.2023年9月8日,第19届亚运会火炬传递启动仪式在杭州西湖景区涌金公园广场成功举行.火炬传递
首日传递从杭州西湖涌金公园广场出发,沿南山路—湖滨路—环城西路—北山街—西泠桥—孤山路传递,
在“西湖十景”之一的平湖秋月收火.杭州亚运会火炬首日传递共有106棒火炬手参与.
(1)组委会从全省火炬手中随机抽取了100名火炬手进行信息分析,得到如下表格:
年龄
性别 总计
满50周岁 未满50周岁
男 15 45 60
女 5 35 40
总计 20 80 100
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
根据小概率值 的 独立性检验,试判断全省火炬手的性别与年龄满或未满50周岁是否有关联;(2)在全省的火炬手中,男性占比72%,女性占比28%,且50%的男性火炬手和25%的女性火炬手喜欢观看
足球比赛.某电视台随机选取一位喜欢足球比赛的火炬手做访谈,请问这位火炬手是男性的概率为多少?
【答案】(1)全省火炬手性别与年龄满或未满50周岁相互独立(没有关联)
(2)
【分析】(1)根据 列联表中的数据,求得 的值,结合附表,即可得到结论;
(2)设 表示火炬手为男性, 表示火炬手喜欢足球,结合条件概率和全概率公式,即可求解.
【详解】(1)解:零假设为: :全省火炬手性别与年龄满或未满50周岁相互独立(没有关联),
根据 列联表中的数据,计算得 ,
所以根据小概率值 的 独立性检验,没有充分证据推断 不成立,
因此可以认定为 成立,
全省火炬手性别与年龄满或未满50周岁相互独立(没有关联).
(2)解:设 表示火炬手为男性, 表示火炬手喜欢足球,
则 ,
所以这位火炬手是男性的概率约为 .
15.某学校现有1000名学生,为调查该校学生一周使用手机上网时间的情况,收集了 名学生某周使用手
机上网时间的样本数据(单位:小时).将数据分为6组: , , , , , ,
并整理得到如下的频率分布直方图:
(1)估计该校学生一周平均使用手机上网时间(每组数据以该组中点值为代表);(2)将一周使用手机上网时间在 内定义为“长时间使用手机上网”;一周使用手机上网时间在 内
定义为“不长时间使用手机上网”,在样本数据中,有 名学生不近视,请补充完成该周使用手机上
网时间与近视程度的列联表.若 为100,那么在犯错误概率不超过0.001的前提下是否能认为该校学生一周
使用手机上网时间与近视程度有关”?
近
不近视 合计
视
长时间使用手机
不长时间使用手机
合计
附: ,其中, .
0.1 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【答案】(1)5.8小时
(2)列联表见解析;能认为
【分析】(1)根据频率分布直方图中平均值的估计方法,即可求得答案;
(2)结合频率分布直方图确定上网时间在 和 之间的比例,即可得到列联表,从而计算出 为
100时 的值,与临界值表比较,即可得出结论.
【详解】(1)根据频率分布直方图可估计该校学生一周平均使用手机上网时间为
(小时);
(2)由频率分布直方图可得上网时间在 和 之间的比例为 ,
故可得列联表:
近视 不近视 合计
长时间使用手机不长时间使用手机
合计 n
若 为100,则 ,
故在犯错误概率不超过0.001的前提下能认为该校学生一周使用手机上网时间与近视程度有关.