文档内容
专题 10 统计案例(独立性检测与回归分析)
一、核心先导
二、考点再现
【考点1】相关关系与回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散
点图;统计量有相关系数与相关指数.
(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相
关.
(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.
【考点2】线性回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
x , y ,x , y ,,x , y
(2)回归方程:两个具有线性相关关系的变量的一组数据: 1 1 2 2 n n ,其回归
n
x y nxy
i i
b i1 ,
n
x2 nx 2
i
i1
ybxa a ybx. x, y
方程为 ,则 注意:线性回归直线经过定点 .
n n
x xy y x y nxy
i i i i
r i1 i1
n n n n
x x2y y2 x2 nx2 y2 ny2
i i i i
(3)相关系数: i1 i1 i1 i1 .【考点3】回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心:对于一组具有线性相关关系的数据(x,y),(x,y),…,(x,y),其中(x,y)称为样
1 1 2 2 n n
本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.
r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有
很强的线性相关性.
(4)相关指数:R2=1-.其中∑ (y-y)2是残差平方和,其值越小,则R2越大(接近1),模型的拟合效果越
i i
好.
【知识拓展】
1.求解回归方程的关键是确定回归系数a,b,应充分利用回归直线过样本中心点(x,y).
2.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.
3.根据回归方程计算的y值,仅是一个预报值,不是真实发生的值.
【考点4】独立性检测
(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分
别为{x,x}和{y,y},其样本频数列联表(2×2列联表)为
1 2 1 2
y y 总计
1 2
x a b a+b
1
x c d c+d
2
总计 a+c b+d a+b+c+d
则随机变量K2=,其中n=a+b+c+d为样本容量.
【知识必备】
1.求解回归方程的关键是确定回归系数a,b,应充分利用回归直线过样本中心点(x,y).
2.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.
3.根据回归方程计算的y值,仅是一个预报值,不是真实发生的值.
三、考点解密
题型一:独立性检测
例1.(1)、(2023·全国·模拟预测)千百年来,我国劳动人民在生产实践中根据云的形状、走向速度、
厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩销云,
地上雨淋林”“日落云里走,雨在半夜后”……小明同学为了验证“日落云里走,雨在半夜后”,观察了
所在地区A的100天日落和夜晚天气,得到如下 列联表:夜晚天气
下雨 不下雨
日落云里走
出现 25 5
不出现 25 45
临界值表
0.10 0.05 0.010 0.001
2.706 3.841 6.635 10.828
并计算得到 ,下列小明对地区天气判断正确的是( )
A.夜晚下雨的概率约为
B.未出现“日落云里走”,但夜晚下雨的概率约为
C.出现“日落云里走”,有99.9%的把握认为夜晚会下雨
D.有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关
【答案】D
【分析】根据表中数据,即可对A,B选项判断,根据对立性检验即可判断C,D.
【详解】根据表中数据可知,夜晚下雨的概率约为 ,所以A错.
未出现“日落云里走”,但夜晚下雨的概率约为 ,故B错.
,对照临界值表可知,有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下
雨”有关,但不能说有99.9%的把握认为夜晚会下雨,故C错,D对.
故选:D
(2)、(2021·全国·模拟预测)2020年12月31日,国务院联防联控机制发布,国药集团中国生物的新型
冠状病毒灭活疫苗已获国家药监局批准附条件上市.在新型冠状病毒疫苗研发过程中,需要利用基因编辑
小鼠进行动物实验.现随机抽取100只基因编辑小鼠对某种新型冠状病毒疫苗进行实验,得到如下2×2列
联表(部分数据缺失):
未被新型冠状病毒感
被新型冠状病毒感染 合计
染
注射疫苗 10 50
未注射疫苗 30 50
合计 30 100
计算可知,在犯错误的概率最多不超过______的前提下,可认为“给基因编辑小鼠注射该种疫苗能起到预防新型冠状病毒感染的效果”.
参考公式: , .
0.10 0.05 0.025 0.010 0.005 0.001
2.706 3.481 5.024 6.635 7.879 10.828
【答案】0.05##5%
【分析】根据题中信息完善2×2列联表,然后结合表中数据计算出 ,对比临界值即可得出结论.
【详解】完善2×2列联表如下:
未被新型冠状病毒感
被新型冠状病毒感染 合计
染
注射疫苗 10 40 50
未注射疫苗 20 30 50
合计 30 70 100
因为 , 所以在犯错误的概
率最多不超过0.05的前提下,可认为“给基因编辑小鼠注射该种疫苗能起到预防新型冠状病毒感染的效
果”.
故答案为:0.05.
【变式训练1-1】、(2022·安徽省芜湖市教育局模拟预测(理))为了检验某种血清预防感冒的作用,把
名使用血清的人与另外 名未使用血清的人一年中的感冒记录作比较,提出假设 :“这种血清不
能起到预防感冒的作用”,利用 列联表计算的结果,认为 成立的可能性不足 ,那么 的一个
可能取值为( )
A. B. C. D.
【答案】A
【分析】由独立性检验的知识直接判断选项即可.
【详解】若 成立的可能性不足 ,则 ,由选项知: .
故选:A.
【变式训练1-2】、(2021·山东青岛·一模)某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55
个学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30个.根据统计结果,
认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过______.
附:
0.05 0.025 0.010 0.001
3.841 5.024 6.635 10.828
【答案】0.025
【分析】根据列联表计算 ,再根据临界值参考数据比较大小即可得出结论.
【详解】
集中培训 分散培训 合计
一次考过 45 30 75
一次未考过 10 20 30
合计 55 50 105
,
故答案为:0.025.
例2、(2023·四川成都·二模(理))某市拟在高一下学期开设游泳选修课,为了了解高一学生喜欢游泳是
否与性别有关,该市在某学校对100名高一新生进行了问卷调查,得到如下列联表:
喜欢游泳 不喜欢游泳 合计
男生 10
女生 20
合计
已知在这100人中随机抽取1人抽到喜欢游泳的学生的概率为 .
(1)请将上述列联表补充完整;
(2)并判断是否有99.9%的把握认为喜欢游泳与性别有关?并说明你的理由;
(3)若在该市男生中随机抽取5人(以频率估计概率),求抽到喜欢游泳的男生人数的数学期望.
下面的临界值表仅供参考:
P 0.15 0.10 0.05 0.025 0.010 0.005 0.001(K2≥k)
k 2.072 2.706 3.841 5.024 6.635 7.879 10.828
(参考公式: ,其中 )
【答案】(1)答案见解析
(2)有99.9%的把握认为喜欢游泳与性别有关,理由见解析
(3)4
【分析】(1)根据这100人中随机抽取1人抽到喜欢游泳的学生的概率为 ,求出喜欢游泳的学生人数,
数据分析得到其他数据,填写列联表;
(2)在第一问基础上计算出卡方,与10.282比较后得到相应结论;
(3)先求出男生中喜欢游泳的概率,从而得到 ,计算出期望.
【详解】(1)因为在100人中随机抽取1人抽到喜欢游泳的学生的概率为 ,
所以喜欢游泳的学生人数为 人,其中女生有20人,男生有40人,
则不喜欢游泳的有40人,其中女生有30人,
列联表补充如下:
喜欢游泳 不喜欢游泳 合计
男生 40 10 50
女生 20 30 50
合计 60 40 100
(2)因为
所以有99.9%的把握认为喜欢游泳与性别有关
(3)易知,样本中有男生50人,喜欢游泳的有40人,故随机抽取一人,抽到喜欢游泳的概率P=0.8,
设在该市男生中随机抽取5人,抽到喜欢游泳的男生人数为X,则
,
故E(X)=5×0.8=4.
【变式训练2-1】、(2022·全国·安阳市第二中学模拟预测(理))随着人脸识别技术的发展,“刷脸支
付”成为了一种便捷的支付方式,但是这种支付方式也带来了一些安全性问题.为了调查不同年龄层的人
对“刷脸支付”所持的态度,研究人员随机抽取了300人,并将所得结果统计如下表所示.年龄
频数 30 75 105 60 30
持支持态度 24 66 90 42 18
(1)完成下列2×2列联表,并判断是否有99.9%的把握认为年龄与所持态度具有相关性;
年龄在50周岁以上(含50周
年龄在50周岁以下 总计
岁)
持支持态度
不持支持态度
总计
(2)以(1)中的频率估计概率,若在该地区所有年龄在50周岁以上(含50周岁)的人中随机抽取4人,记
X为4人中持支持态度的人数,求X的分布列以及数学期望;
(3)已知某地区“万嘉”连锁超市在安装了“刷脸支付”仪器后,使用“刷脸支付”的人数y与第x天之间
的关系统计如下表所示,且数据的散点图呈现出很强的线性相关的特征,请根据表中的数据用最小二乘法
求y与x的回归直线方程 .
i 1 2 3 4 5 6 7
2 4 8 12 22 26 38
第 天
使用人数
参考数据: , .
0.050 0.010 0.001
k 3.841 6.635 10.828
参考公式: , , .
【答案】(1)表格见解析,有
(2)分布列见解析,
(3) .
【分析】(1)由频数分布表直接填写即可;结合 公式可判断相关性;(2)由频数分布表可判断支持态度的人数符合 ,结合二项分布的概率公式可求X的分布列以
及数学期望;
(3)先求出 ,再由 求出 ,再由 求出 ,进而求出线性回归方程.
【详解】(1)完成列联表如下:
年龄在50周岁以上(含50周
年龄在50周岁以下 总计
岁)
持支持态度 60 180 240
不持支持态度 30 30 60
总计 90 210 300
故本次实验中 的观测值 ,
故有99.9%的把握认为年龄与所持态度具有相关性;
(2)依题意, ,
故 , ,
, ,
;
故X的分布列为:
X 0 1 2 3 4
P
故 ;
(3)依题意, , ,由 得 ,,
所以 .
故y关于x的线性回归方程是 .
题型二:线性回归方程的应用
例3.(1)、(2022·四川·树德中学高二阶段练习(文))某种产品的广告费支出x与销售额y(单位:万
元)之间有下表关系
1 3 4 5 7
3
40 60 50 70
0
y与x的线性回归方程为 ,当广告支出5万元时,随机误差的效应(残差)为( )
A.20 B.-10 C.10 D.-6.5
【答案】D
【分析】利用线性回归方程,令 ,求得 ,再求残差即可.
【详解】解:因为y与x的线性回归方程为 ,
当 时, ,
则 ,
所以当广告支出5万元时,随机误差的效应(残差)为-6.5,
故选:D
(2)、(2022·云南省玉溪第一中学高三开学考试)新能源汽车的核心部件是动力电池,电池占了新能源
整车成本的大头,而其中的原材料碳酸锂又是电池的主要成分.从2020年底开始,碳酸锂的价格一路水涨
船高,下表是2022年某企业的前5个月碳酸锂的价格与月份的统计数据:
月份代码 1 2 3 4 5
碳酸锂价格 (万元/kg) 0.5 0.6 1 1.5
根据表中数据,得出y关于x的经验回归方程为 ,根据数据计算出在样本点 处的残差为
,则表中 ______.
【答案】 ## ##
【分析】根据残差的定义用观测值减去预测值,列方程求参数a,再根据样本中心在回归方程上求m值.
【详解】由题设, ,可得 .又 , ,
所以 ,可得 .
故答案为:
【变式训练3-1】、(2022·全国·高三专题练习)已知变量y关于x的回归方程为 ,若对
两边取自然对数,可以发现 与x线性相关,现有一组数据如下表所示, 时,预测y值为
___________.
x 1 2 3 4
y e
【答案】 ##
【分析】对 两边取对数,得 令 则 ,
利用对称中心点在函数图象上即得 ,进而确定解析式,求出预测值.
【详解】对 两边取对数,得 令 则
x 1 2 3 4
y e
z 1 3 4 6
代入 得 故
故 ,
当 时,
故答案为:
【变式训练3-2】、(2022·新疆石河子一中高二阶段练习(理))从非洲蔓延到东南亚的蝗虫灾害严重威
胁了国际农业生产,影响了人民生活.世界性与区域性温度的异常、旱涝频繁发生给蝗灾发生创造了机会.
已知蝗虫的产卵量y与温度x的关系可以用模型 (其中e为自然对数的底数)拟合,设 ,
其变换后得到一组数据:
x 20 23 25 27 30
z 2 2.4 3 3 4.6由上表可得经验回归方程 ,则当x=60时,蝗虫的产卵量y的估计值为( )A. B.10
C.6 D.
【答案】D
【分析】根据线性回归方程的性质求出 ,由此可求 ,
【详解】由表格数据知: , ,因为数对
满足 ,得 ,∴ ,即 ,∴ ,∴x=60时,
,
故当x=60时,蝗虫的产卵量y的估计值为 ,
故选:D.
例4.(2023·全国·高三专题练习)全国两会召开前夕,许多人大代表关心雾霾治理,倡导绿色发展,击碎
十面“霾伏”.通过不懈努力,近两年某市空气质量逐步改善,居民享受着在藏天白云下出行和锻炼.PM
2.5
的值是表示空气中某种颗粒物的浓度,通常用来代表空气的污染情况,这个值越高空气污染就越严重,如
表是某人朋友圈内室外锻炼的人数与PM 值的一组数据.
2.5
10
PM 的值x 110 80 60 50
2.5
0
室外锻炼人数y(人) 90 95 100 105 110
(1)请用相关系数r(精确到0.01)说明y与x之间具有线性相关关系;
(2)若室外锻炼人数与PM 的值存在线性关系,请根据上表提供的数据,当PM 的值为40时,估计室外
2.5 2.5
锻炼人数(四舍五入);
(3)将表格中的x与y数据看作五个点的坐标(x,y),从这五个点中任意抽取两个点,求这两个点都在圆
(x﹣80)2+(y﹣90)2=100外的概率.
参考公式: , ,
参考数据: , , , 5.10, 15.81.
【答案】(1)说明见解析
(2)112
(3)
【分析】(1)由题意,利用相关系数计算公式,利用给定数据,可得答案;
(2)利用回归直线方程系数的计算公式,可得答案;(3)根据古典概型的概率计算公式,根据圆的性质以及组合数的计算,可得答案.
【详解】(1) (110+100+80+60+50)=80, (90+95+100+105+110)=100,
.
∴y与x之间具有较强的负线性相关关系.
(2) ,
,∴y与x的线性回归方程为:y=﹣0.31x+124.8.
当x=40时,y=﹣0.31×40+124.8≈112.
当PM 的值为40时,室外锻炼人数估计为112人.
2.5
(3)5个点中,只有点(80,100)在圆上,其余4点都在圆外,
∴这五个点中任意抽取两个点,两个点都在圆外的概率为P .
【变式训练4-1】、(2022·全国·高二课时练习)有人收集了某城市居民年收入(所有居民在一年内收入的
总和)与A商品销售额的10年数据,如表所示.
第n年 1 2 3 4 5 6 7 8 9 10
居民年收入(亿元) 32.2 31.1 32.9 35.8 37.1 38 39 43 44.6 46
A商品销售额(万元) 25.0 30.0 34.0 37.0 39.0 41.0 42.0 44.0 48.0 51.0
画出散点图,判断成对样本数据是否线性相关,并通过样本相关系数推断居民年收入与A商品销售额的相
关程度和变化趋势的异同.
参考数据: , , , , .
【答案】答案见解析
【分析】根据表中数据画出散点图即可,再根据参考数据以及相关系数的公式求值即可.
【详解】画出散点图如下.从散点图看,A商品销售额与居民年收入的样本数据呈现线性相关关系..
可以推断居民年收入与A商品销售额正相关,即居民年收入越高,A商品销售额也越大.
题型三:回归方程的应用(曲线型)
例5.(2022·全国·高三专题练习)为了研究某种细菌随天数 变化的繁殖个数 ,收集数据如下:
天数 1 2 3 4 5 6
繁殖个数 4
6 12 25 95 190
9
(1)在图中作出繁殖个数 关于天数 变化的散点图,并由散点图判断 ( 为常数)与
( 为常数,且 )哪一个适宜作为繁殖个数 关于天数 变化的回归方程类型?(给出判断
即可,不必说明理由)
(2)对于非线性回归方程 ( 为常数,且 ),令 ,可以得到繁殖个数的对数z关于天数x具有线性关系及一些统计量的值.
3.50 62.83 3.53 17.50 596.57 12.09
(ⅰ)证明:“对于非线性回归方程 ,令 ,可以得到繁殖个数的对数 关于天数 具有线
性关系(即 为常数)”;
(ⅱ)根据(ⅰ)的判断结果及表中数据,建立 关于 的回归方程(系数保留2位小数).
附:对于一组数据 ,其回归直线方程 的斜率和截距的最小二乘估计分
别为 .
【答案】(1)选择 为回归方程较宜
(2)(ⅰ)证明见解析;(ⅱ)
【分析】(1)根据散点图趋势选择;(2)将非线性回归方程模型转化为线性回归方程模型,结合所给数据求解.
【详解】(1)作出散点图如图所示.
由散点图看出样本点分布在一条指数型曲线 的周围,
故选择 为回归方程较宜.
(2)
(i)证明:由已知:令 ,则 ,
则 , ,即 .所以繁殖个数的对数 关于天数 具有线性关系.
(ii)由(i)知繁殖个数的对数 关于天数 可以用线性回归方程来拟合.由表中数据可得,
,
,得到 关于 的线性回归方程为 ,又 ,
因此细菌的繁殖个数 关于天数 的非线性回归方程为 .
【变式训练5-1】、(2023·全国·高三专题练习)多年来,清华大学电子工程系黄翔东教授团队致力于光谱
成像芯片的研究,2022年6月研制出国际首款实时超光谱成像芯片,相比已有光谱检测技术,实现了从单
点光谱仪到超光谱成像芯片的跨越,为制定下一年的研发投入计划,该研发团队为需要了解年研发资金投
入量x(单位:亿元)对年销售额 (单位:亿元)的影响,结合近12年的年研发资金投入量x,和年销
售额 ,的数据( ,2, ,12),该团队建立了两个函数模型:① ② ,其中
均为常数,e为自然对数的底数,经对历史数据的初步处理,得到散点图如图,令
,计算得如下数据:
20 66 770 200 14
460 3125000 21500
(1)设 和 的相关系数为 和 的相关系数为 ,请从相关系数的角度,选择一个拟合程度更好
的模型;
(2)(i)根据(1)的选择及表中数据,建立 关于 的回归方程(系数精确到0.01);
(ii)若下一年销售额 需达到80亿元,预测下一年的研发资金投入量 是多少亿元?
附:①相关系数 ,回归直线 中斜率和截距的最小二乘估计公式分别为:
, ;②参考数据: .
【答案】(1)模型 的拟合程度更好
(2)(i) (ii)预测下一年的研发资金投入量是 亿元
【分析】(1)由题意计算相关系数,比较它们的大小即可判断;(2)(i)先建立 关于 的的线性回归方
程,再转化为y关于 的回归方程;(2)利用回归方程计算 时x的值即可.
【详解】(1)由题意进行数据分析:
则 ,因此从相关系数的角度,模型 的拟合程度更好
(2)(i)先建立 关于 的线性回归方程.
由 ,得 ,即 .
由于
所以 关于 的线性回归方程为 ,
所以 ,则 .
(ii)下一年销售额 需达到80亿元,即 ,代入 得, ,
又
所以 ,解得 ,
所以预测下一年的研发资金投入量是 亿元四、分层训练
A组 基础巩固
1.(2010·吉林·模拟预测(理))某医疗研究所为了检查新研发的疫苗对某种病毒的预防作用,把1000
只已注射疫苗的小白鼠与另外1000只未注射疫苗的小白鼠的感染记录作比较,提出原假设 :“这种疫
苗不能起到预防该病毒传染的作用.”并计算得 ,则下列说法正确的是( )
A.这种疫苗对预防该病毒传染的有效率为1%
B.若某人未使用疫苗,则他有99%的可能性传染该病毒
C.有99%的把握认为“这种疫苗能起到预防该病毒传染的作用”
D.有1%的把握认为“这种疫苗能起到预防该病毒传染的作用”
【答案】C
【分析】由已知,根据题意给的卡方值,应用独立性检验的基本思想可以得到结论.
【详解】由已知, ,说明假设不合理的程度为99%,
即这种疫苗不能起到防范病毒的作用不合理的程度约为99%,
所以有99%的把握认为这种疫苗能起到预防病毒的作用.
故选:C.
2.(2022·全国·模拟预测)某初级中学有700名学生,在2021年秋季运动会中,为响应全民健身运动的
号召,要求每名学生都必须在“立定跳远”与“坐位体前屈”中选择一项参加比赛.根据报名结果知道,
有 的男生选择“立定跳远”,有 的女生选择“坐位体前屈”,且选择“立定跳远”的学生中女生占 ,
则参照附表,下列结论正确的是( )
附:
0.10 0.05 0.025
2.706 3.841 5.024
,n=a+b+c+d.A.在犯错误的概率不超过2.5%的前提下,认为选择运
动项目与性别无关
B.在犯错误的概率不超过5%的前提下,认为选择运动项目与性别无关
C.有97.5%的把握认为选择运动项目与性别有关
D.有95%的把握认为选择运动项目与性别有关
【答案】C
【分析】本题利用独立性检验列表分别求出男生和女生人数后,利用相关系系数的计算公式求解即可逐项
判断【详解】解:由题意得:
设该校男生人数为x,女生人数为y,则可得如下表格:
立定跳
坐位体前屈 总计
远
男生 x
女生 y
总计 x+y
由题意知 ,即 ,又x+y=700,解得 则
,所以有97.5%的把握认为选择运动项目与性别有关.
故选C.
3.(2022·四川成都·三模(理))在某大学一食品超市,随机询问了70名不同性别的大学生在购买食物
时是否查看营养说明,得到如下的列联表:
女 男 总计
要查看营养说
15 25 40
明
不查看营养说
20 10 30
明
总计 35 35 70
附: ,其中 .
0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879
根据列联表的独立性检验,则下列说法正确的是( ).A.在犯错误的概率不超过0.05的前提下认为该校大学生在购买食物时要查看营养说明的人数中男生人数更多
B.在犯错误的概率不超过0.010的前提下认为该校女大学生在购买食物时要查看营养说明的人数与不查看
营养说明的人数比为
C.在犯错误的概率不超过0.025的前提下认为性别与是否查看营养说明有关系
D.在犯错误的概率不超过0.010的前提下认为性别与是否查看营养说明有关系
【答案】C
【分析】由题可得 ,进而即得.
【详解】由题可得 ,
∴在犯错误的概率不超过0.025的前提下认为性别与是否查看营养说明有关系.
故选:C.
4.(2022·河南·长葛市第一高级中学模拟预测(理))某校计划在课外活动中新增攀岩项目,为了解学生
喜欢攀岩和性别是否有关,面向全体学生开展了一次随机调查,其中参加调查的男、女生人数相同,并绘
制成等高条形图(如图所示),则下列说法正确的是( )
0.05 0.01
3.841 6.635
参考公式: , .A.参与调查的学生中喜欢攀岩的女生人数
比喜欢攀岩的男生人数多
B.参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数多
C.若参与调查的男、女生人数均为100人,则能在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性
别有关
D.无论参与调查的男、女生人数为多少,都能在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别
有关
【答案】C【分析】A选项,根据男生女生参加调查人数相同和喜欢攀岩的人数比例,得到喜欢攀岩的男生人数比喜
欢攀岩的女生多;B选项,参与调查的女生中喜欢攀岩的人数占30%,不喜欢攀岩的人数占70%,从而作
出判断;C选项,列出列联表,计算卡方,与6.635比较大小得到结论;D选项,如果不确定参与调查的
男、女生人数,无法计算 ,故D选项错误.
【详解】对于选项A:因为参加调查的男、女生人数相同,而男生中喜欢攀岩的占80%,女生中喜欢攀岩
的占30%,所以参与调查的学生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多,所以选项A错误;
对于选项B:参与调查的女生中喜欢攀岩的人数占30%,不喜欢攀岩的人数占70%,所以参与调查的女生
中喜欢攀岩的人数比不喜欢攀岩的人数少,所以选项B错误;
对于选项C:若参与调查的男、女生人数均为100人,根据图表,列出2×2列联表如下:
喜欢 不喜欢 合计
男 80 20 100
女 30 70 100
合计 110 90 200
所以 ,
所以在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关,C正确;
对于选项D:如果不确定参与调查的男、女生人数,无法计算 ,D错误.
故选:C.
5.(2022·山西·怀仁市第一中学校二模(理))2021年7月24日,中共中央办公厅国务院办公厅印发
《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》,要求学校做好课后服务,结合学
生的兴趣爱好,开设体育、美术、音乐、书法等特色课程.某初级中学在课后延时一小时开设相关课程,为
了解学生选课情况,在该校全体学生中随机抽取50名学生进行问卷调查,得到如下数据:(附:计算得到
的观测值为 .)
不喜欢音
喜欢音乐
乐
喜欢体育 20 10
不喜欢体育 5 15
0.05 0.025 0.10 0.005 0.001
3.841 5.024 6.635 7.879 10.828根据以上数据,对该校学生情况判断不正确的是( )A.估计该校既喜欢体育又喜欢音乐的学生约占
B.从这30名喜欢体育的学生中采用随机数表法抽取6人做访谈,则他们每个个体被抽到的概率为
C.从不喜欢体育的20名学生中任选4人做访谈,则事件“至少有2人喜欢音乐”与“至多有1人不喜欢
音乐”为对立事件
D.在犯错误的概率不超过0.005的前提下,认为“喜欢体育”与“喜欢音乐”有关系
【答案】C
【分析】根据古典概率公式即可判断AB,根据对立事件定义可判断C,由独立性检验定义可判断D.
【详解】对A选项,估计该校既喜欢体育又喜欢音乐的学生约占 ,正确;
对B选项,每个个体被抽到的概率为 ,正确;
对C选项,“至少有2人喜欢音乐”与“至多有1人喜欢音乐”为对立事件,则C错;
对D选项,由 ,
则在犯错误的概率不超过0.005的前提下,认为“喜欢体育”与“喜欢音乐”有关系,故D正确.
故选:C
6.(2022·上海市奉贤中学高二期末)已知变量 之间的线性回归方程为 ,且变量 之
间的一组相关数据如表所示,
6 8 10 12
6 m 3 2
则下列说法中错误的有( )A.变量 之间呈现负相关关系 B.变量 之间的相关系数
C. 的值为5 D.该回归直线必过点
【答案】B
【分析】根据线性回归方程的系数 ,可判断A;计算 , ,代入线性回归方程可
求得m的值,判断C;利用相关系数公式求得相关系数,判断B;根据线性回归方程必过样本中心点,可判
断D.
【详解】对于A∶根据线性回归方程为 ,可知回归系数 ,
故判断 之间呈现负相关关系,A正确;
对于C,根据表中数据,计算 , ,
代入回归方程得 ,解得 ,C正确;对于B︰变量 之间的相关系数 ,B错误;
对于D∶由以上分析知 ,线性回归方程一定过点 ,
∴线性回归方程过点 ,D正确,
故选:B.
7.(2022·全国·高二课时练习)下面各图中,散点图与相关系数r不符合的有( )
A. B.
C. D.
【答案】B
【分析】根据散点图和相关系数的知识确定正确选项.
【详解】对于A,散点图上所有点都在一条斜率小于0的直线上,所以相关系数r=-1,A正确;
对于B,散点图上所有点都在一条斜率大于0的直线上,所以相关系数r=1,B错误;
对于C,散点图上所有点从左到右是向下的带状分布,所以相关系数 ,C正确;
对于D,散点图中,x,y之间的相关关系非常不明显,所以相关系数r=0,D正确.
故选:B.
8.(2022·全国·高三专题练习)甲、乙、丙、丁四位同学各自对 两变量的线性相关性做试验,分别求得
样本相关系数 ,如下表:
甲 乙 丙 丁
则试验结果中 两变量有更强线性相关性的是( )A.甲 B.乙 C.丙 D.丁
【答案】B【分析】由相关系数的绝对值的大小判断.
【详解】由已知,乙的相关系数的绝对值为 ,是四人中最大的,因此乙同学有更强的相关性.
故选:B.
9.(2022·全国·高三专题练习)一只红铃虫的产卵数y和温度x有关,现收集了6组观测数据,y(单位:
个)与温度x(单位:℃)得到样本数据 ( ,2,3,4,5,6),令 ,并将 绘制
成如图所示的散点图.若用方程 对y与x的关系进行拟合,则( )
A. , B. ,
C. , D. ,
【答案】A
【分析】令 ,可得z与x的回归方程为 ,根据散点图,可得z与x正相关,所以 ,
根据纵截距大于0,可得a的范围,即可得答案.
【详解】因为 ,令 ,则z与x的回归方程为 .
根据散点图可知z与x正相关,所以 .
由回归直线图象可知:回归直线的纵截距大于0,即 ,
所以 ,
故选:A.
10.(2022·河南南阳·高二期末(文))2022年初以来,5G技术在我国已经进入高速发展的阶段,5G手
机的销量也逐渐上升,某手机商城统计了1至5月份5G手机的实际销量,如下表所示:
月份x 1月 2月 3月 4月 5月
销售量y(千只) 0.5 0.6 1.0 1.4 1.7
若y与x线性相关,且求得线性回归方程为 ,则下列说法不正确的是( )A.由题中数据
可知,变量x和y正相关,且相关系数一定小于1
B.由题中数据可知,6月份该商场5G手机的实际销量为2(千只)
C.若不考虑本题中的数据,回归直线可能不过 , ,…, 中的任一个点
D.回归直线一定过点
【答案】B【分析】根据回归方程的性质逐个判断即可
【详解】对A,根据表格数据可得,变量x和y正相关,又y每个月的增量不均匀,故x和y不完全满足线
性关系,故相关系数一定小于1, 故A正确;
对B,6月份该商场5G手机的实际销量未知,只能估计,故B错误;
对C,不考虑本题中的数据,回归直线是由最小二乘法得出,可能不过 , ,…, 中
的任一个点,故C正确;
对D,根据回归直线的计算方法可知,回归直线一定过点 ,故D正确;
故选:B
11.(2020·安徽蚌埠·三模(文))某企业为了调查其产品在国内和国际市场的发展情况,随机抽取国内、
国外各100名客户代表,了解他们对该企业产品的发展前景所持的态度,得到如图所示的等高条形图,则
________ (填“能”或“不能”)有 以上的把握认为是否持乐观态度与国内外差异有关.
附 .
0.050 0.010 0.005 0.001
k 3.841 6.635 7.879 10.828
【答案】能
【分析】根据条形图得出列联表,计算卡方,结合附表进行判断.
【详解】由题意可得列联表如下:
不乐观 乐观 合计
国内代表 40 60 100
国外代表 60 40 100
合计 100 100 200
则 ,所以有 以上的把握认为是否持乐观态度与国内外差异有关.
故答案为:能.
【点睛】本题主要考查独立性检验,根据题意列出列联表,计算卡方是求解的关键,侧重考查数据分析的
核心素养.
12.(2022·全国·高二课时练习) 年初以来, 技术在我国已经进入高速发展的阶段, 手机的
销量也逐渐上升,某手机商城统计了近 个月来 手机的实际销量,如下表所示:
月份 年 月 年 月 年 月 年 月 年 月
月份编号
销量 /千部
若 与 线性相关,且求得线性回归方程为 ,则下列说法:
① ;② 与 正相关;③ 与 的相关系数为负数;④ 月份该手机商城的 手机销量约为 万
部.
其中正确的是________.(把正确的序号填在横线上)
【答案】①②
【分析】将月份编号的平均数代入线性回归方程,则可计算出销量的平均数,利用总销量可得 值;由回
归方程中的 的系数为正可知, 与 正相关;将 代入,可得7月份该手机商城的 手机销量.
【详解】由表中数据,计算得 ,∴ ,
于是得 ,解得 ,则①正确,
由回归方程中的 的系数为正可知, 与 正相关,且其相关系数 ,则②正确,③错误,
月份时, , (万部),则④错误,
故答案为:①②
13.(2023·上海·高三专题练习)已知变量 , 的关系可以用模型 拟合,设 ,其变换后
得到一组数据如下:
4 6 8 10
2 3 5 6
由上表可得线性回归方程 ,则 ______.
【答案】 ##
【分析】根据表格数据求 ,代入回归方程求参数a,结合 得 ,由方程的形式可知
,即可求c.【详解】由表格数据知: .
由 ,得 ,则 .
∴ ,
由 ,得 ,
∴ ,即 .
故答案为: .
14.(2022·山西·运城市景胜中学高二期中)某设备的使用年数x与所支出的维修总费用y的统计数据如下
表:
使用年数x(单位:年) 2 3 4 5 6
维修总费用y(单位:万元) 1.5 4.5 5.5 6.5 7.5
根据上表可得经验回归方程为 .现有一对测量数据 ,则该数据的残差为______万元.
【答案】
【分析】根据回归直线经过样本点的中心,先求出 ,在根据残差的定义求解.
【详解】由表格,得 , ,因为回归直线方程为 ,所以 ,则 ,即
, 时, ,∴残差为 .
故答案为: .
15.(2022·河北·模拟预测(理))人工智能教育是将人工智能与传统教育相融合,借助人工智能和大数
据技术打造一个智能化教育生态,通过线上和线下结合的学习方式,让学生享受到个性化教育.为了解某
公司人工智能教育发展状况,通过中国互联网数据平台得到该公司2017年一2021年人工智能教育市场规
模统计表,如表所示,用 表示年份代码 年用1表示,2018年用2表示,依次类推),用 表示市场
规模(单位:百万元).
1 2 3 4 5
4
56 64 68 72
5
(1)已知 与 具有较强的线性相关关系,求 关于 的线性回归方程;
(2)该公司为了了解社会人员对人工智能教育的满意程度,调研了200名参加过人工智能教育的人员,得到
数据如表:
满意 不满意 总计
男 90 110女 30
总计 150
完成 列联表,并判断是否有 的把握认为社会人员的满意程度与性别有关?
附1:线性回归方程: ,其中 , ;
附2: , .
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
【答案】(1)
(2)列联表见详解,有 的把握认为社会人员的满意程度与性别有关
【分析】(1)利用公式求出 , ,即可得出结论;
(2)求得 ,与观测值比较,即可得出结论.
【详解】(1)由题意得, , ,
,
,
,
,
所以 关于 的线性回归方程为 .
(2)由题意得如下 列联表:
满意 不满意 总计
男 90 20 110
女 60 30 90总计 150 50 200
,
所以有 的把握认为社会人员的满意程度与性别有关.
16.(2022·全国·安阳市第二中学模拟预测(文))随着人脸识别技术的发展,“刷脸支付”成为了一种
便捷的支付方式,但是这种支付方式也带来了一些安全性问题.为了调查不同年龄层的人对“刷脸支付”
所持的态度,研究人员随机抽取了300人,并将所得结果统计如下表所示:
年龄
频数 30 75 105 60 30
持支持态度 24 66 90 42 18
(1)完成下列 列联表,并判断是否有99.9%的把握认为年龄与所持态度具有相关性;
年龄在50周岁以上(含50周岁) 年龄在50周岁以下 总计
持支持态度
不持支持态
度
总计
(2)已知某地区“万嘉”连锁超市在安装了“刷脸支付”仪器后,使用“刷脸支付”的人数y与第x天之间
的关系统计如下表所示,且数据的散点图呈现出很强的线性相关的特征,请根据表中的数据用最小二乘法
求y与x的回归直线方程 .
i 1 2 3 4 5 6 7
1
2 4 8 22 26 38
第 天
2
使用人数 4
19 32 40 52 53 54
4
参考数据: .
0.050 0.010 0.001k 3.841 6.635 10.828
参考公式: , , .
【答案】(1)有99.9%的把握认为年龄与所持态度具有相关性,理由见解析
(2)
【分析】(1)将列联表补充完整,求出卡方,与10.828比较后得到结论;
(2)先计算出 , ,代入公式计算出 , ,得到线性回归方程.
【详解】(1)列联表如下:
年龄在50周岁以上(含50周岁) 年龄在50周岁以下 总计
持支持态度 60 180 240
不持支持态
30 30 60
度
总计 90 210 300
则 ,
故有99.9%的把握认为年龄与所持态度具有相关性;
(2)由题意, ,
,
又 ,
,
所以 ,
所以 ,故y与x的回归直线方程为 .
17.(2022·四川·宜宾市叙州区第二中学校模拟预测(理)) 年四川持续出现高温天气,导致电力供
应紧张.某市电力局在保证居民生活用电的前提下,尽量合理利用资源,保障企业生产.为了解电力资源
分配情况,在8月初,分别对该市A区和 区各10个企业7月的供电量与需求量的比值进行统计,结果用
茎叶图表示如图.
不受影响 受影响 合计
A区
B区
合计
(1)求 区企业7月的供电量与需求量的比值的中位数;
(2)当供电量与需求量的比值小于 时,生产要受到影响,统计茎叶图中的数据,填写2×2列联表,并根
据列联表,判断是否有95%的把握认为生产受到影响与企业所在区有关?
附:
【答案】(1)0.86;
(2)2×2列联表见解析,没有95%的把握.
【分析】(1)根据茎叶图中数据及中位数的概念直接计算得解;
(2)由茎叶图判定不受影响、受影响的企业数,据此列出2×2列联表,计算 得出结论.
【详解】(1)A区供电量与需求量的比值由小到大排列,第5个数,第6个数分别为 ,
所以所求中位数为 ;
(2)2×2列联表:不受影响 受影响 合计
区 7 3 10
区 4 6 10
合计 11 9 20
没有95%的把握认为生产有影响与企业所在区有关.B组 能力提升
18.(2022·全国·高三专题练习)某地不同身高的未成年男性的体重平均值如下表:
10
身高( ) 60 70 80 90 110 120 130 140 150 160 170
0
平均体重( ) 6.13 7.9 10 12.2 15 17.5 20.9 26.9 31.1 38.6 47.3 55.1
表格中的数据形成图所示的散点图.则在以下函数模型中,描述这个地区未成年男性平均体重y(单位:
)与身高x(单位: )的函数关系最合适的是( )
A. B. C. D.
【答案】B
【分析】根据散点图及函数图象可排除AC,再由特殊值可排除D,即可求解.
【详解】根据所给散点图,结合一次函数、对数函数的图象可知,选项AC不符合;
取 时,由 可得 ,当 时
由 可得 ,与实际值差距很大,故不适合,故D不符合;
故选:B
19.(2023·全国·高三专题练习)如图是一组实验数据的散点图,拟合方程 ,令 ,则
关于 的回归直线过点 , ,则当 时, 的取值范围是( )
A. B. C. D.【答案】D
【分析】先令 可得 ,由 关于 的回归直线过点 , 可得 从而
求得 ,再由 的范围求得 的范围,进而求得 的范围.
【详解】根据题意可得 ,
由 关于 的回归直线过点 , 可得:
,所以 ,
所以 ,
由 可得 ,
所以 ,
所以 ,所以 ,
故选:D
20.(2022·江苏省苏州实验中学高二期中)2022年4月15日,因疫情原因,市物价部门对5家商场的某
商品一天的线上销售量及其价格进行调查,5家商场的售价x(元)和销售量y(件)之间的一组数据如表
所示:
价格x 9 9.5 10 10.5 11
销售量y 11 10 8 6 5
按公式计算,y与x的回归直线方程是: ,相关系数 ,则下列说法错误的是( )
A. B.变量x,y线性负相关且相关性较强
C.相应于点(9.5,10)的残差约为-0.4 D.当x=8时,y的估计值为14.4
【答案】C
【分析】A由样本中心在回归方程上求参数 ;B由相关系数的意义及回归方程的斜率符号判断;C利用
残差的定义求残差;D将8代入回归方程求估计值.
【详解】由表格知: , ,
所以 ,可得 ,A正确;
由相关系数 且回归方程斜率为负,则变量x,y线性负相关且相关性较强,B正确;
由 ,故残差为 ,C错误;
由 ,D正确;
故选:C21.(2022·河南洛阳·高二期中(文))某种产品的广告支出费用x(单位:万元)与销售额y(单位:万
元)之间有如下关系:
x 2 4 5 6 8
y 30 40 70 50 60
已知y与x的线性回归方程为 ,则当广告支出费用为5万元时,残差为( )
A.40 B.30 C.20 D.10
【答案】C
【分析】根据回归方程求出 时的值,即可求出残差.
【详解】当 时, ,所以残差为 .
故选:C.
22.(2022·甘肃·临洮县文峰中学高二期中(文))下图是某地区2001年至2021年环境保护建设投资额
(单位:万元)的折线图.
根据该折线图判断,下列结论正确的是( )
A.为预测该地2022年的环境保护建设投资额,应用2001年至2021年的数据建立回归模型更可靠
B.为预测该地2022年的环境保护建设投资额,应用2010年至2021年的数据建立回归模型更可靠
C.投资额与年份负相关
D.投资额与年份的相关系数
【答案】B
【分析】根据折线图数据变化趋势,结合回归分析思想即可逐项判断.
【详解】因2009年之前与2010年之后投资额变化较大,故为预测该地2022年的环境保护建设投资额,应
用2010年至2021年的数据建立回归模型更可靠,所以A错误,B正确;
随年份的增长,投资额总体上在增长,所以投资额与年份正相关, ,故CD错误.
故选:B.
23.(2021·河北·模拟预测)有两个分类变量 和 ,其中一组观测值为如下的2×2列联表:
总计15
50
总计 20 45 65
其中 , 均为大于5的整数,则 __________时,在犯错误的概率不超过 的前提下为“ 和
之间有关系”.附:
【答案】9
【分析】由题意,计算 ,列出不等式求出 的取值范围,再根据题意求得 的值.
【详解】解:由题意知: ,
则 ,
解得: 或 ,
因为: 且 , ,
综上得: , ,
所以: .
故答案为:9.
24.(2022·浙江绍兴·一模)某学校共有1000名学生参加知识竞赛,其中男生400人,为了解该校学生在
知识竞赛中的情况,采取分层抽样随机抽取了100名学生进行调查,分数分布在450~950分之间,根据调
查的结果绘制的学生分数频率分布直方图如图所示,将分数不低于750分的学生称为“高分选手”.
(1)求 的值,并估计该校学生分数的平均数(同一组中的数据用该组区间的中点值作代表);
(2)现采用分层抽样的方式从分数落在 , 内的两组学生中抽取10人,再从这10人中随
机抽取3人,记被抽取的3名学生中属于“高分选手”的学生人数为随机变量 ,求 的分布列及数学期
望;(3)若样本中属于“高分选手”的女生有10人,请判断是否有97.5%的把握认为该校学生属于“高分选手”
与“性别”有关?(参考公式: ,其中 )
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
【答案】(1) ,平均数为
(2)分布列见解析,
(3)有
【分析】(1)利用频率之和为1列出方程,求出 ,再利用中间值做代表求出样本平均数;
(2)先根据分层抽样得到从 中抽取7人, 中抽取3人,再得到随机变量 的可能值及
相应的概率,得到分布列及数学期望;
(3)利用公式求出卡方,并与5.024比较后得到结论.
【详解】(1)由题意知 ,
解得 ,
样本平均数为 .
(2)由题意,从 中抽取7人,从 中抽取3人,
随机变量 的所有可能取值有0,1,2,3.
( ,1,2,3),
所以随机变量 的分布列为:
0 1 2 3
随机变量 的数学期望 .
(3)由题可知,样本中男生40人,女生60人,属于“高分选手”的25人,其中女生10人;得出以下
列联表;
属于“高分选 不属于“高分选
合计
手” 手”男生 15 25 40
女生 10 50 60
合计 25 75 100
,
所以有97.5%的把握认为该校学生属于“高分选手”与性别有关.
25.(2022·全国·模拟预测)教育部印发的《义务教育课程方案和课程标准(2022年版)》指出,自2022
年秋季开始,劳动课将成为中小学一门独立课程.消息一出,“中小学生学做饭”等相关话题引发大量网
友关注,儿童厨具也迅速走俏.这类儿童厨具并不是指传统意义上的“过家家”,而是真锅真铲真炉灶,
能让孩子煎炒烹炸,把饭菜做熟了吃下肚的“真煮”儿童厨具.一家厨具批发商从2022年5月22日起,
每10天就对“真煮”儿童厨具的销量统计一次,得到相关数据如下表所示.
5月22~5月 6月1~6月 6月11~6月 6月21~6月 7月1~7月 7月11~7月 7月21~7月
时间
31日 10日 20日 30日 10日 20日 30日
时间代
1 2 3 4 5 6 7
码x
销量
9.4 9.6 9.9 10.1 10.6 11.1 11.4
y/千件
(1)从这7次统计数据中随机抽取2次,求这2次的销量之和超过21千件的概率.
(2)根据表中数据,判断y与x是否具有线性相关关系?若具有,试求出y关于x的线性回归方程;若不具
有,请说明理由.(结果保留两位小数)
附:线性回归方程 中斜率和截距的最小二乘估计公式分别为 , ,
相关系数 , .
【答案】(1)
(2)有,
【分析】(1)计算从7种中任取两种的方法总数,再列举合题意的取法,计算所求概率;(2)根据表中数据,计算相关系数r,根据是否接近1,判断变量线性相关性强弱,利用回归方程公式求
回归方程.
【详解】(1)从7次统计数据中任意选取2次有 种选法,
其中满足条件的有 , , , , , ,共6种,
所以所求概率 .
(2)由表格数据,得 ,
,
所以
,
,
,
所以相关系数 .
因为相关系数 ,接近1,所以y与x具有线性相关关系,且正相关性很强.
因为 ,
所以 ,
所以y关于x的线性回归方程为 .
26.(2022·全国·高三专题练习)国庆期间,某市文旅部门在落实防控举措的同时,推出了多款套票文旅
产品,得到消费者的积极回应.下面是文旅部门在某地区推出六款不同价位的旅游套票,每款的套票价格
(单位:元)与购买人数 (单位:万人)的数据如下表:
乡村特色
旅游类别 城市展馆科技游 红色景点游 登山套票 游园套票 观海套票
游
套票价格 (元) 39 49 58 67 77 86
16.7 18.7 20.6 22.5 24.1 25.6
购买数量 (万人)
在分析数据、描点绘图中,发现散点 集中在一条直线附近,其中 , .根据
所给数据,求 关于 的回归方程;
附:①可能用到的数据: , , , .
②对于一组数据 , ,…, ,其回归直线 的斜率和截距的最小二乘估计值分
别为 , .
【答案】
【分析】根据已知条件所给的数据,散点 在直线附近,则利用所给数据和公式代入即可.
【详解】因为散点 集中在一条直线附近,设回归直线方程为 ,
由 , ,
则 , ,
所以变量 关于 的回归方程为 ,
因为 , ,所以 ,故 ,
综上, 关于 的回归方程为 ;
27.(2022·全国·高三专题练习)根据中国海洋生态环境状况公报,从2017年到2021年全国直排海污染
物中各年份的氨氮总量 (单位:千吨)与年份的散点图如下:记年份代码为 , ,对数据处理后得:
6 0.5 1.5 210 76 17
(1)根据散点图判断,模型① 与模型② 哪一个适宜作为 关于 的回归方程?(给出判断
即可,不必说明理由)
(2)根据(1)的判断结果,建立 关于 的回归方程,并预测2022年全国直排海污染物中的氨氮总量(计
算结果精确到整数).
参考公式:回归方程 中斜率和截距的最小二乘估计公式分别为: ,
.
【答案】(1)模型②适宜作为 关于 的回归方程.
(2) 关于 的回归方程为 ,预计2022年全国直排海污染物中的氨氮总量为3吨
【分析】(1)可根据散点图判断出非线性回归方程模型.
(2)根据表中数据和参考数据代入公式求出回归方程,并可预测2022年全国直排海污染物中的氨氮总量.
【详解】(1)根据散点图的趋势,可知模型②适宜作为 关于 的回归方程.
(2) , .
故 关于 的回归方程为 ,即 关于 的回归方程为 ,2022年对应的年份代码为 ,
,故预计2022年全国直排海污染物中的氨氮总量为3吨.
28.(2022·全国·高三专题练习)红铃虫是棉花的主要害虫之一,能对农作物造成严重伤害,每只红铃虫
的平均产卵数y和平均温度x有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.平均温度x/℃ 21 23 25 27 29 31 33
平均产卵数y/个 7 11 21 24 66 115 325
1.9 2.4 3.0 3.2 4.2 4.7 5.8
(1)根据散点图判断, 与 (其中 为自然对数的底数)哪一个更适宜作为平均产
卵数y关于平均温度x的回归方程类型?(给出判断即可,不必说明理由)并由判断结果及表中数据,求
出y关于x的回归方程,(计算结果精确到0.01)
(2)根据以往统计,该地每年平均温度达到28℃以上时红铃虫会造成严重伤害,需要人工防治,其他情况均
不需要人工防治,假设该地每年平均温度达到28℃以上的概率为p.若当 时,该地今后5年中恰好
有3年需要人工防治的概率 最大,求 的值.
参考数据
5215 17713 717 81.3 3.6
附:回归方程 , , .
【答案】(1) 适宜作为卵数 关于温度 的回归方程类型, 关于 的回归方程为 ;
(2)当 时, .
【分析】(1)根据散点图判断 更适宜作为 关于 的回归方程类型;对 两边取自然对数,
求出回归方程,再化为 关于 的回归方程;(2)由 对其求导数,利用导数判断函数单调性,求出函数的最值以及对应的 值.
【详解】(1)解:由散点图可以判断, 适宜作为卵数 关于温度 的回归方程类型.
对 两边取自然对数,得 ,
令 , , ,则 ,
由数据得 ,
, ,
所以 , ,
所以 关于 的线性回归方程为 ,
则 关于 的回归方程为 ;
(2)由 得 ,
因为 ,令 得 ,解得 ;
所以 在 上单调递增,在 上单调递减,
所以 有唯一的极大值为 ,也是最大值;
所以当 时, .
29.(2022·全国·高三专题练习)在国家大力发展新能源汽车产业的政策下,我国新能源汽车的产销量高
速增长. 已知某地区2014年底到2021年底新能源汽车保有量的数据统计表如下:
201
年份(年) 2014 2015 2016 2018 2019 2020 2021
7
年份代码x 1 2 3 4 5 6 7 8
保有量y/千辆 1.95 2.92 4.38 6.58 9.87 15.00 22.50 33.70
参考数据: , ,其中(1)根据统计表中的数据画出散点图(如图),请判断 与 哪一个更适合作为y关于x的经
验回归方程(给出判断即可,不必说明理由),并根据你的判断结果建立y关于x的经验回归方程:
(2)假设每年新能源汽车保有量按(1)中求得的函数模型增长,且传统能源汽车保有量每年下降的百分比
相同.若2021年底该地区传统能源汽车保有量为500千辆,预计到2026年底传统能源汽车保有量将下降
10%.试估计到哪一年底新能源汽车保有量将超过传统能源汽车保有量.
参考公式:对于一组数据 ,v), ),…, ,其经验回归直线 的斜率和截距的最
1
小二乘估计公式分别为 , ;
【答案】(1)作图见解析,选择的函数模型是 , ;
(2)2028年.
【分析】(1)根据题中所给公式,结合对数函数的性质进行求解即可;
(2)根据指数函数的性质,结合对数运算性质进行求解即可.
(1)
根据该地区新能源汽车保有量的增长趋势知,应选择的函数模型是 ,令 ,则
因为 ,
所以, ,
,所以 ;
(2)
设传统能源汽车保有量每年下降的百分比为r,依题意得, ),解得 ,
设从2021年底起经过x年后的传统能源汽车保有量为y千辆,则有 x,设从2021
年底起经过x年后新能源汽车的数量将超过传统能源汽车,则有,所以 ,
解得 ,故从2021年底起经过7年后,即2028年底新能源汽车的数量将超过
传统能源汽车.
30.(2022·新疆维吾尔自治区喀什第二中学高三阶段练习)某网络电视剧已开播一段时间,其每日播放量
有如下统计表:
开播天数x(单
1 2 3 4 5
位:天)
当天播放量y
(单位:百万 3 3 5 9 10
次)
(1)请用线性回归模型拟合y与x的关系,并用相关系数加以说明;
(2)假设开播后的两周内(除前5天),当天播放量y与开播天数x服从(1)中的线性关系.若每百万播放
量可为制作方带来0.7万元的收益,且每开播一天需支出1万元的广告费,估计制作方在该剧开播两周内
获得的利润.
参考公式: , , .
参考数据: xiyi=110, =55, =224, ≈10.5.
注:①一般地,相关系数r的绝对值在0.95以上(含0.95)认为线性相关性较强;否则,线性相关性较
弱.②利润=收益-广告费.
【答案】(1)线性回归方程为 ,每日的播放量和开播天数线性相关性较强;
(2)133万元.
【分析】(1)利用最小二乘法原理求出线性回归方程,再利用相关系数判断相关性的强弱;
(2)利用利润公式直接求解.
【详解】(1)解:由题得 .
所以 .所以 .
所以线性回归方程为 .
相关系数 ,
所以每日的播放量和开播天数线性相关性较强.
(2)解:设利润为 ,则
所以估计制作方在该剧开播两周内获得的利润为 万元..
答:估计制作方在该剧开播两周内获得的利润为 万元..C组 真题实战练
31.(2011·湖南·高考真题(文))通过随机询问110名不同的大学生是否爱好某项运动,得到如下的列
联表:
男 女 总计
爱好 40 20 60
不爱好 20 30 50
总计 60 50 110
由
附表:
0.050 0.010 0.001
10.
3.841 6.635
828
参照附表,得到的正确结论是( )A.有99%以上的把握认为“爱好该项运动与性别有关”
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
【答案】A
【详解】由 ,而 ,故由独立性检验的意义可知选A
32.(2011·陕西·高考真题(理))设(x,y),(x,y),…,(x,y)是变量x和y的n个样本点,
1 1 2 2 n n
直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是
A.直线l过点
B.x和y的相关系数为直线l的斜率
C.x和y的相关系数在0到1之间
D.当n为偶数时,分布在l两侧的样本点的个数一定相同【答案】A
【详解】试题分析:回归直线一定过这组数据的样本中心点,两个变量的相关系数不是直线的斜率,两个
变量的相关系数的绝对值是小于1的,是在﹣1与1之间,所有的样本点集中在回归直线附近,没有特殊
的限制.
解:回归直线一定过这组数据的样本中心点,故A正确,
两个变量的相关系数不是直线的斜率,而是需要用公式做出,故B不正确,
两个变量的相关系数可能为负,故C不正确,
所有的样本点集中在回归直线附近,不一定两侧一样多,故D不正确,
故选A.
点评:本题考查线性回归方程,考查样本中心点的性质,考查相关系数的做法,考查样本点的分布特点,
是一个基础题.
33.(2022·全国·高考真题)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯
分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未
患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良
良好
好
病例组 40 60
对照组 10 90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该
疾病”. 与 的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标
为R.
(ⅰ)证明: ;
(ⅱ)利用该调查数据,给出 的估计值,并利用(ⅰ)的结果给出R的估计值.
附 ,
0.050 0.010 0.001
k 3.841 6.635 10.828
【答案】(1)答案见解析
(2)(i)证明见解析;(ii) ;
【分析】(1)由所给数据结合公式求出 的值,将其与临界值比较大小,由此确定是否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异;(2)(i) 根据定义结合条件概率公式即可完成证明;(ii)
根据(i)结合已知数据求 .
【详解】(1)由已知 ,
又 , ,
所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
(2)(i)因为 ,
所以
所以 ,
(ii)
由已知 , ,
又 , ,
所以
34.(2021·全国·高考真题(文))甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为
了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级
二级品 合计
品
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:
0.050 0.010 0.001
k 3.841 6.635 10.828
【答案】(1)75%;60%;(2)能.
【分析】根据给出公式计算即可
【详解】(1)甲机床生产的产品中的一级品的频率为 ,
乙机床生产的产品中的一级品的频率为 .
(2) ,
故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.
35.(2022·全国·高考真题(文))某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林
区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位: )和材积量
(单位: ),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得 .
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为 .已
知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数 .
【答案】(1) ;
(2)
(3)
【分析】(1)计算出样本的一棵根部横截面积的平均值及一棵材积量平均值,即可估计该林区这种树木
平均一棵的根部横截面积与平均一棵的材积量;
(2)代入题给相关系数公式去计算即可求得样本的相关系数值;
(3)依据树木的材积量与其根部横截面积近似成正比,列方程即可求得该林区这种树木的总材积量的估
计值.【详解】(1)样本中10棵这种树木的根部横截面积的平均值
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为 ,
平均一棵的材积量为
(2)
则
(3)设该林区这种树木的总材积量的估计值为 ,
又已知树木的材积量与其根部横截面积近似成正比,
可得 ,解之得 .
则该林区这种树木的总材积量估计为
36.(2020·海南·高考真题)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,
随机抽查了 天空气中的 和 浓度(单位: ),得下表:
(1)估计事件“该市一天空气中 浓度不超过 ,且 浓度不超过 ”的概率;
(2)根据所给数据,完成下面的 列联表:(3)根据(2)中的列联表,判断是否有 的把握认为该市一天空气中 浓度与 浓度有关?
附: ,
【答案】(1) ;(2)答案见解析;(3)有.
【分析】(1)根据表格中数据以及古典概型的概率公式可求得结果;
(2)根据表格中数据可得 列联表;
(3)计算出 ,结合临界值表可得结论.
【详解】(1)由表格可知,该市100天中,空气中的 浓度不超过75,且 浓度不超过150的天
数有 天,
所以该市一天中,空气中的 浓度不超过75,且 浓度不超过150的概率为 ;
(2)由所给数据,可得 列联表为:
合计
64 16 80
10 10 20
合计 74 26 100
(3)根据 列联表中的数据可得,
因为根据临界值表可知,有 的把握认为该市一天空气中 浓度与 浓度有关.
【点睛】本题考查了古典概型的概率公式,考查了完善 列联表,考查了独立性检验,属于中档题.
37.(2020·全国·高考真题(理))某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增
加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的
方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的
植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得 , , ,
, .
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平
均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动
物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r= , ≈1.414.
【答案】(1) ;(2) ;(3)详见解析
【分析】(1)利用野生动物数量的估计值等于样区野生动物平均数乘以地块数,代入数据即可;
(2)利用公式 计算即可;
(3)各地块间植物覆盖面积差异较大,为提高样本数据的代表性,应采用分层抽样.
【详解】(1)样区野生动物平均数为 ,
地块数为200,该地区这种野生动物的估计值为
(2)样本 (i=1,2,…,20)的相关系数为
(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,
由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物的数量差异很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,
从而可以获得该地区这种野生动物数量更准确的估计.
【点晴】本题主要考查平均数的估计值、相关系数的计算以及抽样方法的选取,考查学生数学运算能力,
是一道容易题.
38.(2017·全国·高考真题(文))为了监控某种零件的一条生产线的生产过程,检验员每隔 从该
生产线上随机抽取一个零件,并测量其尺寸(单位: ).下面是检验员在一天内依次抽取的16个零件
的尺寸:
抽取次序 1 2 3 4 5 6 7 8
10. 10. 10.
零件尺寸 9.95 9.96 9.96 9.92 9.98
12 01 04
抽取次序 9 10 11 12 13 14 15 16
10. 10. 10. 10. 10.
零件尺寸 9.91 9.22 9.95
26 13 02 04 05
经计算得 , ,
,其中 为抽取的第 个零件的尺寸, .
(1)求 的相关系数 ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行
而系统地变大或变小(若 ,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
(2)一天内抽检零件中,如果出现了尺寸在 之外的零件,就认为这条生产线在这一天的生
产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ⅱ)在 之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均
值与标准差.(精确到 )附:样本 的相关系数
, .
【答案】(1)可以;(2)(ⅰ)需要;(ⅱ) , .
【分析】(1)依公式求 ;
(2)(i)由 ,得抽取的第13个零件的尺寸在 以外,因此需对当天的生产
过程进行检查;(ii)剔除第13个数据,则均值的估计值为10.02,方差为0.09.【详解】(1)由样本数据得 的相关系数为
.
由于 ,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)(i)由于 ,
由样本数据可以看出抽取的第13个零件的尺寸在 以外,
因此需对当天的生产过程进行检查.
(ii)剔除离群值,即第13个数据,
剩下数据的平均数为 ,
这条生产线当天生产的零件尺寸的均值的估计值为10.02.
,
剔除第13个数据,剩下数据的样本方差为
,
这条生产线当天生产的零件尺寸的标准差的估计值为 .
【点睛】解答新颖的数学题时,一是通过转化,化“新”为“旧”;二是通过深入分析,多方联想,以
“旧”攻“新”;三是创造性地运用数学思想方法,以“新”制“新”,应特别关注创新题型的切入点和
生长点.
39.(2016·全国·高考真题(文))下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)
的折线图.
(Ⅰ)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(Ⅱ)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:参考数据: , ,
, ≈2.646.
参考公式:相关系数
回归方程 中斜率和截距的最小二乘估计公式分别为:
【答案】(Ⅰ)答案见解析;(Ⅱ)答案见解析.
【详解】试题分析:(Ⅰ)根据相关系数 的公式求出相关数据后,代入公式即可求得 的值,最后根据
值的大小回答即可;(Ⅱ)准确求得相关数据,利用最小二乘法建立y关于t的回归方程,然后预测.
试题解析:(Ⅰ)由折线图中数据和附注中参考数据得
, , ,
,
.
因为 与 的相关系数近似为0.99,说明 与 的线性相关相当高,从而可以用线性回归模型拟合 与 的
关系.
(Ⅱ)由 及(Ⅰ)得 ,
.
所以, 关于 的回归方程为: .
将2016年对应的 代入回归方程得: .
所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.
【考点】线性相关系数与线性回归方程的求法与应用.
【方法点拨】(1)判断两个变量是否线性相关及相关程度通常有两种方法:(1)利用散点图直观判断;
(2)将相关数据代入相关系数 公式求出 ,然后根据 的大小进行判断.求线性回归方程时要严格按照
公式求解,并一定要注意计算的准确性.40.(2014·辽宁·高考真题(文))某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了
抽样调查,调查结果如下表所示:
喜欢甜品 不喜欢甜品 合计
南方学生 60 20 80
北方学生 10 10 20
合计 70 30 100
(Ⅰ)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差
异”;
(Ⅱ)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽
取3人,求至多有1人喜欢甜品的概率.附: ,
【答案】(1)有 的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”; (2)
【详解】试题分析:(Ⅰ)将 列联表中的数据代入公式计算,得 ,然后再根据表中所提供
的数据,即可得到结论;(Ⅱ)首先将从5名数学系的学生中任取3人的一切可能结果的所组成的基本事
件空间列出,
得到喜欢甜品的学生和不喜欢甜品的学生的基本事件,然后再利用古典概型即可求出结果.
试题解析:解:(Ⅰ)将 列联表中的数据代入公式计算,得
由于 ,所以有95%的把握认为南方学生和北方学生在选用甜品的饮食习惯方面有差异.
(Ⅱ)从5名数学系的学生中任取3人的一切肯能结果的所组成的基本事件空间
, , , , ,
, , , , .
其中 表示喜欢甜品的学生, , 表示不喜欢甜品的学生, ,
由10个基本事件组成,且这些基本事件的出现是等可能的,
用 表示“3人中至多有1人喜欢甜品”这个事件,则
= , , , , , , .事件 是由7个基本事件组成,因而 .
考点:1.独立性检验;2.古典概型.
【方法点睛】古典概型的一般解题技巧:第一步:判明问题的性质;这类随机试验中只有有限种不同的结
果,即只可能出现有限个基本事件不妨设为 ;且它们具有以下三条性质: (1)等可能性::
; (2)完备性:在任一次试验中至少发生一个; (3)互不相容性:在任一次试验
中, ,中至多有一个出现,每个基本事件的概率为 ,即 ;第二步:掌握古典概率的
计算公式; 如果样本空间包含的样本点的总数 ,事件 包含的样本点数为 ,则事件 的概率
.