文档内容
专题 10 统计案例(独立性检测与回归分析)
一、核心先导
二、考点再现
【考点1】相关关系与回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散
点图;统计量有相关系数与相关指数.
(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相
关.
(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.
【考点2】线性回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
x , y ,x , y ,,x , y
(2)回归方程:两个具有线性相关关系的变量的一组数据: 1 1 2 2 n n ,其回归
n
x y nxy
i i
b i1 ,
n
x2 nx 2
i
i1
ybxa a ybx. x, y
方程为 ,则 注意:线性回归直线经过定点 .
n n
x xy y x y nxy
i i i i
r i1 i1
n n n n
x x2y y2 x2 nx2 y2 ny2
i i i i
(3)相关系数: i1 i1 i1 i1 .【考点3】回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心:对于一组具有线性相关关系的数据(x,y),(x,y),…,(x,y),其中(x,y)称为样
1 1 2 2 n n
本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.
r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有
很强的线性相关性.
(4)相关指数:R2=1-.其中∑ (y-y)2是残差平方和,其值越小,则R2越大(接近1),模型的拟合效果越
i i
好.
【知识拓展】
1.求解回归方程的关键是确定回归系数a,b,应充分利用回归直线过样本中心点(x,y).
2.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.
3.根据回归方程计算的y值,仅是一个预报值,不是真实发生的值.
【考点4】独立性检测
(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分
别为{x,x}和{y,y},其样本频数列联表(2×2列联表)为
1 2 1 2
y y 总计
1 2
x a b a+b
1
x c d c+d
2
总计 a+c b+d a+b+c+d
则随机变量K2=,其中n=a+b+c+d为样本容量.
【知识必备】
1.求解回归方程的关键是确定回归系数a,b,应充分利用回归直线过样本中心点(x,y).
2.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.
3.根据回归方程计算的y值,仅是一个预报值,不是真实发生的值.
三、考点解密
题型一:独立性检测
例1.(1)、(2023·全国·模拟预测)千百年来,我国劳动人民在生产实践中根据云的形状、走向速度、
厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩销云,
地上雨淋林”“日落云里走,雨在半夜后”……小明同学为了验证“日落云里走,雨在半夜后”,观察了
所在地区A的100天日落和夜晚天气,得到如下 列联表:夜晚天气
下雨 不下雨
日落云里走
出现 25 5
不出现 25 45
临界值表
0.10 0.05 0.010 0.001
2.706 3.841 6.635 10.828
并计算得到 ,下列小明对地区天气判断正确的是( )
A.夜晚下雨的概率约为
B.未出现“日落云里走”,但夜晚下雨的概率约为
C.出现“日落云里走”,有99.9%的把握认为夜晚会下雨
D.有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关
(2)、(2021·全国·模拟预测)2020年12月31日,国务院联防联控机制发布,国药集团中国生物的新型
冠状病毒灭活疫苗已获国家药监局批准附条件上市.在新型冠状病毒疫苗研发过程中,需要利用基因编辑
小鼠进行动物实验.现随机抽取100只基因编辑小鼠对某种新型冠状病毒疫苗进行实验,得到如下2×2列
联表(部分数据缺失):
未被新型冠状病毒感
被新型冠状病毒感染 合计
染
注射疫苗 10 50
未注射疫苗 30 50
合计 30 100
计算可知,在犯错误的概率最多不超过______的前提下,可认为“给基因编辑小鼠注射该种疫苗能起到预
防新型冠状病毒感染的效果”.
参考公式: , .
0.10 0.05 0.025 0.010 0.005 0.001
2.706 3.481 5.024 6.635 7.879 10.828
【变式训练1-1】、(2022·安徽省芜湖市教育局模拟预测(理))为了检验某种血清预防感冒的作用,把名使用血清的人与另外 名未使用血清的人一年中的感冒记录作比较,提出假设 :“这种血清不
能起到预防感冒的作用”,利用 列联表计算的结果,认为 成立的可能性不足 ,那么 的一个
可能取值为( )
A. B. C. D.【变式训练1-2】、(2021·山东青岛·一模)某驾驶员培训学校为对比了解“科目二”的培训过程采用大密
度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55
个学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30个.根据统计结果,
认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过______.
附:
0.05 0.025 0.010 0.001
3.841 5.024 6.635 10.828
例2、(2023·四川成都·二模(理))某市拟在高一下学期开设游泳选修课,为了了解高一学生喜欢游泳是
否与性别有关,该市在某学校对100名高一新生进行了问卷调查,得到如下列联表:
喜欢游泳 不喜欢游泳 合计
男生 10
女生 20
合计
已知在这100人中随机抽取1人抽到喜欢游泳的学生的概率为 .
(1)请将上述列联表补充完整;
(2)并判断是否有99.9%的把握认为喜欢游泳与性别有关?并说明你的理由;
(3)若在该市男生中随机抽取5人(以频率估计概率),求抽到喜欢游泳的男生人数的数学期望.
下面的临界值表仅供参考:
P
0.15 0.10 0.05 0.025 0.010 0.005 0.001
(K2≥k)
k 2.072 2.706 3.841 5.024 6.635 7.879 10.828
(参考公式: ,其中 )【变式训练2-1】、(2022·全国·安阳市第二中学模拟预测(理))随着人脸识别技术的发展,“刷脸支
付”成为了一种便捷的支付方式,但是这种支付方式也带来了一些安全性问题.为了调查不同年龄层的人
对“刷脸支付”所持的态度,研究人员随机抽取了300人,并将所得结果统计如下表所示.
年龄
频数 30 75 105 60 30
持支持态度 24 66 90 42 18
(1)完成下列2×2列联表,并判断是否有99.9%的把握认为年龄与所持态度具有相关性;
年龄在50周岁以上(含50周
年龄在50周岁以下 总计
岁)
持支持态度
不持支持态度
总计
(2)以(1)中的频率估计概率,若在该地区所有年龄在50周岁以上(含50周岁)的人中随机抽取4人,记
X为4人中持支持态度的人数,求X的分布列以及数学期望;
(3)已知某地区“万嘉”连锁超市在安装了“刷脸支付”仪器后,使用“刷脸支付”的人数y与第x天之间
的关系统计如下表所示,且数据的散点图呈现出很强的线性相关的特征,请根据表中的数据用最小二乘法
求y与x的回归直线方程 .
i 1 2 3 4 5 6 7
2 4 8 12 22 26 38
第 天
使用人数
参考数据: , .
0.050 0.010 0.001
k 3.841 6.635 10.828
参考公式: , , .题型二:线性回归方程的应用
例3.(1)、(2022·四川·树德中学高二阶段练习(文))某种产品的广告费支出x与销售额y(单位:万
元)之间有下表关系
1 3 4 5 7
3
40 60 50 70
0
y与x的线性回归方程为 ,当广告支出5万元时,随机误差的效应(残差)为( )
A.20 B.-10 C.10 D.-6.5
(2)、(2022·云南省玉溪第一中学高三开学考试)新能源汽车的核心部件是动力电池,电池占了新能源
整车成本的大头,而其中的原材料碳酸锂又是电池的主要成分.从2020年底开始,碳酸锂的价格一路水涨
船高,下表是2022年某企业的前5个月碳酸锂的价格与月份的统计数据:
月份代码 1 2 3 4 5
碳酸锂价格 (万元/kg) 0.5 0.6 1 1.5
根据表中数据,得出y关于x的经验回归方程为 ,根据数据计算出在样本点 处的残差为
,则表中 ______.
【变式训练3-1】、(2022·全国·高三专题练习)已知变量y关于x的回归方程为 ,若对
两边取自然对数,可以发现 与x线性相关,现有一组数据如下表所示, 时,预测y值为
___________.
x 1 2 3 4
y e
【变式训练3-2】、(2022·新疆石河子一中高二阶段练习(理))从非洲蔓延到东南亚的蝗虫灾害严重威
胁了国际农业生产,影响了人民生活.世界性与区域性温度的异常、旱涝频繁发生给蝗灾发生创造了机会.
已知蝗虫的产卵量y与温度x的关系可以用模型 (其中e为自然对数的底数)拟合,设 ,
其变换后得到一组数据:
x 20 23 25 27 30
z 2 2.4 3 3 4.6
由上表可得经验回归方程 ,则当x=60时,蝗虫的产卵量y的估计值为( )A. B.10
C.6 D.
例4.(2023·全国·高三专题练习)全国两会召开前夕,许多人大代表关心雾霾治理,倡导绿色发展,击碎
十面“霾伏”.通过不懈努力,近两年某市空气质量逐步改善,居民享受着在藏天白云下出行和锻炼.PM
2.5的值是表示空气中某种颗粒物的浓度,通常用来代表空气的污染情况,这个值越高空气污染就越严重,如
表是某人朋友圈内室外锻炼的人数与PM 值的一组数据.
2.5
10
PM 的值x 110 80 60 50
2.5
0
室外锻炼人数y(人) 90 95 100 105 110
(1)请用相关系数r(精确到0.01)说明y与x之间具有线性相关关系;
(2)若室外锻炼人数与PM 的值存在线性关系,请根据上表提供的数据,当PM 的值为40时,估计室外
2.5 2.5
锻炼人数(四舍五入);
(3)将表格中的x与y数据看作五个点的坐标(x,y),从这五个点中任意抽取两个点,求这两个点都在圆
(x﹣80)2+(y﹣90)2=100外的概率.
参考公式: , ,
参考数据: , , , 5.10, 15.81.【变式训练4-1】、(2022·全国·高二课时练习)有人收集了某城市居民年收入(所有居民在一年内收入的
总和)与A商品销售额的10年数据,如表所示.
第n年 1 2 3 4 5 6 7 8 9 10
居民年收入(亿元) 32.2 31.1 32.9 35.8 37.1 38 39 43 44.6 46
A商品销售额(万元) 25.0 30.0 34.0 37.0 39.0 41.0 42.0 44.0 48.0 51.0
画出散点图,判断成对样本数据是否线性相关,并通过样本相关系数推断居民年收入与A商品销售额的相
关程度和变化趋势的异同.
参考数据: , , , , .题型三:回归方程的应用(曲线型)
例5.(2022·全国·高三专题练习)为了研究某种细菌随天数 变化的繁殖个数 ,收集数据如下:
天数 1 2 3 4 5 6
繁殖个数 4
6 12 25 95 190
9
(1)在图中作出繁殖个数 关于天数 变化的散点图,并由散点图判断 ( 为常数)与
( 为常数,且 )哪一个适宜作为繁殖个数 关于天数 变化的回归方程类型?(给出判断
即可,不必说明理由)
(2)对于非线性回归方程 ( 为常数,且 ),令 ,可以得到繁殖个数的对数z
关于天数x具有线性关系及一些统计量的值.
3.50 62.83 3.53 17.50 596.57 12.09
(ⅰ)证明:“对于非线性回归方程 ,令 ,可以得到繁殖个数的对数 关于天数 具有线
性关系(即 为常数)”;
(ⅱ)根据(ⅰ)的判断结果及表中数据,建立 关于 的回归方程(系数保留2位小数).
附:对于一组数据 ,其回归直线方程 的斜率和截距的最小二乘估计分
别为 .【变式训练5-1】、(2023·全国·高三专题练习)多年来,清华大学电子工程系黄翔东教授团队致力于光谱
成像芯片的研究,2022年6月研制出国际首款实时超光谱成像芯片,相比已有光谱检测技术,实现了从单
点光谱仪到超光谱成像芯片的跨越,为制定下一年的研发投入计划,该研发团队为需要了解年研发资金投
入量x(单位:亿元)对年销售额 (单位:亿元)的影响,结合近12年的年研发资金投入量x,和年销
售额 ,的数据( ,2, ,12),该团队建立了两个函数模型:① ② ,其中
均为常数,e为自然对数的底数,经对历史数据的初步处理,得到散点图如图,令
,计算得如下数据:
20 66 770 200 14
460 3125000 21500
(1)设 和 的相关系数为 和 的相关系数为 ,请从相关系数的角度,选择一个拟合程度更好
的模型;
(2)(i)根据(1)的选择及表中数据,建立 关于 的回归方程(系数精确到0.01);
(ii)若下一年销售额 需达到80亿元,预测下一年的研发资金投入量 是多少亿元?
附:①相关系数 ,回归直线 中斜率和截距的最小二乘估计公式分别为:
, ;
②参考数据: .四、分层训练
A组 基础巩固
1.(2010·吉林·模拟预测(理))某医疗研究所为了检查新研发的疫苗对某种病毒的预防作用,把1000
只已注射疫苗的小白鼠与另外1000只未注射疫苗的小白鼠的感染记录作比较,提出原假设 :“这种疫
苗不能起到预防该病毒传染的作用.”并计算得 ,则下列说法正确的是( )
A.这种疫苗对预防该病毒传染的有效率为1%
B.若某人未使用疫苗,则他有99%的可能性传染该病毒
C.有99%的把握认为“这种疫苗能起到预防该病毒传染的作用”
D.有1%的把握认为“这种疫苗能起到预防该病毒传染的作用”
2.(2022·全国·模拟预测)某初级中学有700名学生,在2021年秋季运动会中,为响应全民健身运动的
号召,要求每名学生都必须在“立定跳远”与“坐位体前屈”中选择一项参加比赛.根据报名结果知道,
有 的男生选择“立定跳远”,有 的女生选择“坐位体前屈”,且选择“立定跳远”的学生中女生占 ,
则参照附表,下列结论正确的是( )
附:
0.10 0.05 0.025
2.706 3.841 5.024
,n=a+b+c+d.A.在犯错误的概率不超过2.5%的前提下,认为选择运
动项目与性别无关
B.在犯错误的概率不超过5%的前提下,认为选择运动项目与性别无关
C.有97.5%的把握认为选择运动项目与性别有关
D.有95%的把握认为选择运动项目与性别有关
3.(2022·四川成都·三模(理))在某大学一食品超市,随机询问了70名不同性别的大学生在购买食物
时是否查看营养说明,得到如下的列联表:
女 男 总计
要查看营养说
15 25 40
明
不查看营养说
20 10 30
明
总计 35 35 70附: ,其中 .
0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879
根据列联表的独立性检验,则下列说法正确的是( ).A.在犯错误的概率不超过0.05的前提下认为该
校大学生在购买食物时要查看营养说明的人数中男生人数更多
B.在犯错误的概率不超过0.010的前提下认为该校女大学生在购买食物时要查看营养说明的人数与不查看
营养说明的人数比为
C.在犯错误的概率不超过0.025的前提下认为性别与是否查看营养说明有关系
D.在犯错误的概率不超过0.010的前提下认为性别与是否查看营养说明有关系
4.(2022·河南·长葛市第一高级中学模拟预测(理))某校计划在课外活动中新增攀岩项目,为了解学生
喜欢攀岩和性别是否有关,面向全体学生开展了一次随机调查,其中参加调查的男、女生人数相同,并绘
制成等高条形图(如图所示),则下列说法正确的是( )
0.05 0.01
3.841 6.635
参考公式: , .A.参与调查的学生中喜欢攀岩的女生人数
比喜欢攀岩的男生人数多
B.参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数多
C.若参与调查的男、女生人数均为100人,则能在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性
别有关
D.无论参与调查的男、女生人数为多少,都能在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关
5.(2022·山西·怀仁市第一中学校二模(理))2021年7月24日,中共中央办公厅国务院办公厅印发
《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》,要求学校做好课后服务,结合学
生的兴趣爱好,开设体育、美术、音乐、书法等特色课程.某初级中学在课后延时一小时开设相关课程,为
了解学生选课情况,在该校全体学生中随机抽取50名学生进行问卷调查,得到如下数据:(附:计算得到
的观测值为 .)
不喜欢音
喜欢音乐
乐
喜欢体育 20 10
不喜欢体育 5 15
0.05 0.025 0.10 0.005 0.001
3.841 5.024 6.635 7.879 10.828
根据以上数据,对该校学生情况判断不正确的是( )
A.估计该校既喜欢体育又喜欢音乐的学生约占
B.从这30名喜欢体育的学生中采用随机数表法抽取6人做访谈,则他们每个个体被抽到的概率为
C.从不喜欢体育的20名学生中任选4人做访谈,则事件“至少有2人喜欢音乐”与“至多有1人不喜欢
音乐”为对立事件
D.在犯错误的概率不超过0.005的前提下,认为“喜欢体育”与“喜欢音乐”有关系
6.(2022·上海市奉贤中学高二期末)已知变量 之间的线性回归方程为 ,且变量 之
间的一组相关数据如表所示,
6 8 10 12
6 m 3 2
则下列说法中错误的有( )
A.变量 之间呈现负相关关系 B.变量 之间的相关系数
C. 的值为5 D.该回归直线必过点
7.(2022·全国·高二课时练习)下面各图中,散点图与相关系数r不符合的有( )A. B.
C. D.
8.(2022·全国·高三专题练习)甲、乙、丙、丁四位同学各自对 两变量的线性相关性做试验,分别求得
样本相关系数 ,如下表:
甲 乙 丙 丁
则试验结果中 两变量有更强线性相关性的是( )A.甲 B.乙 C.丙 D.丁
9.(2022·全国·高三专题练习)一只红铃虫的产卵数y和温度x有关,现收集了6组观测数据,y(单位:
个)与温度x(单位:℃)得到样本数据 ( ,2,3,4,5,6),令 ,并将 绘制
成如图所示的散点图.若用方程 对y与x的关系进行拟合,则( )
A. , B. ,
C. , D. ,
10.(2022·河南南阳·高二期末(文))2022年初以来,5G技术在我国已经进入高速发展的阶段,5G手
机的销量也逐渐上升,某手机商城统计了1至5月份5G手机的实际销量,如下表所示:
月份x 1月 2月 3月 4月 5月
销售量y(千只) 0.5 0.6 1.0 1.4 1.7若y与x线性相关,且求得线性回归方程为 ,则下列说法不正确的是( )A.由题中数据
可知,变量x和y正相关,且相关系数一定小于1
B.由题中数据可知,6月份该商场5G手机的实际销量为2(千只)
C.若不考虑本题中的数据,回归直线可能不过 , ,…, 中的任一个点
D.回归直线一定过点
11.(2020·安徽蚌埠·三模(文))某企业为了调查其产品在国内和国际市场的发展情况,随机抽取国内、
国外各100名客户代表,了解他们对该企业产品的发展前景所持的态度,得到如图所示的等高条形图,则
________ (填“能”或“不能”)有 以上的把握认为是否持乐观态度与国内外差异有关.
附 .
0.050 0.010 0.005 0.001
k 3.841 6.635 7.879 10.828
12.(2022·全国·高二课时练习) 年初以来, 技术在我国已经进入高速发展的阶段, 手机的
销量也逐渐上升,某手机商城统计了近 个月来 手机的实际销量,如下表所示:
月份 年 月 年 月 年 月 年 月 年 月
月份编号
销量 /千部
若 与 线性相关,且求得线性回归方程为 ,则下列说法:
① ;② 与 正相关;③ 与 的相关系数为负数;④ 月份该手机商城的 手机销量约为 万
部.
其中正确的是________.(把正确的序号填在横线上)
13.(2023·上海·高三专题练习)已知变量 , 的关系可以用模型 拟合,设 ,其变换后
得到一组数据如下:4 6 8 10
2 3 5 6
由上表可得线性回归方程 ,则 ______.
14.(2022·山西·运城市景胜中学高二期中)某设备的使用年数x与所支出的维修总费用y的统计数据如下
表:
使用年数x(单位:年) 2 3 4 5 6
维修总费用y(单位:万元) 1.5 4.5 5.5 6.5 7.5
根据上表可得经验回归方程为 .现有一对测量数据 ,则该数据的残差为______万元.
15.(2022·河北·模拟预测(理))人工智能教育是将人工智能与传统教育相融合,借助人工智能和大数
据技术打造一个智能化教育生态,通过线上和线下结合的学习方式,让学生享受到个性化教育.为了解某
公司人工智能教育发展状况,通过中国互联网数据平台得到该公司2017年一2021年人工智能教育市场规
模统计表,如表所示,用 表示年份代码 年用1表示,2018年用2表示,依次类推),用 表示市场
规模(单位:百万元).
1 2 3 4 5
4
56 64 68 72
5
(1)已知 与 具有较强的线性相关关系,求 关于 的线性回归方程;
(2)该公司为了了解社会人员对人工智能教育的满意程度,调研了200名参加过人工智能教育的人员,得到
数据如表:
满意 不满意 总计
男 90 110
女 30
总计 150
完成 列联表,并判断是否有 的把握认为社会人员的满意程度与性别有关?
附1:线性回归方程: ,其中 , ;附2: , .
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.82816.(2022·全国·安阳市第二中学模拟预测(文))随着人脸识别技术的发展,“刷脸支付”成为了一种
便捷的支付方式,但是这种支付方式也带来了一些安全性问题.为了调查不同年龄层的人对“刷脸支付”
所持的态度,研究人员随机抽取了300人,并将所得结果统计如下表所示:
年龄
频数 30 75 105 60 30
持支持态度 24 66 90 42 18
(1)完成下列 列联表,并判断是否有99.9%的把握认为年龄与所持态度具有相关性;
年龄在50周岁以上(含50周岁) 年龄在50周岁以下 总计
持支持态度
不持支持态
度
总计
(2)已知某地区“万嘉”连锁超市在安装了“刷脸支付”仪器后,使用“刷脸支付”的人数y与第x天之间
的关系统计如下表所示,且数据的散点图呈现出很强的线性相关的特征,请根据表中的数据用最小二乘法
求y与x的回归直线方程 .
i 1 2 3 4 5 6 7
1
2 4 8 22 26 38
第 天
2
使用人数 4
19 32 40 52 53 54
4
参考数据: .
0.050 0.010 0.001
k 3.841 6.635 10.828参考公式: , , .17.(2022·四川·宜宾市叙州区第二中学校模拟预测(理)) 年四川持续出现高温天气,导致电力供
应紧张.某市电力局在保证居民生活用电的前提下,尽量合理利用资源,保障企业生产.为了解电力资源
分配情况,在8月初,分别对该市A区和 区各10个企业7月的供电量与需求量的比值进行统计,结果用
茎叶图表示如图.
不受影响 受影响 合计
A区
B区
合计
(1)求 区企业7月的供电量与需求量的比值的中位数;
(2)当供电量与需求量的比值小于 时,生产要受到影响,统计茎叶图中的数据,填写2×2列联表,并根
据列联表,判断是否有95%的把握认为生产受到影响与企业所在区有关?
附:B组 能力提升
18.(2022·全国·高三专题练习)某地不同身高的未成年男性的体重平均值如下表:
10
身高( ) 60 70 80 90 110 120 130 140 150 160 170
0
平均体重( ) 6.13 7.9 10 12.2 15 17.5 20.9 26.9 31.1 38.6 47.3 55.1
表格中的数据形成图所示的散点图.则在以下函数模型中,描述这个地区未成年男性平均体重y(单位:
)与身高x(单位: )的函数关系最合适的是( )
A. B. C. D.
19.(2023·全国·高三专题练习)如图是一组实验数据的散点图,拟合方程 ,令 ,则
关于 的回归直线过点 , ,则当 时, 的取值范围是( )
A. B. C. D.
20.(2022·江苏省苏州实验中学高二期中)2022年4月15日,因疫情原因,市物价部门对5家商场的某
商品一天的线上销售量及其价格进行调查,5家商场的售价x(元)和销售量y(件)之间的一组数据如表
所示:
价格x 9 9.5 10 10.5 11
销售量y 11 10 8 6 5按公式计算,y与x的回归直线方程是: ,相关系数 ,则下列说法错误的是( )
A. B.变量x,y线性负相关且相关性较强
C.相应于点(9.5,10)的残差约为-0.4 D.当x=8时,y的估计值为14.4
21.(2022·河南洛阳·高二期中(文))某种产品的广告支出费用x(单位:万元)与销售额y(单位:万
元)之间有如下关系:
x 2 4 5 6 8
y 30 40 70 50 60
已知y与x的线性回归方程为 ,则当广告支出费用为5万元时,残差为( )
A.40 B.30 C.20 D.10
22.(2022·甘肃·临洮县文峰中学高二期中(文))下图是某地区2001年至2021年环境保护建设投资额
(单位:万元)的折线图.
根据该折线图判断,下列结论正确的是( )
A.为预测该地2022年的环境保护建设投资额,应用2001年至2021年的数据建立回归模型更可靠
B.为预测该地2022年的环境保护建设投资额,应用2010年至2021年的数据建立回归模型更可靠
C.投资额与年份负相关
D.投资额与年份的相关系数
23.(2021·河北·模拟预测)有两个分类变量 和 ,其中一组观测值为如下的2×2列联表:
总计
15
50
总计 20 45 65
其中 , 均为大于5的整数,则 __________时,在犯错误的概率不超过 的前提下为“ 和之间有关系”.附:
24.(2022·浙江绍兴·一模)某学校共有1000名学生参加知识竞赛,其中男生400人,为了解该校学生在
知识竞赛中的情况,采取分层抽样随机抽取了100名学生进行调查,分数分布在450~950分之间,根据调
查的结果绘制的学生分数频率分布直方图如图所示,将分数不低于750分的学生称为“高分选手”.
(1)求 的值,并估计该校学生分数的平均数(同一组中的数据用该组区间的中点值作代表);
(2)现采用分层抽样的方式从分数落在 , 内的两组学生中抽取10人,再从这10人中随
机抽取3人,记被抽取的3名学生中属于“高分选手”的学生人数为随机变量 ,求 的分布列及数学期
望;
(3)若样本中属于“高分选手”的女生有10人,请判断是否有97.5%的把握认为该校学生属于“高分选手”
与“性别”有关?(参考公式: ,其中 )
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.82825.(2022·全国·模拟预测)教育部印发的《义务教育课程方案和课程标准(2022年版)》指出,自2022
年秋季开始,劳动课将成为中小学一门独立课程.消息一出,“中小学生学做饭”等相关话题引发大量网
友关注,儿童厨具也迅速走俏.这类儿童厨具并不是指传统意义上的“过家家”,而是真锅真铲真炉灶,
能让孩子煎炒烹炸,把饭菜做熟了吃下肚的“真煮”儿童厨具.一家厨具批发商从2022年5月22日起,
每10天就对“真煮”儿童厨具的销量统计一次,得到相关数据如下表所示.
5月22~5月 6月1~6月 6月11~6月 6月21~6月 7月1~7月 7月11~7月 7月21~7月
时间
31日 10日 20日 30日 10日 20日 30日
时间代
1 2 3 4 5 6 7
码x
销量
9.4 9.6 9.9 10.1 10.6 11.1 11.4
y/千件
(1)从这7次统计数据中随机抽取2次,求这2次的销量之和超过21千件的概率.
(2)根据表中数据,判断y与x是否具有线性相关关系?若具有,试求出y关于x的线性回归方程;若不具
有,请说明理由.(结果保留两位小数)
附:线性回归方程 中斜率和截距的最小二乘估计公式分别为 , ,
相关系数 , .26.(2022·全国·高三专题练习)国庆期间,某市文旅部门在落实防控举措的同时,推出了多款套票文旅
产品,得到消费者的积极回应.下面是文旅部门在某地区推出六款不同价位的旅游套票,每款的套票价格
(单位:元)与购买人数 (单位:万人)的数据如下表:
乡村特色
旅游类别 城市展馆科技游 红色景点游 登山套票 游园套票 观海套票
游
套票价格 (元) 39 49 58 67 77 86
购买数量 (万
16.7 18.7 20.6 22.5 24.1 25.6
人)
在分析数据、描点绘图中,发现散点 集中在一条直线附近,其中 , .根据
所给数据,求 关于 的回归方程;
附:①可能用到的数据: , , , .
②对于一组数据 , ,…, ,其回归直线 的斜率和截距的最小二乘估计值分
别为 , .27.(2022·全国·高三专题练习)根据中国海洋生态环境状况公报,从2017年到2021年全国直排海污染
物中各年份的氨氮总量 (单位:千吨)与年份的散点图如下:
记年份代码为 , ,对数据处理后得:
6 0.5 1.5 210 76 17
(1)根据散点图判断,模型① 与模型② 哪一个适宜作为 关于 的回归方程?(给出判断
即可,不必说明理由)
(2)根据(1)的判断结果,建立 关于 的回归方程,并预测2022年全国直排海污染物中的氨氮总量(计
算结果精确到整数).
参考公式:回归方程 中斜率和截距的最小二乘估计公式分别为: ,
.28.(2022·全国·高三专题练习)红铃虫是棉花的主要害虫之一,能对农作物造成严重伤害,每只红铃虫
的平均产卵数y和平均温度x有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.
平均温度x/℃ 21 23 25 27 29 31 33
平均产卵数y/个 7 11 21 24 66 115 325
1.9 2.4 3.0 3.2 4.2 4.7 5.8
(1)根据散点图判断, 与 (其中 为自然对数的底数)哪一个更适宜作为平均产
卵数y关于平均温度x的回归方程类型?(给出判断即可,不必说明理由)并由判断结果及表中数据,求
出y关于x的回归方程,(计算结果精确到0.01)
(2)根据以往统计,该地每年平均温度达到28℃以上时红铃虫会造成严重伤害,需要人工防治,其他情况均
不需要人工防治,假设该地每年平均温度达到28℃以上的概率为p.若当 时,该地今后5年中恰好
有3年需要人工防治的概率 最大,求 的值.
参考数据
5215 17713 717 81.3 3.6
附:回归方程 , , .
29.(2022·全国·高三专题练习)在国家大力发展新能源汽车产业的政策下,我国新能源汽车的产销量高
速增长. 已知某地区2014年底到2021年底新能源汽车保有量的数据统计表如下:
年份(年) 2014 2015 2016 201 2018 2019 2020 20217
年份代码x 1 2 3 4 5 6 7 8
保有量y/千辆 1.95 2.92 4.38 6.58 9.87 15.00 22.50 33.70
参考数据: , ,其中
(1)根据统计表中的数据画出散点图(如图),请判断 与 哪一个更适合作为y关于x的经
验回归方程(给出判断即可,不必说明理由),并根据你的判断结果建立y关于x的经验回归方程:
(2)假设每年新能源汽车保有量按(1)中求得的函数模型增长,且传统能源汽车保有量每年下降的百分比
相同.若2021年底该地区传统能源汽车保有量为500千辆,预计到2026年底传统能源汽车保有量将下降
10%.试估计到哪一年底新能源汽车保有量将超过传统能源汽车保有量.
参考公式:对于一组数据 ,v), ),…, ,其经验回归直线 的斜率和截距的最
1
小二乘估计公式分别为 , ;30.(2022·新疆维吾尔自治区喀什第二中学高三阶段练习)某网络电视剧已开播一段时间,其每日播放量
有如下统计表:
开播天数x(单
1 2 3 4 5
位:天)
当天播放量y
(单位:百万 3 3 5 9 10
次)
(1)请用线性回归模型拟合y与x的关系,并用相关系数加以说明;
(2)假设开播后的两周内(除前5天),当天播放量y与开播天数x服从(1)中的线性关系.若每百万播放
量可为制作方带来0.7万元的收益,且每开播一天需支出1万元的广告费,估计制作方在该剧开播两周内
获得的利润.
参考公式: , , .
参考数据: xiyi=110, =55, =224, ≈10.5.
注:①一般地,相关系数r的绝对值在0.95以上(含0.95)认为线性相关性较强;否则,线性相关性较
弱.②利润=收益-广告费.C组 真题实战练
31.(2011·湖南·高考真题(文))通过随机询问110名不同的大学生是否爱好某项运动,得到如下的列
联表:
男 女 总计
爱好 40 20 60
不爱好 20 30 50
总计 60 50 110
由
附表:
0.050 0.010 0.001
10.
3.841 6.635
828
参照附表,得到的正确结论是( )A.有99%以上的把握认为“爱好该项运动与性别有关”
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
32.(2011·陕西·高考真题(理))设(x,y),(x,y),…,(x,y)是变量x和y的n个样本点,
1 1 2 2 n n
直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是
A.直线l过点
B.x和y的相关系数为直线l的斜率
C.x和y的相关系数在0到1之间
D.当n为偶数时,分布在l两侧的样本点的个数一定相同
33.(2022·全国·高考真题)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯
分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未
患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:不够良
良好
好
病例组 40 60
对照组 10 90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该
疾病”. 与 的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标
为R.
(ⅰ)证明: ;
(ⅱ)利用该调查数据,给出 的估计值,并利用(ⅰ)的结果给出R的估计值.
附 ,
0.050 0.010 0.001
k 3.841 6.635 10.82834.(2021·全国·高考真题(文))甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为
了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级
二级品 合计
品
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:
0.050 0.010 0.001
k 3.841 6.635 10.82835.(2022·全国·高考真题(文))某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林
区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位: )和材积量
(单位: ),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得 .
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为 .已
知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数 .36.(2020·海南·高考真题)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,
随机抽查了 天空气中的 和 浓度(单位: ),得下表:
(1)估计事件“该市一天空气中 浓度不超过 ,且 浓度不超过 ”的概率;
(2)根据所给数据,完成下面的 列联表:
(3)根据(2)中的列联表,判断是否有 的把握认为该市一天空气中 浓度与 浓度有关?
附: ,37.(2020·全国·高考真题(理))某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增
加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的
方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的
植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得 , , ,
, .
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平
均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动
物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r= , ≈1.414.38.(2017·全国·高考真题(文))为了监控某种零件的一条生产线的生产过程,检验员每隔 从该
生产线上随机抽取一个零件,并测量其尺寸(单位: ).下面是检验员在一天内依次抽取的16个零件
的尺寸:
抽取次序 1 2 3 4 5 6 7 8
10. 10. 10.
零件尺寸 9.95 9.96 9.96 9.92 9.98
12 01 04
抽取次序 9 10 11 12 13 14 15 16
10. 10. 10. 10. 10.
零件尺寸 9.91 9.22 9.95
26 13 02 04 05
经计算得 , ,
,其中 为抽取的第 个零件的尺寸, .
(1)求 的相关系数 ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行
而系统地变大或变小(若 ,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
(2)一天内抽检零件中,如果出现了尺寸在 之外的零件,就认为这条生产线在这一天的生
产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ⅱ)在 之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均
值与标准差.(精确到 )附:样本 的相关系数
, .39.(2016·全国·高考真题(文))下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)
的折线图.
(Ⅰ)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(Ⅱ)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据: , ,
, ≈2.646.
参考公式:相关系数
回归方程 中斜率和截距的最小二乘估计公式分别为:40.(2014·辽宁·高考真题(文))某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了
抽样调查,调查结果如下表所示:
喜欢甜品 不喜欢甜品 合计
南方学生 60 20 80
北方学生 10 10 20
合计 70 30 100
(Ⅰ)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差
异”;
(Ⅱ)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽
取3人,求至多有1人喜欢甜品的概率.附: ,