文档内容
考向 51 变量间的相关
关系、统计案例
1.(2020·全国·高考真题(理))某校一个课外学习小组为研究某作物种子的发芽
率y和温度x(单位:°C)的关系,在20个不同的温度条件下进行种子发芽实验,由
实验数据 得到下面的散点图:
由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率y
和温度x的回归方程类型的是( )
A. B.
C. D.
【答案】D
【分析】
根据散点图的分布可选择合适的函数模型.
【详解】
由散点图分布可知,散点图分布在一个对数函数的图象附近,
因此,最适合作为发芽率 和温度 的回归方程类型的是 .
故选:D.
【点睛】
本题考查函数模型的选择,主要观察散点图的分布,属于基础题.2.(2020·海南·高考真题)为加强环境保护,治理空气污染,环境监测部门对某市
空气质量进行调研,随机抽查了 天空气中的 和 浓度(单位: ),
得下表:
32 18 4
6 8 12
3 7 10
(1)估计事件“该市一天空气中 浓度不超过 ,且 浓度不超过 ”的概
率;
(2)根据所给数据,完成下面的 列联表:
(3)根据(2)中的列联表,判断是否有 的把握认为该市一天空气中 浓度
与 浓度有关?
附: ,
0.050 0.010 0.001
3.841 6.635 10.828
【答案】(1) ;(2)答案见解析;(3)有.
【分析】
(1)根据表格中数据以及古典概型的概率公式可求得结果;
(2)根据表格中数据可得 列联表;
(3)计算出 ,结合临界值表可得结论.
【详解】(1)由表格可知,该市100天中,空气中的 浓度不超过75,且 浓度不超
过150的天数有 天,
所以该市一天中,空气中的 浓度不超过75,且 浓度不超过150的概率为
;
(2)由所给数据,可得 列联表为:
合计
64 16 80
10 10 20
合计 74 26 100
(3)根据 列联表中的数据可得
,
因为根据临界值表可知,有 的把握认为该市一天空气中 浓度与 浓度有
关.
【点睛】
本题考查了古典概型的概率公式,考查了完善 列联表,考查了独立性检验,属于
中档题.
1. 回归分析问题的类型及解题方法
(1)求回归方程
①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.
②利用公式,求出回归系数b.
③待定系数法:利用回归直线过样本点的中心求系数a.(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关,决定正相关还是负相关的是系数b.
(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线
性相关性越强.
2.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说
明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.
3.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的
一般步骤:
(1)根据样本数据制成2×2列联表:
(2)根据公式χ2=计算χ2;
(3)通过比较χ2与临界值的大小关系来作统计推断.
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关
系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称
为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,
称两个变量之间具有线性相关关系,这条直线叫做回归直线.
n x x y y
i i
b i1
n x x 2
i $ a y $ bx
(2)回归方程为y=bx+a,其中 i1 , .
(3)通过求的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的
平方和最小,这一方法叫做最小二乘法.
(4)相关系数:
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表
明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很
强的线性相关性.
3.独立性检验(1)2×2列联表
设X,Y为两个变量,它们的取值分别为{x,x}和{y,y},其样本频数列联表(2×2
1 2 1 2
列联表)如下:
y y 总计
1 2
x a b a+b
1
x c d c+d
2
总计 a+c b+d a+b+c+d
(2)独立性检验
利用随机变量K2(也可表示为χ2)的观测值k=(其中n=a+b+c+d为样本容量)来判
断“两个变量有关系”的方法称为独立性检验.
【常用结论】
(1)求解回归方程的关键是确定回归系数 a^,b^,应充分利用回归直线过样本中心点
(x-,y-).
(2)根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有
关的把握越大.
(3)根据回归方程计算的b^值,仅是一个预报值,不是真实发生的值.
1.(2020·新疆·克拉玛依市教育研究所三模(理))已知某种商品的广告费支出
(单位:万元)与销售额 (单位:万元)之间有如下对应数据:
2 4 5 6 8
30 40 50 60 70
根据上表可得回归方程为 ,计算得 ,则当投入10万元广告费时,销售
额的预报值为( )
A.75万元 B.85万元 C.95万元 D.105万元
2.(2018·河北衡水中学一模(理))如图,5个 数据,去掉 后,下列
说法错误的是( )A.相关系数r变大 B.残差平方和变大
C.R2变大 D.解释变量x与预报变量y的相关性变
强
3.(2021·全国·模拟预测(理))已知对于一组数据 , ,…,
, 关于 的线性回归方程为 ,若 ,则 ______.
4.(2021·四川内江·模拟预测(文))有人发现,多看手机容易使人近视,下表是
调查机构对此现象的调查数据:
近视 不近视 总计
少看手机
多看手机
总计
则在犯错误的概率不超过__________的前提下认为近视与多看手机有关系.
附表:
参考公式: ,其中 .
1.(2021·广东肇庆·模拟预测)某种兼职工作虽然以计件的方式计算工资,但是对
于同一个人的工资与其工作时间还是存在一定的相关关系,已知小孙的工作时间
(单位:小时)与工资 (单位:元)之间的关系如下表:若 与 的线性回归方程为 ,预测当工作时间为 小时时,工资大约为(
)
A. 元 B. 元 C. 元 D. 元
2.(2019·辽宁大连·一模)设有一个回归方程为 ,则变量 增加一个单
位时( )
A. 平均增加1.5个单位 B. 平均增加2个单位
C. 平均减少1.5个单位 D. 平均减少2个单位
3.(2021·黑龙江肇州·模拟预测(文))为了了解山高 (km)与气温 (℃)的
关系,登山人员随机抽测了5次山高与相应气温,如下表:
气温(℃) 22 14 8
山高(km) 22 33 38 47 52
由表中数据,得到线性回归方程 ,由此估计山高 处气温大约为(
)
A. ℃ B. ℃ C. ℃ D. ℃
4.(2021·江西丰城·模拟预测(理))对四组数据进行统计,获得以下散点图,关
于其相关系数的比较,正确的是( )
A. B.C. D.
5.(2021·山东菏泽·二模)下列说法错误的是( )
A.用相关指数 来刻画回归效果, 越小说明拟合效果越好
B.已知随机变量 ,若 ,则
C.某人每次投篮的命中率为 ,现投篮5次,设投中次数为随机变量 .则
D.对于独立性检验,随机变量 的观测值 值越小,判定“两分类变量有关系”犯
错误的概率越大
6.(2021·河南·模拟预测(文))由一组样本点 、 、 、 、
,根据最小二乘法求得的回归方程为 ,则 ___________.
7.(2021·全国·模拟预测)某企业一种商品的产量与单位成本数据如下表:
产量 (万件) 2 3 4
单位成本 (元/件) 3 7
现根据表中所提供的数据,求得 关于 的线性回归直线方程为 ,则预测当
时单位成本为每件______元.
8.(2021·福建·漳州三中三模)根据下面的数据:
1 2 3 4
32 48 72 88
求得 关于 的回归直线方程为 ,则这组数据相对于所求的回归直线方程
的4个残差的方差为___________.(注:残差是指实际观察值与估计值之间的差.)
9.(2021·江西南昌·一模(理))2020年,全球展开了某疫苗研发竞赛,我为处
于领先地位,为了研究疫苗的有效率,在某地进行临床试验,对符合一定条件的
10000名试验者注射了该疫苗,一周后有20人感染,为了验证疫苗的有效率,同期,
从相同条件下未注射疫苗的人群中抽取2500人,分成5组,各组感染人数如下:
调查人数 300 400 500 600 700
感染人数 3 3 6 6 7并求得 与 的回归方程为 ,同期,在人数为10000的条件下,以拟合
结果估算未注射疫苗的人群中感染人数,记为 ;注射疫苗后仍被感染的人数记为 ,
则估计该疫苗的有效率为__________. (疫苗的有效率为 ;参考数据:
;结果保留3位有效数字)
10.(2020·广东·大沥高中模拟预测)某工厂在疫情形势好转的情况下,复工后的
前5个月的利润情况如下表所示:
第1个月 第2个月 第3个月 第4个月 第5个月
利润(单位:万元) 1 11 27 51 80
设第i个月的利润为y万元.
(1)根据表中数据,求y关于i的方程 ( , 的值要求保留小数点后
四位有效数字);
(2)根据已知数据求得回归方程后,为验证该方程的可靠性,可用一个新数据加以验
证,方法如下:先计算新数据 对应的残差 ,再计算 ,若
,则说明该方程是可靠的,否则说明不可靠.现已知该厂第6个月的利润为
120万元,是判断(1)中求得的回归方程是否可靠,说明你的理由.
参考数据: ,取 .
附:回归直线 的斜率和截距的最小二乘估计分别为 ,
.
11.(2021·新疆·克拉玛依市教育研究所模拟预测(文))推进垃圾分类处理,是
落实绿色发展理念的必然选择.为加强社区居民的垃圾分类意识,某社区在健身广场
举办了“垃圾分类,从我做起”生活垃圾分类大型宣传活动,号召社区居民用实际行
动为建设绿色家园贡献一份力量,为此需要征集一部分垃圾分类志愿者.
(1)为调查社区居民喜欢担任垃圾分类志愿者是否与性别有关,现随机选取了一部分社区居民进行调查,其中被调查的男性居民30人,女性居民20人,男性居民中不喜
欢担任垃圾分类志愿者占男性居民的 ,女性居民中不喜欢担任垃圾分类志愿者占女
性居民的 ,判断能否在犯错误概率不超过0.5%的前提下,认为居民喜欢担任垃圾分
类志愿者与性别有关?
附: , .
0.100 0.050 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
(2)某垃圾站的日垃圾分拣量y(千克)与垃圾分类志愿者人数x(人)满足回归直
线方程 ,数据统计如表:
志愿者人数x(人) 2 3 4 5 6
日垃圾分拣量y(千克) 24 29 41 46 t
已知 , , ,根据所给数据求t,预测志愿者人数
为10人时,该垃圾站的日垃圾分拣量.
附: , .
12.(2021·云南大理·模拟预测(理))2021年6月17日9时22分,我国酒泉卫
星发射中心用长征 遥十二运载火箭,成功将神舟十二号载人飞船送入预定轨道,顺
利将聂海胜、刘伯明、汤洪波3名航天员送入太空,发射取得圆满成功,这标志着中
国人首次进入自己的空间站.某公司负责生产的A型材料是神舟十二号的重要零件,
该材料应用前景十分广泛.该公司为了将A型材料更好地投入商用,拟对A型材料进
行应用改造、根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y
(亿元)的数据统计如下:
序号 1 2 3 4 5 6 7 8 9 10 11 12
x 2 3 4 6 8 10 13 21 22 23 24 25y 15 22 27 40 48 54 60 68.5 68 67.5 66 65
当 时,建立了y与x的两个回归模型:模型①: ,模型②:
;当 时,确定y与x满足的线性回归方程为 .
(1)根据下列表格中的数据,比较当 时模型①,②的相关指数 的大小,
并选择拟合精度更高、更可靠的模型,预测对A型材料进行应用改造的投入为17亿元
时的直接收益;
回归模型 模型① 模型②
回归方程
79.13 20.2
(2)为鼓励科技创新,当应用改造的投入不少于20亿元时,国家给予公司补贴5亿
元,以回归方程为预测依据,根据(1)中选择的拟合精度更高更可靠的模型,比较投
入17亿元与20亿元时公司收益(直接收益+国家补贴)的大小.
附:刻画回归效果的相关指数 ,且当 越大时,回归方程的拟合
效果越好. .
用最小二乘法求线性回归方程 的截距: .
1.(2011·江西·高考真题(理))变量X与Y相对应的一组数据为(10,1),
(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),
(11.3,4),(11.8,3),(12.5,2),(13,1). 表示变量Y与X之间的线性相关系
数, 表示变量V与U之间的线性相关系数,则A. B. C. D.
2.(2014·重庆·高考真题(理))已知变量 与 正相关,且由观测数据算得样本
平均数 , ,则由该观测的数据算得的线性回归方程可能是
A. B.
C. D.
3.(2015·湖北·高考真题(文))已知变量 和 满足关系 ,变量 与
正相关. 下列结论中正确的是
A. 与 负相关, 与 负相关
B. 与 正相关, 与 正相关
C. 与 正相关, 与 负相关
D. 与 负相关, 与 正相关
4.(2015·福建·高考真题(理))为了解某社区居民的家庭年收入所年支出的关系,
随机调查了该社区5户家庭,得到如下统计数据表:
收入 (万
8.2 8.6 10.0 11.3 11.9
元)
支出 (万
6.2 7.5 8.0 8.5 9.8
元)
根据上表可得回归直线方程 ,其中 ,据此估计,该社区一
户收入为15万元家庭年支出为( )
A.11.4万元 B.11.8万元 C.12.0万元 D.12.2万元
5.(2011·湖南·高考真题(文))通过随机询问110名不同的大学生是否爱好某项
运动,得到如下的列联表:
男 女 总计
爱好 40 20 60
不爱好 20 30 50总计 60 50 110
由
附表:
0.050 0.010 0.001
3.841 6.635 10.828
参照附表,得到的正确结论是( )
A.有99%以上的把握认为“爱好该项运动与性别有关”
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
6.(2011·陕西·高考真题(理))设(x,y),(x,y),…,(x,y)是变
1 1 2 2 n n
量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线
(如图),以下结论正确的是
A.直线l过点
B.x和y的相关系数为直线l的斜率
C.x和y的相关系数在0到1之间
D.当n为偶数时,分布在l两侧的样本点的个数一定相同
7.(2011·辽宁·高考真题(文))调查了某地若干户家庭的年收入x(单位:万
元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关
关系,并由调查数据得到y对x的回归直线方程: =0.245x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加_______万元.
8.(2011·广东·高考真题(文))工人月工资y(元)与劳动生产率x(千元)变
化的回归方程为 =50+80x,下列判断正确的是_______
①劳动生产率为1千元时,工资为130元;②劳动生产率提高1千元,则工资提高80
元;③劳动生产率提高1千元,则工资提高130元;④当月工资为210元时,劳动生
产率为2千元.
9.(2015·全国·高考真题(文))某公司为确定下一年度投入某种产品的宣传费,
需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)
的影响,对近8年的年宣传费 和年销售量 ( =1,2,···,8)数据作了初步处
理,得到下面的散点图及一些统计量的值.
46. 56 6.
289.8 1.6 1469 108.8
6 3 8
表中 , =
(Ⅰ)根据散点图判断,y=a+bx与y=c+d 哪一个适宜作为年销售量y关于年宣传费
x的回归方程类型?(给出判断即可,不必说明理由)
(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y关于x的回归方程;
(Ⅲ)已知这种产品的年利润z与x、y的关系为z=0.2y-x.根据(Ⅱ)的结果回答下
列问题:(ⅰ)年宣传费x=49时,年销售量及年利润的预报值是多少?
(ⅱ)年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据 , ,……, ,其回归线 的斜率和截距的
最小二乘估计分别为:
10.(2021·全国·高考真题(文))甲、乙两台机床生产同种产品,产品按质量分
为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件
产品,产品的质量情况统计如下表:
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:
0.050 0.010 0.001
k 3.841 6.635 10.828
11.(2020·全国·高考真题(理))某沙漠地区经过治理,生态系统得到很大改善,
野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200
个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据
(x,y)(i=1,2,…,20),其中x和y分别表示第i个样区的植物覆盖面积(单位:
i i i i
公顷)和这种野生动物的数量,并计算得 , , ,
, .(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种
野生动物数量的平均数乘以地块数);
(2)求样本(x,y)(i=1,2,…,20)的相关系数(精确到0.01);
i i
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获
得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并
说明理由.
附:相关系数r= , ≈1.414.
12.(2020·全国·高考真题(文))某学生兴趣小组随机调查了某市100天中每天
的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次
[0,200] (200,400] (400,600]
空气质量等级
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点
值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量
等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,
并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的
空气质量有关?
人次≤400 人次>400
空气质量好
空气质量不好
附: ,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.8281.B
【分析】
根据表中数据求出 和 ,从而求得样本中心 ,代入回归方程 后求得 ,再令 时,即
可求出销售额的预报值.
【详解】
解:由题意得 ,
,
∴样本中心为 ,
∵回归直线 过样本中心 ,
∴ ,解得: ,
∴回归直线方程为 ,
当 时, ,
故当投入10万元广告费时,销售额的预报值为85万元.
故选:B.
2.B
【分析】
根据图中的点,计算去掉 前后的相关系数、残差平方和、 ,即可判断各选项的正误.
【详解】
由图, , ,则 , ,,
∴相关系数 .
令回归方程 ,则 ,
∴ ,即回归方程为 ,可得 为 , ,
, , ,
∴残差平方和 ,故 ,
去掉 后,
, ,则 , ,
,
∴相关系数 .
∴ ,A、D正确;
令回归方程 ,则 ,
∴ ,即回归方程为 ,可得 为 , ,
, ,
∴残差平方和 ,故 ,∴ ,B错误,C正确;
故选:B
3.60
【分析】
求出 ,将 代入可求出 ,即可得出所求.
【详解】
由 可得 ,把 代入回归方程可得 ,
故 .
故答案为:60.
4.
【分析】
根据列联表计算得 ,进而得答案.
【详解】
解:根据列联表计算 ,
所以在犯错误的概率不超过 的前提下认为近视与多看手机有关系.
故答案为:
1.B
【分析】
由样本中心点可求得 ,将 代入回归直线即可求得结果.
【详解】
由表格数据知: , ,
, 线性回归方程为 ,
,即当工作时间为 小时时,工资大约为 元.故选:B.
2.C
【分析】
根据所给的回归直线的方程把自变量由 变为 时,表示出变化后 的值,两式相减即可求解.
【详解】
因为直线回归方程为: ①,
当变量 增加一个单位时 ②,
由② ①可得: ,
所以变量 增加一个单位时 平均减少1.5个单位,
故选:C.
3.B
【分析】
计算出 ,代入 ,求得 ,进而得解.
【详解】
由题得, ,
代入 ,解得
当 时, , .
故选:B
4.A
【分析】
由给出的四组数据的散点图,结合相关系数的概念,逐图判定,即可求解.
【详解】
由给出的四组数据的散点图可以看出,题图1和题图3是正相关,相关系数大于0,
题图2和题图4是负相关,相关系数小于0,
题图1和题图2的点相对更加集中,所以相关性更强,所以 接近于1, 接近于 ,
由此可得 .故选:A.
5.A
【分析】
对于判断个命题真假,只要对各选项逐个判断即可.对于A相关指数越大说明拟合效果越好,题中说法相反;
对于B根据正态分布图像知 概率与 概率相同,即可判断 的概率为 ;对于C可以根据二项
分布 得出 从而求解;对于D根据独立性检验知识判断即可.
【详解】
对于A选项,相关指数越大,说明残差平方和越小,则模型拟合效果越好,故A错;
对于B选项,正态分布图像关于 对称,因为 概率为 ,所以 概率为 ,故 的概率为
,故B正确;
对于C选项,服从二项分布 ,因此 ,则 ,故C正确;
对于D选项,对于分类变量进行独立性检验时,随机变量 的观测值越小,则分类变量间越有关系的可信
度越小,故判定两分类变量约有关系发错误的概率越大,故D正确.
故选:A
6.
【分析】
求出样本中心点的坐标,代入回归直线方程即可求得 的值.
【详解】
由已知条件可得 , ,
将点 的坐标代入回归直线方程可得 ,解得 .
故答案为: .
7.9
【分析】
先求得 , 代入线性回归直线方程 ,得 ,进而求得 ,代入 即可
求得结果.【详解】
由所给数据可求得 , ,代入线性回归直线方程 ,得 ,
解得 ,
所以线性回归直线方程 ,当 时单位成本 (元/件).
故答案为:9.
【点睛】
关键点点睛:线性回归直线方程 过( ),求得 .
8.3.2
【分析】
把x的各个值代入回归直线方程,求出y的估计值,再计算出对应的残差,最后求出它们的方差得解.
【详解】
把x=1,2,3,4依次代入回归直线方程为 ,所得估计值依次为: ,
,
对应的残差依次为:0.8,-2.4,2.4,-0.8,它们的平均数为0,
所以4个残差的方差为 .
故答案为:3.2
9.
【分析】
先求出线性回归方程中 的值,从而可求 ,再根据题设中的计算方法可求疫苗的有效率.
【详解】
由题设表格中的数据可得 ,故 ,
故 ,而 ,
故疫苗有效率为 ,
故答案为: .
10.(1)
(2)可靠
【分析】
(1)设 ,求出 , , ,再由 即可求解.
(2)将 代入,求出 ,再求 即可求解.
(1)
解:设 ,则 , ,
则 ,
所以 ,
故 关于 的回归方程为 .
(2)
解:由(1)知,当 时, ,
因为 ,
所以(1)中求得的回归方程可靠.
11.
(1)能
(2) ,93.4千克
【分析】
(1)根据题意,列出2×2列联表,再根据 公式计算,对照临界表中的数据,比较即可得到答案;
(2)由表中数据和题中所给数据,可求出 的值,再根据参考公式求得线性回归系数 和 ,可得回归直
线方程为 ,再将 代入,即可求出结果.
(1)解:根据题意,列出的2×2列联表如下:
喜欢担任垃圾分类志愿者 不喜欢担任垃圾分类志愿者 合计
男性居民 10 20 30
女性居民 15 5 20
合计 25 25 50
,
所以,能在犯错误概率不超过0.5%的前提下,认为居民喜欢担任垃圾分类志愿者与性别有关.
(2)
解:由表中数据可知, , ,∴ ,
∴ , ,
∴回归直线方程为 .
当 时, .
所以当志愿者为10人时,垃圾分拣量大约为93.4千克.
12.(1)模型②拟合精度更高、更可靠, 亿;(2)投入17亿元比投入20亿元时收益小.
【分析】
(1)根据公式计算相关指数,再根据大小选择合适的模型,根据所得模型可求直接受益.
(2)根据(1)中的公式结合利润计算方法可求公司收益,从而可得两者的大小关系.
【详解】
(1)对于模型①,
对应的 ,
故对应的 ,
故对应的相关指数 ,
对于模型②,同理对应的相关指数 ,故模型②拟合精度更高、更可靠.
故对A型材料进行应用改造的投入为17亿元时的直接收益为 .
(2)当 时,
后五组的 , ,
由最小二乘法可得 ,
故当投入20亿元时公司收益(直接收益+国家补贴)的大小为:
,
故投入17亿元比投入20亿元时收益小.
1.C
【详解】
第一组变量正相关,第二组变量负相关.
2.A
【详解】
试题分析:因为 与 正相关,排除选项C、D,又因为线性回归方程恒过样本点的中心 ,故排除
选项B;故选A.
考点:线性回归直线.
3.A
【详解】
因为变量 和 满足关系 ,一次项系数为 ,所以 与 负相关;变量 与 正相关,设,所以 ,得到 ,一次项系数小于零,所以 与 负相关,故选A.
4.B
【详解】
试题分析:由题 , ,所以
.
试题解析:由已知 ,
又因为 ,
所以 ,即该家庭支出为 万元.
考点:线性回归与变量间的关系.
5.A
【详解】
由 ,而 ,故由独立性检验的意义可知选A
6.A
【详解】
试题分析:回归直线一定过这组数据的样本中心点,两个变量的相关系数不是直线的斜率,两个变量的相
关系数的绝对值是小于1的,是在﹣1与1之间,所有的样本点集中在回归直线附近,没有特殊的限制.
解:回归直线一定过这组数据的样本中心点,故A正确,
两个变量的相关系数不是直线的斜率,而是需要用公式做出,故B不正确,
两个变量的相关系数的绝对值是小于1的,故C不正确,
所有的样本点集中在回归直线附近,不一定两侧一样多,故D不正确,
故选A.
点评:本题考查线性回归方程,考查样本中心点的性质,考查相关系数的做法,考查样本点的分布特点,
是一个基础题.7.0.245
【详解】
当 变为 时, =0.245(x+1)+0.321=0.245x+0.321+0.245,而0.245x+0.321+0.245-
(0.245x+0.321)=0.245.因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元,本题填写
0.245.
8.②
【详解】
试题分析:回归方程 ═50+80x变量x增加一个单位时,变量 产生相应变化,从而对选项一一进行分
析得到结果.
解:劳动生产率提高1千元,则工资提高80元,②正确,③不正确.
①④不满足回归方程的意义.
故答案为②.
点评:主要考查知识点:统计.本题主要考查线性回归方程的应用,考查线性回归方程自变量变化一个单
位,对应的预报值是一个平均变化,这是容易出错的知识点.
9.(Ⅰ) ;(Ⅱ) ;(Ⅲ)(ⅰ) ;(ⅱ)46.24
【详解】
(Ⅰ)由散点图可以判断, 适合作为年销售 关于年宣传费用 的回归方程类型.
(Ⅱ)令 ,先建立 关于 的线性回归方程,由于 = ,
∴ =563-68×6.8=100.6.
∴ 关于 的线性回归方程为 ,
∴ 关于 的回归方程为 .
(Ⅲ)(ⅰ)由(Ⅱ)知,当 =49时,年销售量 的预报值
=576.6,
.(ⅱ)根据(Ⅱ)的结果知,年利润z的预报值
,
∴当 = ,即 时, 取得最大值.
故宣传费用为46.24千元时,年利润的预报值最大.
10.(1)75%;60%;
(2)能.
【分析】
根据给出公式计算即可
【详解】
(1)甲机床生产的产品中的一级品的频率为 ,
乙机床生产的产品中的一级品的频率为 .
(2) ,
故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.
11.(1) ;(2) ;(3)详见解析
【分析】
(1)利用野生动物数量的估计值等于样区野生动物平均数乘以地块数,代入数据即可;
(2)利用公式 计算即可;
(3)各地块间植物覆盖面积差异较大,为提高样本数据的代表性,应采用分层抽样.
【详解】
(1)样区野生动物平均数为 ,
地块数为200,该地区这种野生动物的估计值为(2)样本 (i=1,2,…,20)的相关系数为
(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,
由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物的数量差异很大,
采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,
从而可以获得该地区这种野生动物数量更准确的估计.
【点晴】
本题主要考查平均数的估计值、相关系数的计算以及抽样方法的选取,考查学生数学运算能力,是一道容
易题.
12.(1)该市一天的空气质量等级分别为 、 、 、 的概率分别为 、 、 、 ;(2)
;(3)有,理由见解析.
【分析】
(1)根据频数分布表可计算出该市一天的空气质量等级分别为 、 、 、 的概率;
(2)利用每组的中点值乘以频数,相加后除以 可得结果;
(3)根据表格中的数据完善 列联表,计算出 的观测值,再结合临界值表可得结论.
【详解】
(1)由频数分布表可知,该市一天的空气质量等级为 的概率为 ,等级为 的概率为
,等级为 的概率为 ,等级为 的概率为 ;
(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为
(3) 列联表如下:
人次 人次
空气质量不好
空气质量好,
因此,有 的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
【点睛】
本题考查利用频数分布表计算频率和平均数,同时也考查了独立性检验的应用,考查数据处理能力,属于
基础题.