文档内容
第二节 变量间的相关性与统计案例
核心素养立意下的命题导向
1.会作两个相关变量的散点图,会利用散点图认识变量之间的相关关系.
2.了解最小二乘法的思想,能根据给出的线性回归系数公式建立线性回归方程,凸显数学运
算的核心素养.
3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其应用,凸显数学建模、数据分
析的核心素养.
4.了解回归分析的基本思想、方法及其简单应用,凸显数学建模、数据分析的核心素养.
[理清主干知识]
1.变量间的相关关系
常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相
关关系是一种非确定性关系.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两
个变量之间具有线性相关关系,这条直线叫回归直线.
(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相
关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.
(3)回归方程为y=bx+a,其中b=,a=-b.
(4)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变
量之间几乎不存在线性相关关系,通常|r|大于0.75 时,认为两个变量有很强的线性相关性.
3.独立性检验
(1)2×2列联表:假设有两个分类变量X和Y,它们的取值分别为{x,x}和{y,y},其样本频数
1 2 1 2
列联表(称2×2列联表)为:
y y 总计
1 2
x a b a + b
1
x c d c+d
2
总计 a+c b + d a+b+c+d
(2)K2统计量
K2=(其中n=a+b+c+d为样本容量).
[澄清盲点误点]
一、关键点练明
1.(分类变量)为调查中学生近视情况,测得某校男生150名中有80名近视,140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )
A.回归分析 B.均值与方差
C.独立性检验 D.概率
解析:选C “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.
2.(回归分析)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随
机抽取10名学生,根据测量数据的散点图可以看出y与x之间具有线性相关关系,设其回归
直线方程为y=bx+a.已知∑x=225,∑y=1 600,b=4.该班某学生的脚长为24,据此估计其
i i
身高为( )
A.160 B.163
C.166 D.170
解析:选C 易知==22.5,==160.因为b=4,所以160=4×22.5+a,解得a=70,所以回归
直线方程为y=4x+70,当x=24时,y=96+70=166.故选C.
3.(独立性检验)为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学
生,得到如下2×2列联表:
理科 文科
男 13 10
女 7 20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.
根据表中数据,得到K2的观测值k=≈4.844.则认为选修文科与性别有关系出错的可能性为
________.
解析:K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定
“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.
答案:5%
二、易错点练清
1.(独立性检验理解不当)某医疗机构通过抽样调查(样本容量n=1 000),利用2×2列联表和
K2 统计量研究患肺病是否与吸烟有关.计算得 K2=4.453,经查阅临界值表知
P(K2≥3.841)≈0.05,现给出四个结论,其中正确的是( )
A.在100个吸烟的人中约有95个人患肺病
B.若某人吸烟,那么他有95%的可能性患肺病
C.有95%的把握认为“患肺病与吸烟有关”
D.只有5%的把握认为“患肺病与吸烟有关”
解析:选C 由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”.故选C.
2.(忽视回归直线过样本点中心)已知变量x和y的统计数据如下表:
x 3 4 5 6 7
y 2.5 3 4 4.5 6
根据上表可得回归直线方程为y=bx-0.25,据此可以预测当x=8时,y=( )A.6.4 B.6.25
C.6.55 D.6.45
解析:选C 由题意知==5,==4,
将点(5,4)代入y=bx-0.25,解得b=0.85,则y=0.85x-0.25,所以当x=8时,y=0.85×8-
0.25=6.55,故选C.
考点一 相关关系的判断
[典例] (1)对变量x,y有观测数据(x
i
,y
i
)(i=1,2,…,10),得散点图如图①,对变量u,
v
有观
测数据(u i , vi )(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断( )
A.变量x与y正相关,u与
v
正相关
B.变量x与y正相关,u与
v
负相关
C.变量x与y负相关,u与
v
正相关
D.变量x与y负相关,u与
v
负相关
(2)某公司在2019年上半年的月收入x(单位:万元)与月支出y(单位:万元)的统计资料如表所
示:
月份 1月份 2月份 3月份 4月份 5月份 6月份
收入x 12.3 14.5 15.0 17.0 19.8 20.6
支出y 5.63 5.75 5.82 5.89 6.11 6.18
根据统计资料,则( )
A.月收入的中位数是15,x与y有正线性相关关系
B.月收入的中位数是17,x与y有负线性相关关系
C.月收入的中位数是16,x与y有正线性相关关系
D.月收入的中位数是16,x与y有负线性相关关系
[解析] (1)由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线
性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与
v
正相关.
(2)月收入的中位数是=16,收入增加,支出增加,
故x与y有正线性相关关系.[答案] (1)C (2)C
[方法技巧] 判断相关关系的2种方法
如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如
散点图法
果所有的样本点都落在某一直线附近,变量之间就有线性相关关系
相关系数法 利用相关系数判定,当|r|越趋近于1时,相关性越强
[针对训练]
1.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别
得到以下四个结论:
①y与x负相关且y=2.347x-6.423;
②y与x负相关且y=-3.476x+5.648;
③y与x正相关且y=5.437x+8.493;
④y与x正相关且y=-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①② B.②③
C.③④ D.①④
解析:选D 正相关指的是y随x的增大而增大,负相关指的是y随x的增大而减小,故不正
确的为①④.
2.(2021·宁德质检)在一组数据为(x,y),(x,y),…,(x ,y )(n≥2,x,x,…,x 不全相等)的
1 1 2 2 n n 1 2 n
散点图中,若这组样本数据的相关系数为-1,则所有的样本点(x,y)(i=1,2,…,n)满足的方
i i
程可以是( )
A.y=-x+1 B.y=x-1
C.y=x+1 D.y=-x2
解析:选A ∵这组样本数据的相关系数为-1,∴这一组数据(x,y),(x,y),…,(x ,y )线
1 1 2 2 n n
性相关,且是负相关,∴可排除B、C、D,故选A.
考点二 回归分析
考法(一) 线性回归方程
[例1] (2021·龙岩月考)某手机厂商在销售200万台某型号手机时开展“手机碎屏险”活动.
活动规则如下:用户购买该型号手机时可选购“手机碎屏险”,保费为x元.若在购机后一
年内发生碎屏可免费更换一次屏幕.该手机厂商将在这200万台该型号手机全部销售完毕一
年后,在购买碎屏险且购机后一年内未发生碎屏的用户中随机抽取1 000名,每名用户赠送1
000元的红包.为了合理确定保费x的值,该手机厂商进行了问卷调查,统计后得到下表(其
中y表示保费为x元时愿意购买该“手机碎屏险”的用户比例):
x 10 20 30 40 50
y 0.79 0.59 0.38 0.23 0.01
(1)根据上面的数据求出y关于x的回归直线方程;
(2)通过大数据分析,在使用该型号手机的用户中,购机后一年内发生碎屏的比例为0.5%.已知更换一次该型号手机屏幕的费用为800元,若该手机厂商要求在这次活动中因销售该“手
机碎屏险”产生的利润不少于70万元,能否把保费x定为5元?
参考数据:表中x的5个值从左到右分别记为x,x,x,x,x,相应的y值分别记为y,y,y,
1 2 3 4 5 1 2 3
y,y,经计算有∑ (x-)(y-)=-19.2,其中=∑x,=∑y.
4 5 i i i i
[解] (1)由=30,=0.4,
∑ (x-)(y-)=-19.2,∑ (x-)2=1 000,
i i i
得b==-0.0192,a=-b=0.976,
所以y关于x的回归直线方程为y=-0.019 2x+0.976.
(2)能把保费x定为5元.
理由如下:若保费x定为5元,则估计y=-0.019 2×5+0.976=0.88,
估计该手机厂商在这次活动中因销售该“手机碎屏险”产生的利润为
2 000 000×0.88×5-2 000 000×0.88×0.5%×800-1 000×1 000=0.76×106(元)=76(万
元)>70(万元),
所以能把保费x定为5元.
考法(二) 相关系数
[例2] 我国大力发展校园足球,为了解某地区足球特色学校的发展状况,社会调查小组得到
如下统计数据:
年份x 2014 2015 2016 2017 2018
足球特色学校y(百个) 0.30 0.60 1.00 1.40 1.70
(1)根据上表数据,计算y与x的相关系数r,并说明y与x的线性相关性强弱;
(已知:0.75≤|r|≤1,则认为y与x的线性相关性很强;0.3≤|r|<0.75,则认为y与x的线性相
关性一般;|r|≤0.25,则认为y与x的线性相关性较弱)
(2)求y关于x的线性回归方程,并预测该地区2021年足球特色学校的个数(精确到个).
参考数据:(x-)2=10,(y-)2=1.3,(x-)·(y-)=3.6,≈ 3.605 6.
i i i i
[解] (1)由题得=×(2 014+2 015+2 016+2 017+2 018)=2 016,
=×(0.30+0.60+1.00+1.40+1.70)=1,
∴r==≈≈0.998>0.7.
∴y与x的线性相关性很强.
(2)设y关于x的线性回归方程为y=a+bx,
则b===0.36,
a=-b=1-0.36×2 016=-724.76,
∴y关于x的线性回归方程是y=0.36x-724.76.
当x=2 021时,y=0.36×2 021-724.76=2.8,故预测该地区2021年足球特色学校有280个.
考法(三) 非线性回归分析
[例3] 已知某地区某种昆虫产卵数和温度有关.现收集了一只该品种昆虫的产卵数y(个)和
温度x(℃)的7组观测数据,其散点图如图所示:根据散点图,结合函数知识,可以发现产卵数y和温度x可用方程y=ebx+a来拟合,令z
=ln y,结合样本数据可知z与温度x可用线性回归方程来拟合.
根据收集到的数据,计算得到如下值:
(x-)2 (z-)2 (x-)(z-)
i i i i
27 74 3.537 182 11.9 46.418
表中z=ln y,=.
i i i
(1)求z关于温度x的回归方程(回归系数结果精确到0.001);
(2)求产卵数y关于温度x的回归方程;若该地区一段时间内的气温在26 ℃~36 ℃之间(包括
26 ℃与36 ℃),估计该品种一只昆虫的产卵数的范围.参考数据:e3.282≈27,e3.792≈44,
e5.832≈341,e6.087≈440,e6.342≈568.
[解] (1)由题意,z和温度x可以用线性回归方程拟合,
设z=bx+a,
则b==≈0.255,
a=-b=3.537-0.255×27=-3.348,
故z关于x的线性回归方程为z=0.255x-3.348.
(2)由(1)可得,ln y=0.255x-3.348.
于是产卵数y关于温度x的回归方程为y=e0.255x-3.348.
当x=26时,y=e0.255×26-3.348=e3.282≈27;
当x=36时,y=e0.255×36-3.348=e5.832≈341.
∵函数y=e0.255x-3.348为增函数,
∴在气温在26℃~36℃之间时,一只该品种昆虫的产卵数的估计范围是{y|27≤y≤341,
y∈N*}.
[方法技巧]
1.线性回归分析问题的类型及解题方法
(1)求回归直线方程
①计算出,,,y或(x-)(y-),(x-)2的值;
i i i i i
②利用公式计算回归系数a,b;
③写出回归直线方程y=bx+a.
(2)回归模型的拟合效果:利用相关系数r判断,当|r|越趋近于1时,两变量的线性相关性越强.
2.非线性回归方程的求法
(1)根据原始数据作出散点图;
(2)根据散点图选择恰当的拟合函数;(3)作恰当变换,将其转化成线性函数,求线性回归方程;
(4)在(3)的基础上通过相应变换,即可得非线性回归方程.
[针对训练]
1.已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下表对应数据,
根据表中数据可得回归方程y=bx+a其中b=11据此估计,当投入6万元广告费时,销售额
约为( )
x 1 2 3 4 5
y 10 15 30 45 50
A.60万元 B.63万元
C.65万元 D.69万元
解析:选B 由表格数据可知==3,==30,
因为回归方程过点(,),所以30=3b+a,且b=11,得a=-3,所以y=11x-3,代入x=6,得y
=63,故选B.
2.某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某
医院抄录了1月份至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下
数据:
1月 2月 3月 4月 5月 6月
日期
10日 10日 10日 10日 10日 10日
昼夜温差x/℃ 10 11 13 12 8 6
就诊人数y/个 22 25 29 26 16 12
该兴趣小组确定的研究方案是:先从这6组数据中选取2组,用剩下的4组数据求线性回归
方程,再用被选取的2组数据进行检验.
(1)求选取的2组数据恰好是相邻两个月的概率;
(2)若选取的是1月份与6月份的两组数据,请根据2月份至5月份的数据,求出y关于x的
线性回归方程y=bx+a;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2,则认为得到的
线性回归方程是理想的,试问该小组所得线性回归方程是否理想?
参考数据:11×25+13×29+12×26+8×16=1 092,
112+132+122+82=498.
解:(1)设选到相邻两个月的数据为事件A.因为从6组数据中选取2组数据共有15种情况,
且每种情况都是等可能的,其中,选到相邻两个月的数据的情况有5种,所以P(A)==.
(2)由表中2月份至5月份的数据可得=11,=24,y=1 092,=498,所以b==,
i i
则a=-b =-,所以y关于x的线性回归方程为y=x-.
(3)当x=10时,y=,<2;
当x=6时,y=,<2.
所以该小组所得线性回归方程是理想的.
考点三 独立性检验
[典例] (2020·全国卷Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当
天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次
[0,200] (200,400] (400,600]
空气质量等级
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代
表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3
或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,
判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次≤400 人次>400
空气质量好
空气质量不好
附:K2=,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
[解] (1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:
空气质量等级 1 2 3 4
概率的估计值 0.43 0.27 0.21 0.09
(2)一天中到该公园锻炼的平均人次的估计值为
(100×20+300×35+500×45)=350.
(3)根据所给数据,可得2×2列联表:
人次≤400 人次>400
空气质量好 33 37
空气质量不好 22 8
根据列联表得K2=≈5.820.由于5.820>3.841,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量
有关.
[方法技巧] 解独立性检验应用问题的2个关注点
两个明确 明确两类主体;明确研究的两个问题
两个准确 准确画出2×2列联表;准确计算K2
[针对训练]
(2021·大连一模)在某次测验中,某班40名考生的成绩满分100分统计如图所示.
(1)估计这40名学生的测验成绩的中位数x(精确到0.1);
0
(2)记80分以上为优秀,80分及以下为合格,结合频率分布直方图完成下表,并判断是否有
95%的把握认为数学测验成绩与性别有关?
合格 优秀 总计
男生 16
女生 4
总计 40
解:(1)由频率分布直方图易知0.01×10+0.015×10+0.02×10=0.45,即分数在的频率为
0.45,
∴0.03×=0.5-0.45,解得x=≈71.7,
0
∴40名学生的测验成绩的中位数为71.7.
(2)由频率分布直方图,可得列联表如下:
合格 优秀 总计
男生 16 6 22
女生 14 4 18
总计 30 10 40
∴K2==≈0.135<3.841,
故没有95%的把握认为数学测验成绩与性别有关.
一、综合练——练思维敏锐度
1.(2020·全国卷Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)
的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x,y)(i=1,2,…,20)得到
i i
下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x
的回归方程类型的是( )
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+bln x
解析:选D 用光滑的曲线把图中各点连接起来,由图象的大致走向判断,此函数应该是对
数函数类型的,故应该选用的函数模型为y=a+bln x.
2.(多选)(2021·济宁模拟)下列说法正确的是( )
A.在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越差
B.某地气象局预报:6月9日本地降水概率为90%,结果这天没下雨,这表明天气预报并不
科学
C.回归分析模型中,残差平方和越小,说明模型的拟合效果越好
D.在回归直线方程y=0.1x+10中,当解释变量每增加1个单位时,预报变量增加0.1个单位
解析:选CD 对A项,在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回
归效果越好,故A错误;对B项,概率只说明事件发生的可能性,某次事件不一定发生,所以
并不能说明天气预报不科学,故B错误;对C项,在回归分析模型中,残差平方和越小,说明
模型的拟合效果越好,故C正确;对D项,在回归直线方程y=0.1x+10中,当解释变量x每
增加1个单位时,预报变量y增加0.1个单位,故D正确,故选C、D.
3.某模具厂采用了新工艺后,原材料支出费用x与销售额y(单位:万元)之间有如下数据,由
散点图可知,销售额y与原材料支出费用x有较好的线性相关关系,其线性回归方程是y=bx
+48,则当原材料支出费用为40时,预估销售额为( )
x 10 15 20 25 30
y 110 125 160 185 220
A.252 B.268
C.272 D.288
解析:选C 由题意得=20,=160,将点代入回归方程y=bx+48中,得b=5.6,∴回归方程
为y=5.6x+48,∴当x=40时,y=272,故选C.
4.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构
用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.
非一线 一线 总计
愿生 45 20 65
不愿生 13 22 35
总计 58 42 100计算得,K2≈9.616.
参照下表,
P(K2≥k) 0.050 0.010 0.001
0
k 3.841 6.635 10.828
0
下列结论正确的是( )
A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过5%的前提下,认为“生育意愿与城市级别无关”
C.有99%以上的把握认为“生育意愿与城市级别有关”
D.有99%以上的把握认为“生育意愿与城市级别无关”
解析:选C 因为K2≈9.616>6.635,所以有99%以上的把握认为“生育意愿与城市级别有
关”,故选C.
5.(多选)我国5G技术研发试验在2016~2018年进行,分为5G关键技术试验、5G技术方案
验证和5G系统验证三个阶段.2020年初以来,5G技术在我国已经进入高速发展的阶段,5G
手机的销量也逐渐上升.某手机商城统计了近5个月来5G手机的实际销量,如下表所示:
2020年 2020年 2020年 2020年 2020年
月份
8月 9月 10月 11月 12月
月份编号x 1 2 3 4 5
销量y/部 50 96 a 185 227
若y与x线性相关,且求得线性回归方程为y=45x+5,则下列说法正确的是( )
A.a=142
B.y与x正相关
C.y与x的相关系数为负数
D.2021年2月该手机商城的5G手机销量约为365部
解析:选AB ==3,
==,
因为点(,)在回归直线上,所以=45×3+5,解得a=142,所以选项A正确;
从表格数据看,y随x的增大而增大,所以y与x正相关,所以选项B正确;
因为y与x正相关,所以y与x的相关系数为正数,所以选项C错误;
2021年2月对应的月份编号x=7,当x=7时,y=45×7+5=320,所以2021年2月该手机
商城的5G手机销量约为320部,所以选项D错误.故选A、B.
6.(多选)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等变
化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨
淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,
观察了所在地区A的100天日落和夜晚天气,得到如下2×2列联表:夜晚天气
下雨 未下雨
日落云里走
出现 25 5
未出现 25 45
临界值表
P(K2≥k) 0.10 0.05 0.010 0.001
0
k 2.706 3.841 6.635 10.828
0
并计算得到K2≈19.05,下列小波对地区A天气判断正确的是( )
A.夜晚下雨的概率约为
B.未出现“日落云里走”夜晚下雨的概率约为
C.有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关
D.出现“日落云里走”,有99.9%的把握认为夜晚会下雨
解析:选D 由题意,把频率看作概率可得夜晚下雨的概率约为=,故A判断正确;未出现
“日落云里走”,夜晚下雨的概率约为=,故B判断正确;由K2≈19.05>10.828,根据临界值
表,可得有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关,故C
判断正确,D判断错误,故选D.
7.为了均衡教育资源,加大对偏远地区的教育投入,调查了某地若干户家庭的年收入x(单位:
万元)和年教育支出y(单位:万元),调查显示年收入x与年教育支出y具有线性相关关系,并
由调查数据得到y与x的回归直线方程为y=0.15x+0.2.由回归直线方程可知,家庭年收入
每增加1万元,则年教育支出平均增加________万元.
解析:因为回归直线的斜率为0.15,所以家庭年收入每增加1万元,年教育支出平均增加0.15
万元.
答案:0.15
8.心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,
从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题
各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)
几何题 代数题 总计
男同学 22 8 30
女同学 8 12 20
总计 30 20 50
根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过
________.
附表:
P(K2≥k) 0.10 0.05 0.025 0.010 0.001
0
k 2.706 3.841 5.024 6.635 10.828
0解析:由列联表计算K2的观测值k=≈5.556>5.024.∴推断犯错误的概率不超过0.025.
答案:0.025
9.(2021·甘肃兰州一诊)近五年来某草场羊只数量与草地植被指数两变量间的关系如表所示,
绘制相应的散点图,如图所示:
年份 1 2 3 4 5
羊只数量/万只 1.4 0.9 0.75 0.6 0.3
草地植被指数 1.1 4.3 15.6 31.3 49.7
根据表及图得到以下判断:
①羊只数量与草地植被指数成减函数关系;
②若利用这五组数据得到的两变量间的相关系数为r,去掉第一年数据后得到的相关系数为
1
r,则|r|<|r|;
2 1 2
③可以利用回归直线方程,准确地得到当羊只数量为2万只时的草地植被指数.
以上判断中正确的个数是________.
解析:对于①,羊只数量与草地植被指数成负相关关系,不是减函数关系,所以①错误;对于
②,用这五组数据得到的两变量间的相关系数为r,因为第一年数据(1.4,1.1)是离群值,去掉
1
后得到的相关系数为r,其相关性更强,所以|r|<|r|,②正确;对于③,利用回归直线方程,
2 1 2
不能准确得到当羊只数量为2万只时的草地植被指数,得到的只是预测值,所以③错误.综
上知,正确的判断序号是②,共1个.
答案:1
10.(2021·佛山质检)“学习强国”APP是由中宣部主管以习近平新时代中国特色社会主义
思想和党的十九大精神为主要内容的“PC端+手机客户端”两大终端二合一模式的学习平
台,2019年1月1日上线后便成了党员干部群众学习的“新助手”,为了调研某地党员在
“学习强国”APP的学习情况,研究人员随机抽取了200名该地党员进行调查,将他们某两
天在“学习强国”APP上所得的分数统计如表(1)所示:
表(1)
分数 [60,70) [70,80) [80,90) [90,100]
人数 50 100 20 30
(1)现用分层抽样的方法从80分及以上的党员中随机抽取5人,再从抽取的5人中随机选取
2人作为学习小组长,求所选取的两位小组长的分数都在上的概率;
(2)为了调查“学习强国”APP得分情况是否受到所在单位的影响,研究人员随机抽取了机
关事业单位党员以及国有企业党员作出调查,得到的数据如表所示:
表(2)机关事业单位党员 国有企业党员
分数超过80 220 150
分数不超过80 80 50
判断是否有99%的把握认为“学习强国”APP得分情况受所在单位的影响.
附:K2=,n=a+b+c+d.
P(K2≥k) 0.100 0.050 0.010 0.001
0
k 2.706 3.841 6.635 10.828
0
解:(1)由题意得,分数在上抽取2人,记为a,b;分数在上抽取3人,记为A,B,C.
选取2人作为学习小组长的基本事件有10个,即(a,b),(a,A),(a,B),(a,C),(b,A),(b,B),
(b,C),(A,B),(A,C),(B,C),其中两位小组长的分数都在上的有(A,B),(A,C),(B,C)共3个
基本事件,∴所求概率P=.
(2)完善表格如下:
机关事业单位党员 国有企业党员 总计
分数超过80 220 150 370
分数不超过80 80 50 130
总计 300 200 500
K2=≈0.173<6.635,
故没有99%的把握认为“学习强国”APP得分情况受所在单位的影响.
11.一汽车销售公司对开业4年来某种型号的汽车“五一”优惠金额与销售量之间的关系进
行分析研究并做了记录,得到如下资料:
日期 第一年 第二年 第三年 第四年
优惠金额x/千元 10 11 13 12
销售量y/辆 22 24 31 27
(1)求出y关于x的线性回归方程y=bx+a;
(2)若第5年优惠金额8.5千元,估计第5年的销售量y(辆)的值.
参考公式:b=,a=-b.
解:(1)由题中数据可得=11.5,=26,∑xy=1 211,
i i
∑x=534,
∴b====3,
故a=-b=26-3×11.5=-8.5,
∴y关于x的线性回归方程为y=3x-8.5.
(2)由(1)得,当x=8.5时,y=17,
∴第5年优惠金额为8.5千元时,销售量估计为17辆.
二、自选练——练高考区分度某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量
y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费x和年销售量y(i=1,2,…,8)
i i
数据作了初步处理,得到下面的散点图及一些统计量的值.
(x
i
-)· (wi -)·
(x
i
-)2 (wi -)2
(y-)
i (y-)
i
46.6 563 6.8 289.8 1.6 1 469 108.8
表中 wi =,= i .
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归
方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.
根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u
1
,
v1
),(u
2
,
v2
),…,(u
n
,
vn
),其回归直线v=α+βu的斜率和截距的最小
二乘估计分别为
β=,α=-β.
解:(1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令
w
=,先建立y关于
w
的线性回归方程,由于
d===68,
c=-d=563-68×6.8=100.6.
所以y关于
w
的线性回归方程为y=100.6+68w ,
因此y关于x的回归方程为y=100.6+68.
(3)①由(2)知,当x=49时,
年销售量y的预报值y=100.6+68=576.6,
年利润z的预报值z=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值
z=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,z取得最大值,
故年宣传费为46.24千元时,年利润的预报值最大.