文档内容
第2讲 变量间的相关关系与统计案例
最新考纲 考向预测
1.会作两个有关联变量的数据的散点
两个变量线性相关的判断
图,并利用散点图认识变量间的相关
及应用,回归直线方程的
关系.
求法及应用,利用2×2列
2.了解最小二乘法的思想,能根据给出
命题趋势 联表判断两个变量的相关
的线性回归方程系数公式建立线性回
关系是高考考查的热点,
归方程(线性回归方程系数公式不要求
题型为选择与填空题,或
记忆).
者在解答题中综合考查.
3.了解独立性检验的思想、方法,并能
初步应用独立性检验的思想方法解决
一些简单的实际问题.
4.通过典型案例了解回归分析的思想 核心素养 数据分析、数学运算
方法,并能初步应用回归分析的思想、
方法解决一些简单的实际问题.
1.变量间的相关关系
常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函
数关系不同,相关关系是一种非确定性关系.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条
直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.
(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相
关关系称为 正 相关 ,点分布在左上角到右下角的区域内,两个变量的相关关系为
负相关.
(3)回归方程为y=bx+a,其中b=,
a= y - b x .
(4)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近
于0,表明两个变量之间几乎不存在线性相关关系,通常|r|大于0.75 时,认为两个
变量有很强的线性相关性.
3.独立性检验
(1)2×2列联表:假设有两个分类变量X和Y,它们的取值分别为{x ,x }和
1 2
{y ,y },其样本频数列联表(称2×2列联表)为:
1 2
y y 总计
1 2
x a b a + b
1
x c d c+d
2
总计 a+c b + d a+b+c+d
(2)K2统计量
K2=(其中n=a+b+c+d为样本容量).
常用结论
1.求解回归方程的关键是确定回归系数a,b,应充分利用回归直线过样本中
心点(x,y).
2.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类
变量有关的把握越大.
常见误区
1.根据回归方程计算的y值,仅是一个预报值,不是真实发生的值.
2.注意线性回归方程中一次项系数为b,常数项为a,这与一次函数的习惯表
示不同.
3.应明确R2越接近于1,表示回归效果越好.
1.判断正误(正确的打“√”,错误的打“×”)
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( )
(2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.(
)
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( )
(4)事件X,Y的关系越密切,由观测数据计算得到的K2的观测值越大.( )
(5)通过回归方程y=bx+a可以估计和观测变量的取值和变化趋势.( )
答案:(1)× (2)√ (3)√ (4)√ (5)√
2.某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:
x 6 8 10 12
y 2 3 5 6
则y对x的线性回归直线方程为( )
A.y=2.3x-0.7 B.y=2.3x+0.7
C.y=0.7x-2.3 D.y=0.7x+2.3
解析:选C.易求x=9,y=4,样本点的中心(9,4)代入验证,满足y=0.7x-2.3.
3.(易错题)两个变量y与x的回归模型中,分别选择了4个不同模型,它们的
相关指数R2如下,其中拟合效果最好的模型是( )
A.模型1的相关指数R2为0.98
B.模型2的相关指数R2为0.80
C.模型3的相关指数R2为0.50
D.模型4的相关指数R2为0.25
解析:选A.在两个变量y与x的回归模型中,它们的相关指数R2越接近于1,
拟合效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.
4.下面是2×2列联表:
y y 总计
1 2
x a 21 73
1
x 22 25 47
2
总计 b 46 120
则a=______,b=______.
解析:因为a+21=73,所以a=52.
又a+22=b,所以b=74.
答案:52 74
5.为了判断高三年级学生是否选修文科与性别的关系,现随机抽取50名学
生,得到如下2×2列联表:
理科 文科
男 13 10
女 7 20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.
根据表中数据,得到K2的观测值
k=≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析:K2的观测值k≈4.844>3.841,这表明小概率事件发生.根据假设检验的
基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出
错的可能性约为5%.
答案:5%
相关关系的判断
[题组练透]
1.(多选)观察下列各图形,其中两个变量x,y具有相关关系的图是( )
解析:选CD.由题中散点图知C项中的点都分布在一条直线附近,D项中的
点也分布在一条直线附近,所以C项和D项中的两个变量具有相关关系,A项和
B项中的点分布杂乱无序不具有相关关系.故选CD项.
2.下列命题中正确的为( )
A.线性相关系数r越大,两个变量的线性相关性越强
B.线性相关系数r越小,两个变量的线性相关性越弱
C.残差平方和越小的模型,模型拟合的效果越好
D.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好
解析:选C.线性相关系数|r|越接近1,两个变量的线性相关性越强,所以A,B
错误;残差平方和越小的模型,模型拟合的效果就越好,C正确;相关指数R2来刻
画回归效果,R2越接近于1,说明模型的拟合效果就越好,所以D错误.
3.某公司在2020年上半年的月收入x(单位:万元)与月支出y(单位:万元)的
统计资料如表所示:
月份 1月份 2月份 3月份 4月份 5月份 6月份
月收入x 12.3 14.5 15.0 17.0 19.8 20.6
月支出y 5.63 5.75 5.82 5.89 6.11 6.18
根据统计资料,则( )
A.月收入的中位数是15,x与y有正线性相关关系
B.月收入的中位数是17,x与y有负线性相关关系C.月收入的中位数是16,x与y有正线性相关关系
D.月收入的中位数是16,x与y有负线性相关关系
解析:选C.月收入的中位数是=16,收入增加,支出增加,故x与y有正线性
相关关系.
判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左
上角到右下角,两个变量负相关.
(2)相关系数:当r>0时,正相关;当r<0时,负相关.
(3)线性回归方程中:b>0时,正相关;b<0时,负相关.
回归分析
角度一 线性回归方程及其应用
(2020·湖北八校第一次联考)为落实国家扶贫攻坚政策,某社区应上级
扶贫办的要求,对本社区所有贫困户每年年底进行收入统计,下表是该社区A贫
困户从2016年至2019年的收入统计数据:(其中y为A贫困户的人均年纯收入)
年份 2016年 2017年 2018年 2019年
年份代码x 1 2 3 4
人均年纯收入y/百元 25 28 32 35
(1)作出A贫困户的人均年纯收入的散点图;
(2)根据上表数据,用最小二乘法求出y关于年份代码x的线性回归方程y=bx
+a,并估计A贫困户在2020年能否脱贫.(注:国家规定2020年的脱贫标准为人
均年纯收入不低于3 800元)
(参考公式:b=,a =y-bx)
【解】 (1)由表格中的数据得散点图如图:
(2)根据表格中的数据可得x==,y==30,
所以b==3.4,a=y-bx=30-3.4×=21.5.
故y关于x的线性回归方程为y=3.4x+21.5,当x=5时,y=38.5(百元),因为3 850>3 800,所以预测A贫困户在2020年能
脱贫.
求回归直线方程的步骤
角度二 相关系数及其应用
(2020·高考全国卷Ⅱ节选)某沙漠地区经过治理,生态系统得到很大改
善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积
相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调
查得到样本数据(x,y)(i=1,2,…,20),其中x 和y 分别表示第i个样区的植物覆
i i i i
盖面积(单位:公顷)和这种野生动物的数量,并计算得∑x=60,∑y=1 200,∑ (x
i i i
-x)2=80,∑ (y-y)2=9 000,∑ (x-x)·(y-y)=800.
i i i
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样
区这种野生动物数量的平均数乘以地块数);
(2)求样本(x,y)(i=1,2,…,20)的相关系数(精确到0.01).
i i
附:相关系数r=,≈1.414.
【解】 (1)由已知得样本平均数y=∑y=60,从而该地区这种野生动物数量的
i
估计值为60×200=12 000.
(2)样本(x,y)(i=1,2,…,20)的相关系数
i i
r===≈0.94.
回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的
线性相关性越强.
(2020·武汉市学习质量检测)有人收集了某10年中某城市居民
年收入(即该城市所有居民在一年内收入的总和)与某种商品的销售额的相关数
据如表:
第n
1 2 3 4 5 6 7 8 9 10
年
年收
32.0 31.0 33.0 36.0 37.0 38.0 39.0 43.0 45.0 x
10
入x/亿
元
商品
销售
额 25.0 30.0 34.0 37.0 39.0 41.0 42.0 44.0 48.0 y
10
y/万
元
且已知∑x=380.0.
i
(1)求第10年的年收入x ;
10
(2)若该城市居民年收入x与该种商品的销售额y之间满足线性回归方程y=x
+a,
①求该种商品第10年的销售额y ;
10
②若该城市居民年收入为40.0亿元,估计这种商品的销售额是多少?(精确
到0.01)
附:①在线性回归方程y=bx+a中,b=,
a=y-bx;
②∑x-10x2=254.0,∑xy=12 875.0,∑y=340.0.
i i i
解:(1)因为∑x=380.0.
i
所以32+31+33+36+37+38+39+43+45+x =380,解得x =46.
10 10
(2)①由该城市居民年收入 x与该种商品的销售额 y之间满足线性回归方程y
=x+a知b=,即b==,
即=,
解得y =51.
10
②求得x=38,y=39.1,代入y=x+a得39.1=×38+a,
解得a≈-15.21,所以y=x-15.21,
当x=40时,y=×40-15.21≈41.96,
故若该城市居民年收入为40.0亿元,估计这种商品的销售额是41.96万元.
独立性检验
(2020·新高考卷Ⅰ)为加强环境保护,治理空气污染,环境监测部门对某
市空气质量进行调研,随机抽查了 100天空气中的 PM2.5和SO 浓度(单位:
2
μg/m3),得下表:SO
2
[0,50] (50,150] (150,475]
PM2.5
[0,35] 32 18 4
(35,75] 6 8 12
(75,115] 3 7 10
(1)估计事件“该市一天空气中 PM2.5 浓度不超过 75,且 SO 浓度不超过
2
150”的概率;
(2)根据所给数据,完成下面的2×2列联表:
SO
2
[0,150] (150,475]
PM2.5
[0,75]
(75,115]
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5
浓度与SO 浓度有关?
2
附:K2=,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
【. 解】 (1)根据抽查数据,该市100天空气中的PM2.5浓度不超过75,且SO
2
浓度不超过150的天数为32+18+6+8 =64,因此,该市一天空气中PM2.5浓度
不超过75,且SO 浓度不超过150的概率的估计值为=0.64.
2
(2)根据抽查数据,可得2×2列联表:
SO
2
[0,150] (150,475]
PM2.5
[0,75] 64 16
(75,115] 10 10
(3)根据(2)的列联表得
K2的观测值k=≈7.484.
由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO 浓
2
度有关.
(1)独立性检验的一般步骤
①根据样本数据制成2×2列联表;②根据公式K2=计算K2的观测值k;
③查表比较K2与临界值的大小关系,作出统计判断.
(2)解独立性检验的应用问题的关注点
①两个明确:(ⅰ)明确两类主体;(ⅱ)明确研究的两个问题;
②两个准确:(ⅰ)准确画出2×2列联表;(ⅱ)准确理解K2.
(2020·长沙市统一模拟考试)为了解某校学生参加社区服务的情
况,采用按性别分层抽样的方法进行调查,已知该校共有学生960人,其中男生
560人,从全校学生中抽取了容量为n的样本,得到一周参加社区服务时间的统
计数据如下表:
超过1小时的人数 不超过1小时的人数
男 20 8
女 12 m
(1)求m,n的值;
(2)能否有95%的把握认为该校学生一周参加社区服务时间是否超过1小时
与性别有关?
附:
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
k=.
解:(1)由已知,该校有女生400人,故=,得m=8,
从而n=20+8+12+8=48.
(2)作出2×2列联表如下:
超过1小时的人数 不超过1小时的人数 总计
男 20 8 28
女 12 8 20
总计 32 16 48
K2的观测值k==≈0.685 7<3.841.
所以没有95%的把握认为该校学生一周参加社区服务时间是否超过 1小时
与性别有关.
[A级 基础练]1.在一次对性别与说谎是否相关的调查中,得到如下数据:
说谎 不说谎 总计
男 6 7 13
女 8 9 17
总计 14 16 30
根据表中数据,得到如下结论正确的一项是( )
A.在此次调查中有95%的把握认为是否说谎与性别有关
B.在此次调查中有99%的把握认为是否说谎与性别有关
C.在此次调查中有99.5%的把握认为是否说谎与性别有关
D.在此次调查中没有充分的证据显示说谎与性别有关
解析:选D.由已知得K2的观测值k=≈0.002<0.455,所以在犯错误的概率不
超过50%的情况下,认为说谎与性别无关,也就是说,在此调查中没有充分的证
据显示说谎与性别有关.
2.(2020·四川绵阳二诊)已知某产品的销售额y(单位:万元)与广告费用x(单
位:万元)之间的关系如下表:
x(单位:万元) 0 1 2 3 4
y(单位:万元) 10 15 m 30 35
若根据表中的数据用最小二乘法求得y与x的回归直线方程为y=6.5x+9,
则下列说法中错误的是( )
A.产品的销售额与广告费用成正相关
B.该回归直线过点(2,22)
C.当广告费用为10万元时,销售额一定为74万元
D.m的值是20
解析:选C.由线性回归方程y=6.5x+9中的回归系数6.5>0,可知产品的销售
额与广告费用成正相关,故A中的说法正确;
x==2,y==,代入y=6.5x+9,得=6.5×2+9,解得m=20,故D中的说法
正确;
y===22,则该回归直线过点(2,22),故B中的说法正确;
当x=10时,y=6.5×10+9=74,说明当广告费用为10万元时,销售额预计
为74万元,故C中的说法错误.故选C.
3.如图是从2015年到2020年六年间我国公共图书馆业机构数与对应年份
编号的散点图(为便于计算,将2015年编号为1,2016年编号为2,…,2020年编号为6,把每年的公共图书馆业机构数作为预报变量,把年份编号作为解释变量
进行回归分析),得到回归直线方程为y=13.743x+3 095.7,其相关指数R2=0.981
7,给出下列结论,其中正确的个数是( )
①公共图书馆业机构数与年份编号的正相关性较强;
②公共图书馆业机构数平均每年增加13.743;
③可预测2021年公共图书馆业机构数为3 192.
A.0 B.1 C.2 D.3
解析:选D.因为散点图中各点散布在从左下角到右上角的区域内,所以为正
相关,因为R2=0.981 7接近于1,所以公共图书馆业机构数与年份编号的相关性
较强,故①正确;因为回归直线的斜率为13.743,所以公共图书馆业机构数平均
每年增加13.743,故②正确;将x=7代入回归直线方程y=13.743x+3 095.7,解
得y=3 191.901≈3 192,所以可预测2021年公共图书馆业机构数为3 192,故③
正确.综上所述,正确的个数是3,故选D.
4.(多选)下列说法中错误的是( )
A.将一组数据中的每一个数据都加上或减去同一个常数后,方差不变
B.设有一个回归直线方程y=3-5x,变量x增加1个单位时,y平均增加5个
单位
C.设具有相关关系的两个变量x,y的相关系数为r,则|r|越接近于0,x和y之
间的线性相关程度越强
D.在一个2×2列联表中,由计算得K2的值,则K2的值越大,判断两个变量
间有关联的把握就越大
解析:选BC.根据方差公式,可知将一组数据中的每个数据都加上或减去同
一个常数后,方差恒不变,故A正确;变量x增加一个单位时,y平均减小5个单
位,故B不正确;设具有相关关系的两个变量x,y的相关系数为r,则|r|越接近于
0,x和y之间的线性相关程度越弱,故C错误;在一个2×2列联表中,由计算得
K2的值,则K2的值越大,判断两个变量间有关联的把握就越大,故D正确.故选
BC.5.经调查某地若干户家庭的年收入x(万无)和年饮食支出y(万元)具有线性相
关关系,并得到y关于x的回归直线方程y=0.245x+0.321,由回归直线方程可知,
家庭年收入每增加1万元,年饮食支出平均增加________万元.
解析:x变为x+1,y=0.245(x+1)+0.321=0.245x+0.321+0.245,因此家庭
年收入每增加1万元,年饮食支出平均增加0.245万元.
答案:0.245
6.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,
具体情况如下表:
专业
非统计专业 统计专业
性别
男 13 10
女 7 20
为了检验主修统计专业是否与性别有关,根据表中的数据得到K2的观测值
k≈________(精确到0.001).若断定主修统计专业与性别有关系,这种判断出错
的可能性为________.
(由临界值表知P(K2≥3.841)≈0.05.P(K2≥5.024)≈0.025,其中K2的观测值k
=,n=a+b+c+d)
解析:由题意,根据公式可得K2的观测值k=
≈4.844.
因为4.844>3.841,所以断定主修统计专业与性别有关系,这种判断出错的可
能性为0.05.
答案:4.844 0.05
7.(2020·合肥模拟)某校在高一年级学生中,对自然科学类、社会科学类校本
选修课程的选课意向进行调查.现从高一年级学生中随机抽取180名学生,其中
男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.
(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?
(2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否
在犯错误的概率不超过0.025的前提下认为科学类的选择与性别有关?
选择自然科学类 选择社会科学类 总计
男生
女生
总计附:K2=,其中n=a+b+c+d.
P(K2≥k ) 0.10 0.05 0.025 0.010 0.005 0.001
0
k 2.706 3.841 5.024 6.635 7.879 10.828
0
解:(1)从高一年级学生中随机抽取1人,抽到男生的概率约为=.
(2)根据统计数据,可得2×2列联表如表:
选择自然科学类 选择社会科学类 总计
男生 60 45 105
女生 30 45 75
总计 90 90 180
则K2的观测值k==≈5.143 9>5.024,
所以能在犯错误的概率不超过0.025的前提下认为科学类的选择与性别有关.
8.某市春节期间7家超市广告费支出x(万元)和销售额y(万元)数据如表:
i i
超市 A B C D E F G
广告费支出x(万元) 1 2 4 6 11 13 19
i
销售额y(万元) 19 32 40 44 52 53 54
i
(1)若用线性回归模型拟合y与x的关系,求y与x的线性回归方程;
(2)若用二次函数回归模型拟合y与x的关系,可得回归方程:y=-0.17x2+
5x+20,经计算,二次函数回归模型和线性回归模型的R2分别约为0.93和0.75,
请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出为3
万元时的销售额.
参考数据:x=8,y=42,∑xy=2 794,∑x=708.
i i
参考公式:b=,a=y-bx.
解:(1)b===1.7.
所以a=y-bx=42-1.7×8=28.4.
故y关于x的线性回归方程是y=1.7x+28.4.
(2)因为0.75<0.93,所以二次函数回归模型更合适.
当x=3时,y=33.47.故选择二次函数回归模型更合适,并且用此模型预测A
超市广告费支出为3万元时的销售额为33.47万元.
[B级 综合练]
9.(2020·高考全国卷Ⅲ)某学生兴趣小组随机调查了某市 100天中每天的空
气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次 [0,200] (200,400] (400,600]空气质量等级
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间
的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空
气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的
2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的
人次与该市当天的空气质量有关?
人次≤400 人次>400
空气质量好
空气质量不好
附:K2=,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
.解:(1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如
表:
空气质量等级 1 2 3 4
概率的估计值 0.43 0.27 0.21 0.09
(2)一天中到该公园锻炼的平均人次的估计值为
(100×20+300×35+500×45)=350.
(3)根据所给数据,可得2×2列联表:
人次≤400 人次>400
空气质量好 33 37
空气质量不好 22 8
根据列联表得
K2=≈5.820.
由于5.820>3.841,故有95%的把握认为一天中到该公园锻炼的人次与该市
当天的空气质量有关.[C级 创新练]
10.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:
千元)对年销售量z(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费x
i
和年销售量y(i=1,2,…,8)数据作了初步处理,得到如图所示的散点图及一些统
i
计量的值.
∑ (x-x) ∑ (w-w)
i i
x y w ∑ (x-x)2 ∑ (w-w)2
i i
·(y-y) ·(y-y)
i i
46.6 563 6.8 289.8 1.6 1469 108.8
表中w=,w=∑w.
i i
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年
宣传费x的回归方程类型;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答
下列问题:
①当年宣传费x=49千元时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u ,v ),(u ,v ),…,(u ,v ),其回归直线v=α+βu的斜率和
1 2 2 2 n n
截距的最小二乘估计分别为:β=,a=v-βu.
解:(1)由散点图可以判断y=c+d适宜作为年销售量y关于年宣传费x的回
归方程类型.
(2)令w=,先建立y关于w的线性回归方程,由d===68.得c=y-dw=563
-68×6.8=100.6.
所以y关于w的线性回归方程为y=100.6+68w,因此y关于x的回归方程为
y=100.6+68.
(3)①由(2)知,当x=49时,年销售量y的预报值y=100.6+68=576.6,
年利润z的预报值z=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值z=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,z取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.