文档内容
第 83 讲 变量间的相关关系、统计案例
1. 变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关
系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散
布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.
2. 两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之
间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程为 y ^ = b ^x + a ^ _,其中其中a^,b^是待定参数
(3)相关系数:
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间
几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
3. 独立性检验
(1)2×2列联表
设X,Y为两个变量,它们的取值分别为{x , x }和{y , y },其样本频数列联表(2×2列联表)如下:
1 2 1 2
y y 总计
1 2
x a b a+b
1
x c d c+d
2
总计 a+c b+d a+b+c+d
(2)独立性检验
利用随机变量K2(也可表示为χ2)的观测值k= ( 其中 n = a + b +
c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
常用结论
(1)求解回归方程的关键是确定回归系数a^,b^,应充分利用回归直线过样本中心点 (x-,y-).
(2)根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.
(3)根据回归方程计算的b^值,仅是一个预报值,不是真实发生的值.
1、(2023•天津)调查某种花萼长度和花瓣长度,所得数据如图所示,其中相关系数 ,下列说
法正确的是A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈现负相关
C.花瓣长度和花萼长度呈现正相关
D.若从样本中抽取一部分,则这部分的相关系数一定是0.8245
【答案】
【解析】 相关系数 ,且散点图呈左下角到右上角的带状分布,
花瓣长度和花萼长度呈正相关.
若从样本中抽取一部分,则这部分的相关系数不一定是0.8245.
故选: .
2、(2023•上海)根据所示的散点图,下列说法正确的是
A.身高越大,体重越大 B.身高越大,体重越小
C.身高和体重成正相关 D.身高和体重成负相关
【答案】
【解析】根据散点图的分布可得:身高和体重成正相关.
故选: .
3、【2020年山东卷19】为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查
了100天空气中的PM2.5和SO 浓度(单位:μg/m3),得下表:
2
SO
2
[0,50] (50,150] (150,475]
PM2.5
[0,35] 32 18 4
(35,75] 6 8 12(75,115] 3 7 10
(1)估计事件“该市一天空气中浓度不超过 ,且 浓度不超过 ”的概率;
(2)根据所给数据,完成下面的 列联表:
PM2.5
(75,115]
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO 浓度有关?
2
n(ad−bc) 2
附:K2=
,
(a+b)(c+d)(a+c)(b+d)
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
【答案】(1)0.64;(2)答案见解析;(3)有.
【解析】
(1)由表格可知,该市 100 天中,空气中的PM2.5浓度不超过 75,且SO 浓度不超过 150 的天数有
2
32+6+18+8=64天,
64
所以该市一天中,空气中的PM2.5浓度不超过75,且SO 浓度不超过150的概率为 =0.64;
2 100
(2)由所给数据,可得2×2列联表为:
SO
2
[0,150] (150,475] 合计
PM2.5
[0,75] 64 16 80
(75,115] 10 10 20
合计 74 26 100
(3)根据2×2列联表中的数据可得n(ad−bc) 2 100×(64×10−16×10) 2 3600
K2= = = ≈7.4844>6.635,
(a+b)(c+d)(a+c)(b+d) 80×20×74×26 481
因为根据临界值表可知,有99%的把握认为该市一天空气中PM2.5浓度与SO 浓度有关.
2
4、【2020年海南卷19】为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查
了100天空气中的PM2.5和SO 浓度(单位:μg/m3),得下表:
2
SO
2
[0,50] (50,150] (150,475]
PM2.5
[0,35] 32 18 4
(35,75] 6 8 12
(75,115] 3 7 10
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO 浓度不超过150”的概率;
2
(2)根据所给数据,完成下面的2×2列联表:
SO
2
[0,150] (150,475]
PM2.5
[0,75]
(75,115]
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO 浓度有关?
2
n(ad−bc) 2
附:K2=
,
(a+b)(c+d)(a+c)(b+d)
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
【答案】(1)0.64;(2)答案见解析;(3)有.
【解析】
(1)由表格可知,该市 100 天中,空气中的PM2.5浓度不超过 75,且SO 浓度不超过 150 的天数有
2
32+6+18+8=64天,
64
所以该市一天中,空气中的PM2.5浓度不超过75,且SO 浓度不超过150的概率为 =0.64;
2 100(2)由所给数据,可得2×2列联表为:
SO
2
[0,150] (150,475] 合计
PM2.5
[0,75] 64 16 80
(75,115] 10 10 20
合计 74 26 100
(3)根据2×2列联表中的数据可得
n(ad−bc) 2 100×(64×10−16×10) 2 3600
K2= = = ≈7.4844>6.635,
(a+b)(c+d)(a+c)(b+d) 80×20×74×26 481
因为根据临界值表可知,有99%的把握认为该市一天空气中PM2.5浓度与SO 浓度有关.
2
1、(2022·济宁二模)为研究变量x,y的相关关系,收集得到下面五个样本点(x,y):
x 5 6.5 7 8 8.5
y 9 8 6 4 3
¿ ¿
y a
若由最小二乘法求得y关于x的回归直线方程为 =-1.8x+ ,则据此计算残差为0的样本点是(
)
A. (5,9) B. (6.5,8)
C. (7,6) D. (8,4)
【答案】 C
¿
a
【解析】 由题意可知,==7,==6,所以回归方程的样本中心点为(7,6),所以6=-1.8×7+ ,解
¿ ¿ ¿
a y y
得 =18.6,所以 =-1.8x+18.6,在收集的5个样本点中,(7,6)一点在 =-1.8x+18.6上,故计算
残差为0的样本点是(7,6).
2、(2022·聊城一模)根据分类变量x与y的成对样本数据,计算得到χ2=6.147.依据α=0.01的独立性检验
(P(χ2)≥6.635=0.01),结论为( )
A. 变量x与y不独立
B. 变量x与y不独立,这个结论犯错误的概率不超过0.01
C. 变量x与y独立
D. 变量x与y独立,这个结论犯错误的概率不超过0.01
【答案】 C
【解析】 按照独立性检验的知识及比对的参数值,当χ2=6.147,我们可以下结论变量x与y独立.故排除选项A,B;因为6.147<6.635,所以我们不能得到“变量x与y独立,这个结论犯错误的概率不超过
0.01”这个结论.故C正确,D错误.
3、某种产品的广告费支出x与销售额y(单位:万元)之间的关系如表:
x 2 4 5 6 8
y 30 40 60 50 70
y与x的线性回归方程为y=6.5x+17.5,当广告支出6万元时,随机误差的残差为( )
A.-5 B.-5.5 C.-6 D.-6.5
【答案】 D
【解析】 由题意结合线性回归方程的预测作用可得,当 x=6时,y=6.5×6+17.5=56.5,则随机误差的
残差为50-56.5=-6.5.
4、为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科 文科
男 13 10
女 7 20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025. 根据表中数据,得到K2的观测值k=≈4.844,则认
为选修文科与性别有关系出错的可能性为
【答案】 5%
【解析】 K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修
文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.
考向一 相关关系的判断
例1、两个变量的相关关系有①正相关;②负相关;③不相关,则下列散点图从左到右分别反映的变量间
的相关关系是( )
A. ①②③ B. ②③①
C. ②①③ D. ①③②
【答案】 D
【解析】 第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点
图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的
分布没有什么规律,则是不相关,所以应该是①③②.
变式1、 (1) 已知变量x和y满足关系y=-0.1x+1,变量y与z正相关,则下列结论中正确的是( )
A. x与y正相关,x与z负相关
B. x与y正相关,x与z正相关C. x与y负相关,x与z负相关
D. x与y负相关,x与z正相关
【答案】 C
¿ ¿
b a
【解析】 因为y=-0.1x+1的斜率小于0,所以x与y负相关.因为y与z正相关,可设z= y+
¿ ¿ ¿ ¿ ¿ ¿
b b a b b a
, >0,则z= y+ =-0.1 x+ + ,故x与z负相关.
(2) 对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
① ②
③ ④
A. r