文档内容
9.3 统计案例
课标要求 1.了解样本相关系数的统计含义.2.了解一元线性回归模型和2×2列联表,会运
用这些方法解决简单的实际问题.3.会利用统计软件进行数据分析.
知识梳理
1.变量的相关关系
(1)相关关系:两个变量_______,但又没有确切到可由其中的一个去精确地决定另一个的程
度,这种关系称为相关关系.
(2)相关关系的分类:_______和_______.
(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在_______附
近,我们就称这两个变量线性相关.
2.样本相关系数
(1)r=.
(2)当r>0时,称成对样本数据_______;当r<0时,称成对样本数据_______.
(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越_______;当|r|越接近0时,成
对样本数据的线性相关程度越_______.
3.一元线性回归模型
(1)我们将Y=bX+a称为Y关于X的线性回归方程,
其中
(2)偏差:观测值减去_______,称为偏差.
4.列联表与独立性检验
(1)一般地,假设有两个分类变量X和Y,它们的取值分别为{A ,A}和{B ,B},其2×2列
1 2 1 2
联表为
B B 总计
1 2
A a b a+b
1
A c d c+d
2
总计 a+c b+d a+b+c+d
(2)计算随机变量χ2=,利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检
验.
常用结论
1.回归直线过点(,).
2.求b时,常用公式b=.3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能
犯错误.
自主诊断
1.判断下列结论是否正确.(请在括号中打“√”或“×”)
(1)散点图是判断两个变量相关关系的一种重要方法和手段.( )
(2)回归直线Y=bX+a至少经过点(x,y),(x,y),…,(x,y)中的一个点.( )
1 1 2 2 n n
(3)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.( )
(4)若事件X,Y关系越密切,则由观测数据计算得到的χ2的值越小.( )
2.(多选)(2023·石嘴山模拟)下列有关回归分析的说法中正确的是( )
A.相关关系是一种确定性的关系
B.回归直线就是散点图中经过样本数据点最多的那条直线
C.当样本相关系数r>0时,两个变量正相关
D.两个变量的线性相关性越弱,|r|越接近于0
3.(2023·福州统考)已知变量X和Y的统计数据如表:
X 6 7 8 9 10
Y 3.5 4 5 6 6.5
若由表中数据得到线性回归方程为Y=0.8X+a,则当x=10时的偏差为________(注:观测
值减去预测值称为偏差).
4.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如表所
示:
主修专业
性别
非统计专业 统计专业 总计
男 13 10 23
女 7 20 27
总计 20 30 50
为了判断主修专业是否与性别有关系,根据表中的数据,得到χ2=≈4.844,因为χ2>3.841,
所以________95%的把握认为主修专业与性别有关.(填“有”或“没有”)
题型一 成对数据的相关性
例1 (1)(2023·天津)调查某种群花萼长度和花瓣长度,所得数据如图所示,其中样本相关系
数r=0.824 5,则下列说法正确的是( )A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈负相关
C.花瓣长度和花萼长度呈正相关
D.若从样本中抽取一部分,则这部分的样本相关系数一定是0.824 5
(2)(多选)(2023·湛江模拟)某服装生产商为了解青少年的身高和体重的关系,在 15岁的男生
中随机抽测了10人的身高和体重,数据如表所示:
编号 1 2 3 4 5 6 7 8 9 10
身高/cm 165 168 170 172 173 174 175 177 179 182
体重/kg 55 89 61 65 67 70 75 75 78 80
由表中数据制作成如图所示的散点图,
求得的回归直线l 的方程为Y=bX+a ,样本相关系数为r ;经过偏差分析确定(168,89)为
1 1 1 1
离群点(对应偏差过大),把它去掉后,再用剩下的9对数据计算得到回归直线l 的方程为Y
2
=bX+a,样本相关系数为r.则以下结论中正确的有( )
2 2 2
A.bb
1 2 1 2
C.rr
1 2 1 2
思维升华 判定两个变量相关性的方法
(1)画散点图:若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到
右下角,则两个变量负相关.
(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近1,相关性越强.
(3)线性回归方程:当b>0时,正相关;当b<0时,负相关.
跟踪训练1 (1)(2023·保定模拟)已知两个变量X和Y之间有线性相关关系,经调查得到样本
数据如表所示:
X 3 4 5 6 7Y 3.5 2.4 1.1 -0.2 -1.3
根据表格中的数据求得线性回归方程为Y=bX+a,则下列说法中正确的是( )
A.a>0,b>0 B.a>0,b<0
C.a<0,b>0 D.a<0,b<0
(2)对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是(
)
A.r0.75时,两个变量之间具有很强的线性相
关关系.
参考数据:≈5.9.________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
跟踪训练2 小李准备在某商场租一间商铺开服装店,为了解市场行情,在该商场调查了20
家服装店,统计得到了它们的面积X(单位:m2)和日均客流量Y(单位:百人)的数据(x,y)(i
i i
=1,2,…,20),并计算得 =2 400,=210,(x-)2=42 000,(x-)(y-)=6 300.
i i i i i
(1)求Y关于X的线性回归方程;
(2)已知服装店每天的经济效益W=k+mx(k>0,m>0),该商场现有60~150 m2的商铺出租,
根据(1)的结果进行预测,要使单位面积的经济效益Z最高,小李应该租多大面积的商铺?
参考公式:b=,a=-b.
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
题型三 列联表与独立性检验
例3 (2023·全国甲卷)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地
将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环
境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:
g).试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2 25.8
26.5 27.5 30.1 32.6 34.3 34.8 35.6
35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2 11.4 12.4 13.2 15.5 16.5
18.0 18.8 19.2 19.8 20.2 21.6 22.8
23.6 23.9 25.1 28.2 32.3 36.5
(1)计算试验组的样本平均数;
(2)①求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数
据的个数,完成如下列联表: