文档内容
§9.3 成对数据的统计分析
课标要求 1.了解样本相关系数的统计含义.2.了解一元线性回归模型和2×2列联表,会运
用这些方法解决简单的实际问题.3.会利用统计软件进行数据分析.
知识梳理
1.变量的相关关系
(1)相关关系:两个变量________,但又没有确切到可由其中的一个去精确地决定另一个的
程度,这种关系称为相关关系.
(2)相关关系的分类:________和________.
(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在
__________附近,我们就称这两个变量线性相关.
2.样本相关系数
(1)r=.
(2)当r>0时,称成对样本数据____________;当r<0时,称成对样本数据____________.
(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越________;当|r|越接近0时,成
对样本数据的线性相关程度越________.
3.一元线性回归模型
(1)我们将y=bx+a称为Y关于x的经验回归方程,
其中
(2)残差:观测值减去________称为残差.
4.列联表与独立性检验
(1)关于分类变量X和Y的抽样数据的2×2列联表:
Y
X 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
(2)计算随机变量χ2=,利用χ2的取值推断分类变量X和Y________的方法称为χ2独立性检验.
常用结论
1.经验回归直线过点(,).2.求b时,常用公式b=.
3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能
犯错误.
自主诊断
1.判断下列结论是否正确.(请在括号中打“√”或“×”)
(1)散点图是判断两个变量相关关系的一种重要方法和手段.( )
(2)经验回归直线y=bx+a至少经过点(x,y),(x,y),…,(x,y)中的一个点.( )
1 1 2 2 n n
(3)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.( )
(4)若事件X,Y关系越密切,则由观测数据计算得到的χ2的观测值越小.( )
2.(多选)(2023·石嘴山模拟)下列有关回归分析的说法中正确的是( )
A.相关关系是一种确定性的关系
B.经验回归直线就是散点图中经过样本数据点最多的那条直线
C.当样本相关系数r>0时,两个变量正相关
D.两个变量的线性相关性越弱,|r|越接近于0
3.(2023·福州统考)已知变量x和y的统计数据如表:
x 6 7 8 9 10
y 3.5 4 5 6 6.5
若由表中数据得到经验回归方程为y=0.8x+a,则当x=10时的残差为________(注:观测值
减去预测值称为残差).
4.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如表所
示:
主修专业
性别 合计
非统计专业 统计专业
男 13 10 23
女 7 20 27
合计 20 30 50
为了判断主修专业是否与性别有关系,根据表中的数据,得到χ2=≈4.844,因为χ2>3.841,
所以判定主修专业与性别有关系,那么这种判断出错的可能性______0.05(填“大于”或
“小于”).
附:
α 0.1 0.05 0.01 0.001
x 2.706 3.841 6.635 10.828
α题型一 成对数据的相关性
例1 (1)(2023·天津)调查某种群花萼长度和花瓣长度,所得数据如图所示,其中样本相关系
数r=0.824 5,则下列说法正确的是( )
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈负相关
C.花瓣长度和花萼长度呈正相关
D.若从样本中抽取一部分,则这部分的样本相关系数一定是0.824 5
(2)(多选)(2023·湛江模拟)某服装生产商为了解青少年的身高和体重的关系,在 15岁的男生
中随机抽测了10人的身高和体重,数据如表所示:
编号 1 2 3 4 5 6 7 8 9 10
身高/cm 165 168 170 172 173 174 175 177 179 182
体重/kg 55 89 61 65 67 70 75 75 78 80
由表中数据制作成如图所示的散点图,
由最小二乘法计算得到经验回归直线 l 的方程为y=bx+a ,样本相关系数为r ,决定系数
1 1 1 1
为R;经过残差分析确定(168,89)为离群点(对应残差过大),把它去掉后,再用剩下的9对数
据计算得到经验回归直线l 的方程为y=bx+a ,样本相关系数为r ,决定系数为R.则以下
2 2 2 2
结论中正确的有( )
A.a>a B.b>b C.rR
1 2 1 2 1 2
跟踪训练1 (1)(2023·保定模拟)已知两个变量x和y之间有线性相关关系,经调查得到样本
数据如表所示:
x 3 4 5 6 7
y 3.5 2.4 1.1 -0.2 -1.3根据表格中的数据求得经验回归方程为y=bx+a,则下列说法中正确的是( )
A.a>0,b>0 B.a>0,b<0
C.a<0,b>0 D.a<0,b<0
(2)已知相关变量x和y的散点图如图所示,若用y=b·ln(kx)与y=kx+b 拟合时的样本相关
1 1 2 2
系数分别为r,r 则比较r,r 的大小结果为( )
1 2 1 2
A.r>r B.r=r C.r0.75时,两个变量之间具有很强的线性相
关关系.参考数据:≈5.9.
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
命题点2 非线性回归模型例3 (2024·朝阳模拟)秋天的第一杯奶茶是一个网络词汇,最早出自四川达州一位当地民警
之口,民警用“秋天的第一杯奶茶”顺利救下一名女孩,由此而火爆全网.后来很多人开始
在秋天里买一杯奶茶送给自己在意的人.某奶茶店主记录了入秋后前7天每天售出的奶茶数
量(单位:杯)如下:
日期 第一天 第二天 第三天 第四天 第五天 第六天 第七天
日期
1 2 3 4 5 6 7
代码x
杯数y 4 15 22 26 29 31 32
(1)请根据以上数据,绘制散点图,并根据散点图判断,y=a+bx与y=c+dln x哪一个更适
宜作为y关于x的回归方程模型(给出判断即可,不必说明理由);
(2)建立y关于x的经验回归方程(结果保留1位小数),并根据建立的经验回归方程,试预测
要到哪一天售出的奶茶才能超过35杯?
参考数据:
y y e2.1
i i i i
22.7 1.2 759 235.1 13.2 8.2
其中u=ln x,=.
i i i
参考公式:
在经验回归方程y=bx+a中,b=,a=-b.
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
思维升华 求经验回归方程的步骤跟踪训练2 小李准备在某商场租一间商铺开服装店,为了解市场行情,在该商场调查了20
家服装店,统计得到了它们的面积x(单位:m2)和日均客流量y(单位:百人)的数据(x,y)(i
i i
=1,2,…,20),并计算得 =2 400,=210,(x-)2=42 000,(x-)(y-)=6 300.
i i i i i
(1)求y关于x的经验回归方程;
(2)已知服装店每天的经济效益W=k+mx(k>0,m>0),该商场现有60~150 m2的商铺出租,
根据(1)的结果进行预测,要使单位面积的经济效益Z最高,小李应该租多大面积的商铺?
附:经验回归直线y=bx+a的斜率和截距的最小二乘估计分别为b=,a=-b.
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
题型三 列联表与独立性检验
例4 (2023·全国甲卷改编)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随
机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭
氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:
g).试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2 25.8
26.5 27.5 30.1 32.6 34.3 34.8 35.6
35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2 11.4 12.4 13.2 15.5 16.5
18.0 18.8 19.2 19.8 20.2 21.6 22.8
23.6 23.9 25.1 28.2 32.3 36.5
(1)计算试验组的样本平均数;
(2)①求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数
据的个数,完成如下列联表: