文档内容
§9.3 统计模型
课标要求 1.了解相关系数的统计含义.2.了解一元线性回归模型和2×2列联表,会运用这
些方法解决简单的实际问题.3.会利用统计软件进行数据分析.
知识梳理
1.变量的相关关系
(1)相关关系:两个变量________,但又没有确切到可由其中的一个去精确地决定另一个的
程度,这种关系称为相关关系.
(2)相关关系的分类:________和________.
(3)线性相关:如果变量x与变量y之间的关系可以近似地用 来刻画,则称x与y
线性相关.
2.相关系数
(1)r=.
(2)当r>0时,称成对样本数据____________;当r<0时,称成对样本数据____________.
(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越________;当|r|越接近0时,成
对样本数据的线性相关程度越________.
3.一元线性回归模型
(1)我们将y=bx+a称为y关于x的回归直线方程,
其中
(2)残差:观测值减去________称为残差.
4.列联表与独立性检验
(1)2×2列联表:如果随机事件A与B的样本数据如下表格形式:
A 总计
B a b a+b
c d c+d
总计 a+c b+d a+b+c+d
在这个表格中,核心的数据是中间的4个格子,所以这样的表格通常称为2×2列联表.
(2)在2×2列联表中,定义随机变量
χ2=,任意给定α(称为显著性水平),可以找到满足条件P(χ2≥k)=α的数k(称为显著性水平
α对应的分位数),
①若χ2≥k成立,就称在犯错误的概率 的前提下,可以认为A与B不独立(也称A与B有关),或说有 的把握认为A与B有关;
②若χ20时,两个变量正相关
D.两个变量的线性相关性越弱,|r|越接近于0
3.(2023·福州统考)已知变量x和y的统计数据如表:
x 6 7 8 9 10
y 3.5 4 5 6 6.5
若由表中数据得到回归直线方程为y=0.8x+a,则当x=10时的残差为________(注:观测值
减去预测值称为残差).
4.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如表所
示:
主修专业
性别 总计
非统计专业 统计专业
男 13 10 23
女 7 20 27
总计 20 30 50
为了判断主修专业是否与性别有关系,根据表中的数据,得到χ2=≈4.844,因为χ2>3.841,
所以有________的把握可以判定主修专业与性别有关.
附:α=P(χ2≥k) 0.05 0.01 0.001
k 3.841 6.635 10.828
题型一 成对数据的相关性
例1 (1)(2023·天津)调查某种群花萼长度和花瓣长度,所得数据如图所示,其中相关系数r=
0.824 5,则下列说法正确的是( )
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈负相关
C.花瓣长度和花萼长度呈正相关
D.若从样本中抽取一部分,则这部分的相关系数一定是0.824 5
(2)(多选)(2023·湛江模拟)某服装生产商为了解青少年的身高和体重的关系,在 15岁的男生
中随机抽测了10人的身高和体重,数据如表所示:
编号 1 2 3 4 5 6 7 8 9 10
身高/cm 165 168 170 172 173 174 175 177 179 182
体重/kg 55 89 61 65 67 70 75 75 78 80
由表中数据制作成如图所示的散点图,
由最小二乘法计算得到回归直线l 的方程为y=bx+a ,相关系数为r ;经过残差分析确定
1 1 1 1
(168,89)为离群点(对应残差过大),把它去掉后,再用剩下的9对数据计算得到回归直线l 的
2
方程为y=bx+a,相关系数为r.则以下结论中正确的有( )
2 2 2
A.bb
1 2 1 2
C.rr
1 2 1 2
跟踪训练1 (1)(2023·保定模拟)已知两个变量x和y之间有线性相关关系,经调查得到样本数据如表所示:
x 3 4 5 6 7
y 3.5 2.4 1.1 -0.2 -1.3
根据表格中的数据求得回归直线方程为y=bx+a,则下列说法中正确的是( )
A.a>0,b>0 B.a>0,b<0
C.a<0,b>0 D.a<0,b<0
(2)已知相关变量x和y的散点图如图所示,若用y=b·ln(kx)与y=kx+b 拟合时的相关系数
1 1 2 2
分别为r,r 则比较r,r 的大小结果为( )
1 2 1 2
A.r>r B.r=r C.r0.75时,两个变量之间具有很强的线性相关关
系.参考数据:≈5.9.
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________________________________________________________________________________
________________________________________________________________________
命题点2 非线性回归模型
例3 (2024·朝阳模拟)秋天的第一杯奶茶是一个网络词汇,最早出自四川达州一位当地民警
之口,民警用“秋天的第一杯奶茶”顺利救下一名女孩,由此而火爆全网.后来很多人开始
在秋天里买一杯奶茶送给自己在意的人.某奶茶店主记录了入秋后前7天每天售出的奶茶数
量(单位:杯)如下:
日期 第一天 第二天 第三天 第四天 第五天 第六天 第七天
日期
1 2 3 4 5 6 7
代码x
杯数y 4 15 22 26 29 31 32
(1)请根据以上数据,绘制散点图,并根据散点图判断,y=a+bx与y=c+dln x哪一个更适
宜作为y关于x的回归方程模型(给出判断即可,不必说明理由);
(2)建立y关于x的回归方程(结果保留1位小数),并根据建立的回归方程,试预测要到哪一
天售出的奶茶才能超过35杯?
参考数据:
y y e2.1
i i i i
22.7 1.2 759 235.1 13.2 8.2
其中u=ln x,=.
i i i
参考公式:
在回归直线方程y=bx+a中,b=,a=-b.
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
思维升华 求回归直线方程的步骤跟踪训练2 小李准备在某商场租一间商铺开服装店,为了解市场行情,在该商场调查了20
家服装店,统计得到了它们的面积x(单位:m2)和日均客流量y(单位:百人)的数据(x,y)(i
i i
=1,2,…,20),并计算得 =2 400,=210,(x-)2=42 000,(x-)(y-)=6 300.
i i i i i
(1)求y关于x的回归直线方程;
(2)已知服装店每天的经济效益W=k+mx(k>0,m>0),该商场现有60~150 m2的商铺出租,
根据(1)的结果进行预测,要使单位面积的经济效益Z最高,小李应该租多大面积的商铺?
附:回归直线y=bx+a的斜率和截距的最小二乘估计分别为b=,a=-b.
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
题型三 列联表与独立性检验
例4 (2023·全国甲卷改编)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随
机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭
氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:
g).试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2 25.8
26.5 27.5 30.1 32.6 34.3 34.8 35.6
35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2 11.4 12.4 13.2 15.5 16.5
18.0 18.8 19.2 19.8 20.2 21.6 22.8
23.6 23.9 25.1 28.2 32.3 36.5
(1)计算试验组的样本平均数;
(2)①求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数
据的个数,完成如下列联表: