文档内容
第2讲 成对数据的统计分析
复习要点 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关
关系.2.了解最小二乘法的思想,能根据给出的经验回归方程系数公式建立经验回归方程.3.
了解独立性检验(只要求2×2列联表)的基本思想、方法以及其简单应用.4.了解回归分析的
基本思想、方法及其简单应用.
一 变量的相关关系
1.对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(1)
画散点图;(2)求回归直线方程;(3)用回归直线方程作预报.
2.常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系.与函数关
系不同,相关关系是一种非确定性关系.
3.从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称
为正相关;点分布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关.
二 样本相关系数
1.r=.
2.当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
3.|r|≤1.当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对
样本数据的线性相关程度越弱.
三 一元线性回归模型
1.我们将y=bx+a称为y关于x的经验回归方程,也称经验回归函数或经验回归公式,
其中
2.残差:观测值减去预测值,称为残差.
四 列联表与独立性检验
1.关于分类变量X和Y的抽样数据的2×2列联表:
Y
Y=0 Y=1 合计
X
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
2.计算随机变量
χ2=,利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.
α 0.1 0.05 0.01 0.005 0.001
x 2.706 3.841 6.635 7.879 10.828
α
常/用/结/论
1.经验回归直线过点(,).
2.求b时,常用公式b=.
3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误.
1.判断下列结论是否正确.
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平呈正相关.(√)
(2)经验回归直线y=bx+a至少经过点(x,y),(x,y),…,(x,y)中的一个点.()
1 1 2 2 n n
(3)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.(√)
(4)残差平方和越大,线性回归模型的拟合效果越好.()
2.如图,有5个(x,y)数据,去掉D(3,10)后,下列说法错误的是( )
A.样本相关系数r变大
B.残差平方和变大
C.决定系数R2变大
D.解释变量x与响应变量y的相关程度变强
解析:去掉一个极端值,根据样本相关系数、残差平方和的定义、决定系数R2的含义
可知,A,C,D正确.故选B.
答案:B
3.(2020·全国Ⅰ卷,理)某校一个课外学习小组为研究某作物种子的发芽率 y和温度
x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x,y)(i=
i i
1,2,…,20)得到下面的散点图:
由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率 y和
温度x的回归方程类型的是( )
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+bln x
解析:由散点图分布可知,散点图分布在一个对数型函数图象的附近,因此最适宜作
为发芽率y和温度x的回归方程类型是y=a+bln x.故选D.
答案:D
4.在下列两个分类变量X,Y的样本频数列联表中,可以判断X,Y之间有无关系的
是( )y y 合计
1 2
x a b a+b
1
x c d c+d
2
合计 a+c b+d a+b+c+d
A. B.
C. D.
解析:∵χ2=,
∴分类变量X和Y有关系时,ad与bc差距会比较大,由-==,故与的值相差应该大,
即的大小可以判断X,Y之间有无关系.
答案:D
题型 变量的相关关系
典例1 (1)(2023·天津卷)调查某种群花萼长度和花瓣长度,所得数据如图所示,
其中 相关系数 r = 0.824 5 ,下列说法正确的是
正相关,且相关程度较强.
( )
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈负相关
C.花瓣长度和花萼长度呈正相关
D.若从样本中抽取一部分,则这部分的相关数一定是0.824 5
相关性可能变强,也可能变弱.
(2)(2024·贵州贵阳摸底)对四组数据进行统计,获得如图所示的散点图,关于其相关系
数的比较,正确的是( )
①相关系数为r ②相关系数为r
1 2③相关系数为r ④相关系数为r
3 4
A.rr B.r=r
1 2 1 2
C.r|r|.又
1 1 2 2 1 2
因为变量x,y呈负相关,
所以-r>-r,即r3.841,
K2与临界值大小作比较,作统计判断.
所以能有95%的把握认为臭氧对小白鼠生长有抑制作用.
独立性检验的一般步骤
对点练4 (2024·湖南永州模拟)为了精准地找到目标人群,更好地销售新能
源汽车,某4S店对近期购车的男性与女性各100位进行问卷调查,并作为样本进行统计分
析,得到如下列联表(m≤40,m∈N).
购买新能源汽车 购买传统燃油车
(人数) (人数)
男性 80-m 20+m
女性 60+m 40-m
(1)当m=0时,将样本中购买传统燃油车的购车者按性别采用分层随机抽样的方法抽
取6人,再从这6人中随机抽取3人调查购买传统燃油车的原因,记这3人中女性的人数
为X,求X的分布列与数学期望.
(2)定义χ2=∑(2≤i≤3,2≤j≤3,i,j∈N),其中A 为列联表中第i行第j列的实际数据,B
ij ij
为列联表中第i行与第j列的总频率之积再乘列联表的总频数得到的理论频数.基于小概率
值α的检验规则:首先提出零假设H(变量X,Y相互独立),然后计算χ2的值,当χ2≥x 时,
0 α我们推断H 不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;否则,我们没
0
有充分证据推断H 不成立,可以认为X和Y相互独立.根据χ2的计算公式,求解下面的问
0
题:
①当m=0时,依据小概率值α=0.005的独立性检验,请分析性别与是否喜爱购买新
能源汽车有关;
②当m<10时,依据小概率值α=0.1的独立性检验,若认为性别与是否喜爱购买新能
源汽车有关,则至少有多少名男性喜爱购买新能源汽车?
附:
α 0.1 0.025 0.005
x 2.706 5.024 7.879
α
解:(1)当m=0时,
用分层随机抽样的方法抽取购买传统燃油车的6人中,男性有2人,女性有4人.
由题意可知,X的可能取值为1,2,3.
P(X=1)==,P(X=2)==,P(X=3)==.
则X的分布列为
X 1 2 3
P
E(X)=1×+2×+3×=2.
(2)①零假设为H :性别与是否喜爱购买新能源汽车独立,即性别与是否喜爱购买新能
0
源汽车无关联.
当m=0时,
A =80,B =0.5×0.7×200=70,A =20,B =0.5×0.3×200=30,
22 22 23 23
A =60,B =0.5×0.7×200=70,A =40,B =0.5×0.3×200=30,
32 32 33 33
χ2=+++
=+++=≈9.524,
∵9.524>7.879=x ,
0.005
∴根据小概率值α=0.005的独立性检验,我们推断H 不成立,即认为性别与是否购买
0
新能源汽车有关联,此推断犯错误的概率不超过0.005.
②χ2=+++
=,
由题意可知≥2.706,
整理得(10-m)2≥28.413,
又m∈N,m<10,∴m≤4,且m∈N,
∴m的最大值为4,
又80-4=76,
∴至少有76名男性喜爱购买新能源汽车.