文档内容
第八章成对数据的统计分析
知识点一、变量间的相关关系
1. 变量与变量间的两种关系:
(1) 函数关系:这是一种确定性的关系,即一个变量能被另一个变量按照某种对应法则唯一确定.
例如圆的面积.S与半径r之间的关系S=πr2为函数关系.
(2)相关关系:这是一种非确定性关系.当一个变量取值一定时,另一个变量的取值带有一定的随
机性,这两个变量之间的关系叫做相关关系。例如人的身高不能确定体重,但一般来说“身高者,体重也
重”,我们说身高与体重这两个变量具有相关关系.
2. 相关关系的分类:
(1)在两个变量中,一个变量是可控制变量,另一个变量是随机变量,如施肥量与水稻产量;
(2)两个变量均为随机变量,如某学生的语文成绩与化学成绩.
3. 散点图:
将两个变量的各对数据在直角坐标系中描点而得到的图形叫做散点图.它直观地描述了两个变量之间
有没有相关关系.这是我们判断的一种依据.
4. 回归分析:
与函数关系不同,相关关系是一种非确定性关系,对具有相关关系的两个变量进行统计分析的方法叫做回归分析。
知识点二、线性回归方程:
1.回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,
这条直线叫作回归直线。
yˆ b ˆ xaˆ
2.回归直线方程
(x ,y ) (x ,y ) (x ,y ) yˆ b ˆ xaˆ
对于一组具有线性相关关系的数据 1 1 , 2 2 ,……, n n ,其回归直线 的截
距和斜率的最小二乘法估计公式分别为:
n
(x x)(y y)
i i
b ˆ i1
n
(x x)2
i aˆ yb ˆ x
i1 ,
x y xy
其中 表示数据x (i=1,2,…,n)的均值, 表示数据y (i=1,2,…,n)的均值, 表示数
i i
据xy(i=1,2,…,n)的均值.
i i
a b a b
、 的意义是:以 为基数,x每增加一个单位,y相应地平均变化 个单位.
3.求回归直线方程的一般步骤:
①作出散点图
由样本点是否呈条状分布来判断两个量是否具有线性相关关系,若存在线性相关关系,进行第二步。
ˆ
b aˆ
②求回归系数 、
1 1
x (x x x ) y (y y y )
计算 n 1 2 n , n 1 2 n ,
n n
x y x y x y x y x2 x2 x2 x2
i i 1 1 2 2 n n i 1 2 n
i1 , i1 ,
n
x y nxy
i i
b ˆ i1
n
x2 nx 2
i ˆ
b
利用公式 i1 求出 ,
aˆ yb ˆ x aˆ
再由 求出 的值;
③写出回归直线方程;yˆ aˆb ˆ x
④利用回归直线方程 预报在x取某一个值时y的估计值。
知识点三、相关性检验
(1)相关系数r的定义
(x ,y ) (x ,y ) (x ,y )
对 于 变 量 x 与 y 随 机 抽 取 到 的 n 对 数 据 1 1 , 2 2 , … … , n n , 称
n n
(x x)(y y) x y nxy
i i i i
r i1 i1
n n n n
(x x)2(y y)2 (x2 nx 2 )((y2 ny 2 )
i i i i
i1 i1 i1 i1 为x与y的样本相关系数。
(2)相关系数r的作用
样本相关系数r用于衡量两个变量之间是否具有线性相关关系,描述线性相关关系的强弱:
|r|1
①
|r| |r|
越接近1,表明两个变量之间的线性相关程度越强; 越接近0,表明两个变量之间的线性相关
程度越弱。
②当r>0时,表明两个变量正相关, 即x增加,y随之相应地增加,若x减少,y随之相应地减少.
当r<0时,表明两个变量负相关, 即x增加,y随之相应地减少;若x减少,y随之相应地增加.
若r=0,则称x与y不相关。
|r|0.75
③当 ,认为x与y之间具有很强的线性相关关系。
|r| r
④当 大于 0.05时,表明有95%的把握认为x与y之间具有线性相关关系,这时求回归直线方程有必
|r|r
要也有意义,当 0.05时,寻找回归直线方程就没有意义。
(3)利用相关系数r检验的一般步骤:
法一:
①作统计假设:x与y不具有线性相关关系。
②根据样本相关系数计算公式算出r的值。
|r| |r|0.75
③比较 与0.75的大小关系,得出统计结论。如果 ,认为x与y之间具有很强的线性相关
关系。
法二:
①作统计假设:x与y不具有线性相关关系。
②根据样本相关系数计算公式算出r的值。r
③根据小概率0.05与n-2在相关性检验的临界值表中查出r的一个临界值 0.05(n未数据的对数)。
|r| r |r|r
④比较 与 0.05,作统计推断,如果 0.05,表明有95%的把握认为x与y之间具有线性相关关系。
|r|r
如果 0.05,我们没有理由拒绝原来的假设,即不认为x与y之间具有线性相关关系。这时寻找回归直
线方程是毫无意义的。
知识点四、线性回归分析与非线性回归分析
1.线性回归分析
对于回归分析问题,在解题时应首先利用散点图或相关性检验判断 x与y是否具有线性相关关系,如
果线性相关,才能求解后面的问题.否则求线性回归方程没有实际意义,它不能反映变量 x与y,之间的
变化规律.只有在x与y之间具有相关关系时,求线性回归方程才有实际意义.
相关性检验的依据:主要利用检验统计量
n
x y nxy
i i xyxy
r i1
n n S S
(x x)2(y y)2 x y
i i
i1 i1
(其中化简式容易记也好用)求出检验统计量的样本相关系数,再利用 r的性质确定x和y是否具有
线性相关关系,r具有的性质为:|r|≤1且|r|越接近于1,线性相关程度越强;|r|越接近于0,线性相关
程度越弱.
2. 线性回归分析的一般步骤
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2)判断两变量是否具有线性相关关系
①作散点图
由样本点是否呈条状分布来判断两个量是否具有线性相关关系。
②求相关系数r
|r|0.75
当 ,认为x与y之间具有很强的线性相关关系。
yˆ b ˆ xaˆ b ˆ aˆ
(3)若两变量存在线性相关关系,设所求的线性回归方程为 ,求回归系数 、 。
(4)写出回归直线方程;
yˆ aˆb ˆ x
(5)利用回归直线方程 预报在x取某一个值时y的估计值。
3.非线性回归分析
(1)对于非线性回归分析问题,如果给出了经验公式可直接利用换元,使新元与y具有线性相关关系,
进一步求出,,对新元的线性回归方程,换回x即可得y对x的回归曲线方程.
(2)非线性回归问题有时并不给出经验公式,这时按以下步骤求回归方程:①画出已知数据的散点图,看是否是线性回归分析问题,如果不是,把它与必修数学中学过的函数
(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数,采用适当的变
量置换,把非线性回归分析问题化为线性回归分析问题.
②作相关性检验,即判断寻找线性回归方程是否有意义.
a b
③当寻找线性回归方程有意义时,计算系数 , ,得到线性回归方程.
④代回x得y对x的回归曲线方程.
知识点五 列联表
1. 列联表
用表格列出的分类变量的频数表,叫做列联表。
2. 2×2列联表
对于两个事件A,B,列出两个事件在两种状态下的数据,如下表所示:
事件B 事件B 合计
事件A a b a+b
事件A c d c+d
合计 a+c b +d a+b+c+d
这样的表格称为2×2列联表。
知识点六 卡方统计量公式
为了研究分类变量X与Y的关系,经调查得到一张2×2列联表,如下表所示
Y Y 合计
1 2
X a b a+b
1
X c d c+d
2
合计 a+c b+d n=a+b+c+d
统计中有一个有用的(读做“卡方”)统计量,它的表达式是:
n(ad bc)2
K2
(ab)(cd)(ac)(bd) nabcd
( 为样本容量)。
知识点七 独立性检验
1.独立性检验
通过2×2列联表,再通过卡方统计量公式计算K2 的值,利用随机变量K2
来确定在多大程度上可
以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.变量独立性的判断
通过对K2
统计量分布的研究,已经得到两个临界值:3.841和6.635。当数据量较大时,在统计中,用以下结果对变量的独立性进行判断:
①如果K2
≤3.841时,认为事件A与B是无关的。
②如果K2
>3.841时,有95%的把握说事件A与事件B有关;
③如果K2
>6.635时,有99%的把握说事件A与事件B有关;
3.独立性检验的基本步骤及简单应用
独立性检验的步骤:
要推断“A与B是否有关”,可按下面步骤进行:
(1)提出统计假设H:事件A与B无关(相互独立);
0
(2)抽取样本(样本容量不要太小,每个数据都要大于5);
(3)列出2×2列联表;
n(ad bc)2
K2
(4)根据2×2列联表,利用公式:
(ac)(bd)(ab)(cd) ,计算出K2
的值;
(5)统计推断:当K2
>3.841时,有95%的把握说事件A与B有关;
当K2
>6.635时,有99%的把握说事件A与B有关;
当K2
>10.828时,有99.9%的把握说事件A与B有关;
当K2
≤3.841时,认为事件A与B是无关的.
类型一 回归分析及相关检验
例1 根据如下样本数据
3 4 5 6 7 8
4.0 2.5 0.5
得到的回归方程为 ,则( )
A. B. C. D.
解析:样本点的散点图如图3-1.由散点图可知, .答案:B
规律总结:由散点图不仅可以直观地看出两个变量是否相关,而且可以判断两个线性相关的变量是正
相关还是负相关.当两个变量正相关时, ;当两个变量负相关时, .
例2 假设某农作物基本苗数 与有效穗数 之间存在相关关系,今测得5组数据如下:
15.0 25.8 30.0 36.6 44.4
39.4 42.9 42.9 43.1 49.2
(1)以 为解释变量, 为预报变童,画出散点图;
(2)求 与 之间的回归方程,对于基本苗数56.7预报有效穗数;
(3)计算各组残差;
(4)求 ,并说明随机误差对有效穗数的影响占百分之几?
解:(1)散点图如图3-2所示.
(2)由图看出,样本点呈条状分布,有比较好的线性相关关系
因此可以用线性回归方程来建立两个变量之间的关系.
设线性回归方程为 , 由表中数据可得, , .
故 与 之间的回归方程为 . 当 时, .估计有效穗数为 .
(3)各组数据的残差分别为 e:二0. 39,
(4)
故解释变量(农作物基本苗数)对有效穗数的影响约占了83.2%
所以随机误差对有效穗数的影响约占 .
规律总结:进行线性回归分析的关键是先画出样本点的散点图,确定出变量具有线性相关关系,再求
出线性回归方程.如果 , 的线性相关关系具有统计意义,就可以用线性回归方程作出预测和控制.预
测是指对于 的取值范围内的任一个 , 取相应值 的估计;控制是指通过控制 的值把 的值控制在
指定范围内.
类型二 独立性检验
例3某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量
是否与年龄有关,现采用分层抽样的方法,从中抽取了 100名工人,先统计了他们某月的日平均生产
件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的
日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得
到如图所示的频率分布直方图.
(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工
人的概率;
(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成 列联表,并判断
能否在犯错误的概率不超过0.1的前提下认为“生产能手与工人所在的年龄组有关”
分析:(1)利用列举法列出基本事件,结合古典概型求解;(2)利用独立性检验公式计算求解.
解:(1)由已知可得,样本中有25周岁以上组工人60名,25周岁以下组工人40名,所以样本中日平均生产件数不足60件的工人中,25周岁以上组工人有 (人),记为 ;25周岁以
下组工人有 (人),记为 .
从中随机抽取2名工人,所有的可能结果共有10种,分别是
其中,至少有一名“25周岁以下组”工人的可能结果共有7种,
分别是
故所求的概率 .
(2)由频率分布直方图可知,在抽取的 100 名工人中,“25 周岁以上组”中的生产能手有
( 人 ) , “ 25 周 岁 以 下 组 ” 中 的 生 产 能 手 有
(人),据此可得 列联表如下:
生产能手 非生产能手 总计
25周岁以上组 15 45 60
25周岁以下组 15 25 40
总计 30 70 100
所以代入公式 ,得 的观测值为
因为 ,
所以不能在犯错误的概率不超过0.1的前提下认为“生产能手与工人所在的年龄组有关”
解后反思:解决独立性检验问题的基本步骤:
(1)找出相关数据,作列联表;
(2)求随机变量 的观测值;
(3)判断可能性,注意与临界值进行比较,得出事件有关的可信度.
例4 为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验.将这200只家兔随机地
分成两组,每组100只,其中一组注射药物A,另一组注射药物B.
(1)甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率;(2)下表1和表2分别表示注射药物A和B后的试验结果(疱疹面积单位: ).
表1:注射药物A后皮肤疱疹面积的频数分布表
疱疹面积 [60,65) [65,70) [70,75) [75,80)
频数 30 40 20 10
表2:注射药物B后皮肤疱疹面积的频数分布表
疱疹面积 [60,65) [65,70) [70,75) [75,80) [80,85)
频数 10 25 20 30 15
①完成下面频率分布直方图(图3-4和图3-5),并比较注射两种药物后疱疹面积的中位数大小;
注射药物A后皮肤疱疹面积的频率分布直方图
注射药物B后皮肤疱疹面积的频率分布直方图
②完成下面 列联表,并回答能否在犯错误的概率不超过 的前提下认为“注射药物A后的疱
疹面积与注射药物B后的疱疹面积有差异”.
表3:疱疹面积小于 疱疹面积不小于 总计
注射药物A
注射药物B
总计
分析:(1)利用排列组合知识及古典概型求解;(2)先根据频数分布表完成频率分布直方图和
列联表,再计算 的观测值,并与临界值比较后进行判断.
解析:(1)甲、乙两只家兔分在不同组的概率为 .
(2)①频率分布直方图如图所示.
注射药物A后皮肤疱疹面积的频率分布直方图
注射药物B后皮肤疱疹面积的频率分布直方图
可以看出注射药物A后的疱疹面枳的中位数在65至70之间,而注射药物B后的疱疹面积的中位数在
70至75之 间,所以注射药物A后疱疹面积的中位数小于注射药物B后疱疹面积的中位数.
②表3疱疹面积小于 疱疹面积不小于 总计
注射药物A 100
注射药物B 100
总计 105 95
代入公式 ,得 的观测值为
因为 ,所以在犯错误的概率不超过 的前提下认为“注射药物A后的疱疹面积与注
射药物B后的疱疹面积有差异”.
解后反思:近几年高考中较少单独考查独立性检验,多与统计、概率等知识结合,其中频率分布表、
频率分布直方图与独立性检验融合在一起是常见的考查形式.一般需要根据条件列出 列联表,计算
的观测值,从而解决问题.