文档内容
专题 8.2 一元线性回归模型及其应用
姓名: 班级:
重点 一元线性回归模型。
难点 一元线性回归计算。
例1-1.在画两个变量的散点图时,下面叙述正确的是( )。
A、预报变量在x轴上,解释变量在y轴上
B、解释变量在x轴上,预报变量在y轴上
C、可以选择两个变量中任意一个变量在x轴上
D、可以选择两个变量中任意一个变量在y轴上
【答案】B
【解析】∵通常把自变量称为解析变量,因变量称为预报变量,
∴解释变量为自变量,预报变量为因变量,故选B。
例1-2.若散点图中所有样本点都在一条直线上,解释变量与预报变量的相关系数为( )。
A、−1
B、−1或1
C、0
D、1
【答案】B
【解析】散点图中所有样本点都在一条直线上说明两变量的相关性越强,
两个变量相关性越强相关系数的绝对值越接近1,故选B。
例1-3.若变量x、y之间是线性相关关系,则由数据表得到的回归直线必过定点( )。
x 1 2 4 5
y 8 6 10 12
(2,6)
A、
(2.5,9)
B、
(3,9)
C、
(4,10)
D、
【答案】C
1+2+4+5 8+6+10+12
x= =3 y= =9
4 4 (3,9)
【解析】∵ 、 ,∴回归直线必过定点 ,故选C。
y^=b^ x+a^ b^
例1-4.两个变量有线性相关关系且正相关,则回归直线方程中, 的系数 满足( )。
b^ >0
A、b^ <0
B、
b^ =0
C、
b^ =1
D、
【答案】A
【解析】由回归直线方程的相关性可知,
b^ >0
当 时,回归直线方程是正相关,
b^ <0
当 时,回归直线方程是负相关,故选A。
例1-5.在一组样本数据 (x 1 ,y 1 ) 、 (x 2 ,y 2 ) 、…、 (x n ,y n ) (n≥2且 x 2、 x 3、…、 x n不全相等)的散点
1
y= x+1
图中,若所有样本点 (x i ,y i ) (i=1、2、…、n),都在直线 2 上,则这组样本数据的样本相关
系数为( ).
A、−1
B、0
1
2
C、
D、1
【答案】D
1
y= x+1
【解析】由题设知,所有样本点 (x i ,y i ) (i=1、2、…、n)都在直线 2 上,
∴这组样本数据完全正相关,
根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1,故选D。
例1-6.最小二乘法的原理是( )。
n
∑[y−(a+bx)]
i i
A、使得i=1 最小
n
∑[y −(a+bx)2]
i i
B、使得i=1 最小
n
∑[y2−(a+bx)2]
i i
C、使得i=1 最小
n
∑[y −(a+bx)]2
i i
D、使得i=1 最小
【答案】D
【解析】原理应为“使得样本数据的点到回归直线的距离的平方和最小”,故选D。
例1-7.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:
父亲身高x (cm) 174 176 176 176 178
儿子身高y (cm 175 175 176 177 177)
则y对x的线性回归方程为( )。
y=x−1
A、
y=x+1
B、
1
y=88+ x
2
C、
y=176
D、
【答案】C
x=176 y=176 (x,y)
【解析】∵ 、 ,又回归直线一定过 ,∴经检验A、B、D错误,C正确,故选
C。
例1-8.设 (x 1 ,y 1 ) 、 (x 2 ,y 2 ) 、…、 (x n ,y n ) 是变量x和y的n个样本点,直线l是由这些样本点通过最小
二乘法得到的线性回归直线(如图),以下结论中正确的是( )。
A、x和y的相关系数为直线l的斜率
B、x和y的相关系数在0到1之间
C、当n为偶数时,分布在l两侧的样本点的个数一定相同
(x,y)
D、直线l过点
【答案】D
【解析】∵相关系数是表示两个变量是否具有线性相关关系的一个值,
它的绝对值越接近1,两个变量的线性相关程度越强,∴A选项、B选项错误,
C选项中n为偶数时,分布在l两侧的样本点的个数可以不相同,错误,
D选项中根据线性回归方程一定经过本中心点可知正确,故选D。
[多选] 例1-9.下列说法正确的是( )。
A、在回归直线方程 y^=−0.85x+2.3 中,当解释变量x每增加1个单位时,预报变量 y^ 平均减少2.3个
单位
B、两个具有线性相关关系的变量,当相关指数R2 的值越接近于0,则这两个变量的相关性就越强
C、若两个变量的相关指数
R2 =0.88
,则说明预报变量的差异有
88%
是由解释变量引起的
D、在回归直线方程
y^=−0.85x+2.3
中,相对于样本点
(1,1.2) 的残差为−0.25
【答案】CD
【解析】A选项,根据回归直线方程,当解释变量x每增加1个单位时,
预报变量
y^ 平均减少0.85
个单位,错,
B选项,当相关指数R2
的值越接近于1,两个变量的相关性就越强,错,
C选项,由相关指数R2
的意义可知对,D选项,当解释变量x=1时,预报变量 y^=1.45 ,则样本点 (1,1.2) 的残差为−0.25 ,对,
故选CD。
例1-10.研究某灌溉渠道水的流速y与水深x之间的关系,测得一组数据如下:
水深x/m 1.40 1.50 1.60 1.70 1.80 1.90 2.00 2.10
流速
1.70 1.79 1.88 1.95 2.03 2.10 2.16 2.21
y/(m⋅s−1
)
(1)求y对x的回归直线方程;
(2)预测水深为1.95
m时水的流速是多少?
【解析】(1)由于问题中要求根据水深预报水的流速,
因此选取水深为解释变量,流速为预报变量,作散点图:
由图容易看出,x与y之间有近似的线性关系,
y^=b^ x+a^
或者说,可以用一个回归直线方程 来反映这种关系,
11
b^ = ≈0.733
由计算可求得
15
、
a^≈0.694
,
y^=0.733x+0.694
对x的回归直线方程为 ;
(2)由(1)中求出的回归直线方程,把x=1.95
代入,易得:
y^=0.733×1.95+0.694≈2.12
(m/s),
计算结果表示,当水深为1.95 m时可以预测渠水的流速为2.12m/s。
1993 2002 GDP
例1-11. 年到 年中国的国内生产总值( )的数据如下:
年份 GDP
1993 34634.4
1994 46759.4
1995 58478.1
1996 67884.6
1997 74462.6
1998 78345.2
1999 82067.5
2000 89468.1
2001 97314.8
2002 104790.6
GDP
(1)作 和年份的散点图,根据该图猜想它们之间的关系应是什么。
GDP
(2)建立年份为解释变量, 为预报变量的回归模型,并计算残差。
2003 GDP GDP
(3)根据你得到的模型,预报 年的 ,并查阅资料,看看你的预报与实际 的误差是多少。GDP
(4)你认为这个模型能较好地刻画 和年份的关系吗?请说明理由。
【解析】(1)由表中数据制作的散点图如下:
GDP
从散点图中可以看出 值与年份近线呈线性关系;
(2)用 y(t) 表示 GDP 值,t表示年份,根据截距和斜率的最小二乘计算公式,
得
a^≈−14292537.729
、
b^ ≈7191.969
,
y^=7191.969t−14292537.729
从而得线性回归方程: ,
残差计算结果见下表:
GDP
值与年份线性拟合残差表
年
1993 1994 1995 1996 1997
份
残
−6422.269 −1489.238 3037.493 5252.024 4638.055
差
年
1998 1999 2000 2001 2002
份
残
1328.685 −2140.984 −1932.353 −1277.622 −993.791
差
2003 GDP 112976.360
(3) 年的 预报值为 ,
根据国家统计局
2004
年统计,
2003
年实际
GDP
值为
117251.9,
∴预报与实际相−4275.540
;
(4)上面建立的回归方程的
R2 =0.974
,说明年份能够解释约
97%
的
GDP
值变化,
GDP
∴所建立的模型能够很好地刻画 和年份的关系。
kg kg
1-12.某农场对单位面积化肥用量x( )和水稻相应产量Y ( )的关系作了统计,得到数据如下:
x 15 20 25 30 35 40 45
y 330 345 365 405 445 450 455
如果x与Y 之间具有线性相关关系,求出回归直线方程,并预测当单位面积化肥用量为
32kg
时水稻
的产量大约是多少?(精确到0.01kg
)
【解析】由于问题中要求根据单位面积化肥用量预报水稻相应的产量,
因此选取单位面积的化肥用量为解释变量,相应水稻的产量为预报变量,作散点图:由图容易看出,x与Y 之间有近似的线性关系,
Y^ =b^ x+a^
或者说,可以用一个回归直线方程 来反映这种关系,
由计算器求得
b^ ≈4.75
、
a^≈256.79
,
Y 对x的回归直线方程为
Y^=4.75x+256.79
,
把x=32
代入,得
Y^=4.75×32+256.79=408.79
。
32kg 408.79kg
计算结果表示,当单位面积化肥用量为 时水稻的产量大约是 。
10
1-13.假设美国 家最大的工业公司提供了以下数据:
x x
公司 销售总额经 1/百万美元 利润 2/百万美元
通用汽车 126974 4224
福特 96933 3835
埃克森 86656 3510
IBM 63438 3758
通用电气 55264 3939
美孚 50976 1809
菲利普·莫利斯 39069 2946
克莱斯勒 36156 359
杜邦 35209 2480
德士古 32416 2413
(1)作销售总额和利润的散点图,根据该图猜想它们之间的关系应是什么形式;
(2)建立销售总额为解释变量,利润为预报变量的回归模型,并计算残差;
(3)你认为这个模型能较好地刻画销售总额和利润之间的关系吗?请说明理由。
【解析】(1)将销售总额作为横轴,利润作为纵轴,根据表中数据绘制散点图如下:
由于散点图中的样本点基本上在一个带形区域分布,猜想销售总额与利润之间呈现线性相关关系;
(2)由最小二乘法的计算公式,得:
b^ ≈0.026
、
a^≈1334.5
,
则线性回归方程为:
y^=0.026x+1334.5
其残差值计算结果见下表: 。
销售总额 126974 96933 86656 63438 55264
利润 4224 3835 3510 3758 3939
残差 −361.034 19.015 −42.894 799.487 1189.742
销售总额 50976 39069 36156 35209 32416
利润 1809 2946 359 2480 2413
残差 −830.486 611.334 −1901.09 244.150 248.650
(3)对于(2)中所建立的线性回归方程,相关指数为
R2 =0.457
,
说明在线性回归模型中销售总额只能解释利润变化的46%
,
∴线性回归模型不能很好地刻画销售总额和利润之间的关系。