文档内容
§9.3 一元线性回归模型及其应用
考试要求 1.了解样本相关系数的统计含义.2.了解最小二乘法原理,掌握一元线性回归模
型参数的最小二乘估计方法.3.针对实际问题,会用一元线性回归模型进行预测.
知识梳理
1.变量的相关关系
(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程
度,这种关系称为相关关系.
(2)相关关系的分类:正相关和负相关.
(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线
附近,我们就称这两个变量线性相关.
2.样本相关系数
(1)r=.
(2)当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本
数据的线性相关程度越弱.
3.一元线性回归模型
(1)我们将y=bx+a称为Y关于x的经验回归方程,
其中
(2)残差:观测值减去预测值称为残差.
常用结论
1.经验回归直线过点(,).
2.求b时,常用公式b=.
3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能
犯错误.
思考辨析
判断下列结论是否正确(请在括号中打“√”或“×”)
(1)相关关系是一种非确定性关系.( √ )
(2)散点图是判断两个变量相关关系的一种重要方法和手段.( √ )
(3)经验回归直线y=bx+a至少经过点(x,y),(x,y),…,(x,y)中的一个点.( × )
1 1 2 2 n n
(4)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.( √ )
教材改编题
1.在对两个变量x,y进行回归分析时有下列步骤:①对所求出的经验回归方程作出解释;②收集数据(x,y),i=1,2,…,n;③求经验回归方
i i
程;④根据所收集的数据绘制散点图.
则下列操作顺序正确的是( )
A.①②④③ B.③②④①
C.②③①④ D.②④③①
答案 D
解析 根据回归分析的思想,可知对两个变量 x,y进行回归分析时,应先收集数据(x,
i
y),然后绘制散点图,再求经验回归方程,最后对所求的经验回归方程作出解释.
i
2.对于x,y两变量,有四组成对样本数据,分别算出它们的样本相关系数r如下,则线性
相关性最强的是( )
A.-0.82 B.0.78 C.-0.69 D.0.87
答案 D
解析 由样本相关系数的绝对值|r|越大,变量间的线性相关性越强知,各选项中 r=0.87的
绝对值最大.
3.某单位为了了解办公楼用电量y(度)与气温x(℃)之间的关系,随机统计了四个工作日的
用电量与当天平均气温,并制作了对照表:
气温(℃) 18 13 10 -1
用电量(度) 24 34 38 64
由表中数据得到经验回归方程y=-2x+a,当气温为-4 ℃时,预测用电量约为( )
A.68度 B.52度
C.12度 D.28度
答案 A
解析 由表格可知=10,=40,
根据经验回归直线必过(,)得a=40+20=60,
∴经验回归方程为y=-2x+60,
因此当x=-4时,y=68.
题型一 成对数据的相关性
例1 (1)(2023·保定模拟)已知两个变量x和y之间有线性相关关系,经调查得到如下样本数
据:
x 3 4 5 6 7
y 3.5 2.4 1.1 -0.2 -1.3
根据表格中的数据求得经验回归方程为y=bx+a,则下列说法中正确的是( )A.a>0,b>0 B.a>0,b<0
C.a<0,b>0 D.a<0,b<0
答案 B
解析 由已知数据可知y随着x的增大而减小,则变量x和y之间存在负相关关系,所以
b<0.又=×(3+4+5+6+7)=5,=×(3.5+2.4+1.1-0.2-1.3)=1.1,即1.1=5b+a,所以a
=1.1-5b>0.
(2)(2022·大同模拟)如图是相关变量x,y的散点图,现对这两个变量进行线性相关分析,方
案一:根据图中所有数据,得到经验回归方程y=bx+a ,样本相关系数为r ;方案二:剔
1 1 1
除点(10,21),根据剩下的数据得到经验回归方程y=bx+a,样本相关系数为r.则( )
2 2 2
A.00时,正相关;当r<0时,负相关;|r|越接近1,相关性越强.
(3)经验回归方程:当b>0时,正相关;当b<0时,负相关.
跟踪训练1 (1)某公司2017~2022年的年利润x(单位:百万元)与年广告支出y(单位:百万
元)的统计资料如表所示:
年份 2017 2018 2019 2020 2021 2022
利润x 12.2 14.6 16 18 20.4 22.3
支出y 0.62 0.74 0.81 0.89 1 1.11
根据统计资料,则利润中位数( )
A.是16,x与y有正相关关系
B.是17,x与y有正相关关系C.是17,x与y有负相关关系
D.是18,x与y有负相关关系
答案 B
解析 由题意知,利润中位数是=17,而且随着年利润x的增加,广告支出y也在增加,故
x与y有正相关关系.
(2)已知相关变量x和y的散点图如图所示,若用y=b·ln(kx)与y=kx+b 拟合时的样本相关
1 1 2 2
系数分别为r,r 则比较r,r 的大小结果为( )
1 2 1 2
A.r>r B.r=r
1 2 1 2
C.r|r|;
1 1 2 2 1 2
又因为x,y负相关,所以-r>-r,即r0,故A正确,B错误;
由表格可得==5,==3.85,
则0.7×5+a=3.85,解得a=0.35,故C正确;
所以经验回归方程为y=0.7x+0.35,
当x=8时,y=0.7×8+0.35=5.95,
即产量为8吨时,预测所需材料约为5.95吨,故D正确.
5.(多选)(2023·唐山模拟)某制衣品牌为使成衣尺寸更精准,选择了10名志愿者,对其身高
(单位:cm)和臂展(单位:cm)进行了测量,这10名志愿者身高和臂展的折线图如图所示.
已知这10名志愿者身高的平均值为176 cm,根据这10名志愿者的数据求得臂展u关于身高
v的经验回归方程为u=1.2v-34,则下列结论正确的是( )
A.这10名志愿者身高的极差小于臂展的极差
B.这10名志愿者的身高和臂展呈负相关
C.这10名志愿者臂展的平均值为176.2 cm
D.根据经验回归方程可估计身高为160 cm的人的臂展为158 cm
答案 AD
解析 对于选项A,因为这10名志愿者臂展的最大值大于身高的最大值,而臂展的最小值
小于身高的最小值,所以这10名志愿者身高的极差小于臂展的极差,故A正确;
对于选项B,因为1.2>0,所以这10名志愿者的身高和臂展呈正相关关系,故B错误;
对于选项C,因为这10名志愿者身高的平均值为176 cm,所以这10名志愿者臂展的平均值
为1.2×176-34=177.2(cm),故C错误;
对于选项D,若一个人的身高为160 cm,则由经验回归方程u=1.2v-34,可得这个人的臂展的估计值为158 cm,故D正确.
6.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得数据列于表中:
已知该产品的色度y和色差x之间满足线性相关关系,且y=0.8x+a,现有一对测量数据为
(30,23.6),则该数据的残差为( )
色差x 21 23 25 27
色度y 15 18 19 20
A.-0.96 B.-0.8 C.0.8 D.0.96
答案 C
解析 由题意可知,==24,==18,
将(24,18)代入y=0.8x+a,
即18=0.8×24+a,解得a=-1.2,
所以y=0.8x-1.2,
当x=30时,y=0.8×30-1.2=22.8,
所以该数据的残差为23.6-22.8=0.8.
7.某智能机器人的广告费用x(万元)与销售额y(万元)的统计数据如表所示:
广告费用x(万元) 2 3 5 6
销售额y(万元) 28 31 41 48
根据此表可得经验回归方程为y=5x+a,据此模型预测广告费用为 8万元时销售额为
________万元.
答案 57
解析 由表格,得==4,==37,
所以37=5×4+a,即a=17,
所以预测当广告费用为8万元时,销售额为5×8+17=57(万元).
8.已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y=2e2x+1的图象
附近,设z=ln y,将其变换后得到经验回归方程为z=mx+n,则mn=________.
答案 2ln 2+2
解析 由z=ln y,则ln y=ln 2e2x+1,即z=ln 2+ln e2x+1=ln 2+2x+1,则z=2x+ln 2+
1,故m=2,n=ln 2+1,所以mn=2ln 2+2.
9.假设关于某种设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统
计资料:
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7.0已知=90,≈140.8,y=112.3,≈8.9,≈1.4.
i i
(1)求,;
(2)计算y与x的样本相关系数r(精确到0.001),并判断该设备的使用年限与所支出的维修费
用的相关程度.
附:样本相关系数r==.
解 (1)==4,
==5.0.
(2)y-5=112.3-5×4×5=12.3,-52=90-5×42=10,
i i
-52≈140.8-5×52=15.8,
所以r= ≈=≈≈0.987,
r接近1,说明该设备的使用年限与所支出的维修费用之间具有很高的相关性.
10.(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区
某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)
和材积量(单位:m3),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截
0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
面积x
i
材积量y 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
i
并计算得∑x=0.038,∑y=1.615 8,∑xy=0.247 4.
i i
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总
和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这
种树木的总材积量的估计值.
附:样本相关系数r==,≈1.377.
解 (1)样本中10棵这种树木的根部横截面积的平均值==0.06(m2),
样本中10棵这种树木的材积量的平均值
==0.39(m3),
据此可估计该林区这种树木平均一棵的根部横截面积为 0.06 m2,平均一棵的材积量为0.39
m3.
(2)r=
=
=≈≈0.97.
(3)设该林区这种树木的总材积量的估计值为Y m3,又已知树木的材积量与其根部横截面积近似成正比,
可得=,
解得Y=1 209.
则该林区这种树木的总材积量的估计值为1 209 m3.
11.(多选)针对某疾病,各地医疗机构采取了各种有针对性的治疗方法,取得了不错的成效,
某地开始使用中西医结合方法后,每周治愈的患者人数如表所示,由表格可得 y关于x的经
验回归方程为y=6x2+a,则下列说法正确的是( )
周数(x) 1 2 3 4 5
治愈人数(y) 2 17 36 93 142
A.a=4
B.a=-8
C.此回归模型第4周的残差为5
D.估计第6周治愈人数为220
答案 BC
解析 设t=x2,则y=6t+a,
由已知得=×(1+4+9+16+25)=11,
=×(2+17+36+93+142)=58,
所以a=58-6×11=-8,故A错误,B正确;
在y=6x2-8中,令x=4,
得y=6×42-8=88,
4
所以此回归模型第4周的残差为y-y=93-88=5,故C正确;
4 4
在y=6x2-8中,令x=6,
得y=6×62-8=208,故D错误.
6
12.2020年,全球开展了某疫苗研发竞赛,我国处于领先地位,为了研究疫苗的有效率,
在某地进行临床试验,对符合一定条件的10 000名试验者注射了该疫苗,一周后有20人感
染,为了验证疫苗的有效率,同期,从相同条件下未注射疫苗的人群中抽取 2 500人,分成
5组,各组感染人数如下:
调查人数x 300 400 500 600 700
感染人数y 3 3 6 6 7
并求得y与x的经验回归方程为y=0.011x+a,同期,在人数为10 000的条件下,以拟合结
果估算未注射疫苗的人群中感染人数,记为N;注射疫苗后仍被感染的人数记为n,则估计该疫苗的有效率为________.(疫苗的有效率为1-,结果保留3位有效数字)
答案 0.818
解析 由表格中的数据可得=500,=5,故a=5-0.011×500=-0.5,故N=0.011×
10 000-0.5=110-0.5=109.5≈110,而n=20,故疫苗的有效率为1-≈0.818.
13.在一组样本数据(x ,y),(x ,y),…,(x ,y)的散点图中,若所有样本点(x,y)(i=
1 1 2 2 7 7 i i
1,2,…,7)都在曲线y=aln(x-1 895)+12.15附近波动,经计算(x-1 895)=210.77,y=
i i
73.50,ln(x-1 895)=23.10,则实数a等于( )
i
A.-0.5 B.0.5 C.-1 D.1
答案 A
解析 因为ln(x-1 895)==3.3,y==10.5,
i i
所以10.5=3.3a+12.15,解得a=-0.5.
14.(多选)已知由样本数据(x,y)(i=1,2,3,…,10)组成的一个样本,得到经验回归方程为y
i i
=2x-0.4,且=2,去除两个歧义点(-2,1)和(2,-1)后,得到新的经验回归直线的斜率为
3.则下列说法正确的是( )
A.相关变量x,y具有正相关关系
B.去除两个歧义点后,新样本中变量x(j=1,2,…,8)的平均值变大
j
C.去除两个歧义点后的经验回归方程为y=3x-3
1
D.去除两个歧义点后,样本数据(4,8.9)的残差为0.1
答案 ABC
解析 对于A,因为经验回归直线的斜率大于0,所以相关变量x,y具有正相关关系,故A
正确;
对于B,将=2代入y=2x-0.4得=3.6,则去除两个歧义点后,得到新的相关变量的平均值
分别为==,==,故B正确;
对于C,a=-3×=-3,新的经验回归方程为y=3x-3,故C正确;
1
对于D,当x=4时,y=3×4-3=9,残差为8.9-9=-0.1,故D错误.
1