文档内容
第 3 讲 变量间的相关关系与统计案例
一、选择题
1.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2
如下,其中拟合效果最好的模型是( )
A.模型1的相关指数R2为0.98
B.模型2的相关指数R2为0.80
C.模型3的相关指数R2为0.50
D.模型4的相关指数R2为0.25
解析 相关指数R2越大,拟合效果越好,因此模型1拟合效果最好.
答案 A
2.已知变量x与y正相关,且由观测数据算得样本平均数 =3, =3.5,则由该
观测数据算得的线性回归方程可能是( )
A.y=0.4x+2.3 B.y=2x-2.4
C.y=-2x+9.5 D.y=-0.3x+4.4
解析 因为变量x和y正相关,则回归直线的斜率为正,故可以排除选项C和D.
因为样本点的中心在回归直线上,把点(3,3.5)的坐标代入检验,A满足.
答案 A
3.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一
组样本数据(x,y)(i=1,2,…,n),用最小二乘法建立的回归方程为y=0.85x-
i i
85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(x,y)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
解析 ∵0.85>0,∴y与x正相关,∴A正确;
∵回归直线经过样本点的中心( , ),∴B正确;
∵Δy=0.85(x+1)-85.71-(0.85x-85.71)=0.85,
∴C正确.
答案 D
4.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:
男 女 总计爱好 40 20 60
不爱好 20 30 50
总计 60 50 110
由K2=算得,
K2=≈7.8.
附表:
P(K2≥k ) 0.050 0.010 0.001
0
k 3.841 6.635 10.828
0
参照附表,得到的正确结论是( )
A.有99%以上的把握认为“爱好该项运动与性别有关”
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
解析 根据独立性检验的定义,由K2≈7.8>6.635,可知我们在犯错误的概率不
超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”.
答案 A
5.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭
得到如下统计数据表:
收入x(万元) 8.2 8.6 10.0 11.3 11.9
支出y(万元) 6.2 7.5 8.0 8.5 9.8
根据上表可得回归直线方程y=bx+a,其中b=0.76,a= -b ,据此估计,该
社区一户年收入为15万元家庭的年支出为( )
A.11.4万元 B.11.8万元
C.12.0万元 D.12.2万元
解析 由题意知, ==10,
==8,
∴a=8-0.76×10=0.4,
∴当x=15时,y=0.76×15+0.4=11.8(万元).
答案 B
二、填空题
6.若8名学生的身高和体重数据如下表:
编号 1 2 3 4 5 6 7 8身高/cm 165 165 157 170 175 165 155 170
体重/kg 48 57 54 64 61 43 59
第3名学生的体重漏填,但线性回归方程是y=0.849x-85.712,则第3名学生
的体重估计为________.
解析 设第3名学生的体重为a,则
(48+57+a+54+64+61+43+59)=0.849×(165+165+157+170+175+
165+155+170)-85.712.解之得a≈50.
答案 50
7.(2017·广州模拟)为了判断高中三年级学生选修文理科是否与性别有关,现随
机抽取50名学生,得到2×2列联表如下:
理科 文科 总计
男 13 10 23
女 7 20 27
总计 20 30 50
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.
根据表中数据,得到K2=≈4.844,则认为选修文理科与性别有关系出错的可能
性约为________.
解析 由K2=4.844>3.841.故认为选修文理科与性别有关系出错的可能性约为
5%.
答案 5%
8.某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用
电量与当天气温,并制作了对照表:
气温(℃) 18 13 10 -1
用电量(度) 24 34 38 64
由表中数据得回归直线方程y=bx+a中的b=-2,预测当气温为-4 ℃时,用
电量约为________度.
解析 根据题意知x==10,y==40,因为回归直线过样本点的中心,所以a=
40-(-2)×10=60,所以当x=-4时,y=(-2)×(-4)+60=68,所以用电量约
为68度.
答案 68
三、解答题9.(2017·郑州调研)某地区2009年至2015年农村居民家庭人均纯收入y(单位:千
元)的数据如下表:
年份 2009 2010 2011 2012 2013 2014 2015
年份代号t 1 2 3 4 5 6 7
人均纯收入y 2.9 3.3 3.6 4.4 4.8 5.2 5.9
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2009年至2015年该地区农村居民家庭人均纯
收入的变化情况,并预测该地区2017年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:
b=,a=y-bt.
解 (1)由所给数据计算得t=(1+2+3+4+5+6+7)=4,
y=×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
∑ (t- )2=9+4+1+0+1+4+9=28,
i
∑ (t- )(y- )=(-3)×(-1.4)+(-2)×(-1)+
i i
(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
b===0.5,
a= -b =4.3-0.5×4=2.3,所求回归方程为y=0.5t+2.3.
(2)由(1)知,b=0.5>0,故2009至2015年该地区农村居民家庭人均纯收入逐年
增加,平均每年约增加0.5千元.
将2017年的年份代号t=9代入(1)中的回归方程,得y=0.5×9+2.3=6.8,故
预测该地区2017年农村居民家庭人均纯收入为6.8千元.
10.(2017·西安质检)某省会城市地铁将于2017年6月开始运营,为此召开了一个
价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与
态度如下:
月收入(单位:
[15,25) [25,35) [35,45) [45,55) [55,65) [65,75]
百元)
赞成定价
1 2 3 5 3 4
者人数
认为价格偏
4 8 12 5 2 1
高者人数
(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成
定价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);
(2)由以上统计数据填下面2×2列联表分析是否有99%的把握认为“月收入
以55百元为分界点对地铁定价的态度有差异”.
月收入不低于 月收入低于
总计
55百元的人数 55百元的人数
认为价格偏高者
赞成定价者
总计
附:K2=
P(K2≥k ) 0.05 0.01
0
k 3.841 6.635
0
解 (1)“赞成定价者”的月平均收入为
x =≈50.56.
1
“认为价格偏高者”的月平均收入为
x ==38.75,
2
∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是 x -x =
1 2
50.56-38.75=11.81(百元).
(2)根据条件可得2×2列联表如下:
月收入不低于 月收入低于
总计
55百元的人数 55百元的人数
认为价格偏高者 3 29 32
赞成定价者 7 11 18
总计 10 40 50
K2=≈6.27<6.635,
∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差
异”.
11.某产品生产厂家的市场部在对4家商场进行调研时,获得该产品售价x(单位:
元)和销售量y(单位:件)之间的四组数据如下表:
售价x 4 4.5 5.5 6
销售量y 12 11 10 9
为决策产品的市场指导价,用最小二乘法求得销售量y与售价x之间的线性回
归方程为y=-1.4x+a,那么方程中的a值为( )A.17 B.17.5 C.18 D.18.5
解析 ==5,
==10.5,
∵回归直线过样本点的中心,
∴a=10.5+1.4×5=17.5.
答案 B
12.根据如下样本数据
x 3 4 5 6 7 8
y 4.0 2.5 -0.5 0.5 -2.0 -3.0
得到的回归方程为y=bx+a,则( )
A.a>0,b>0 B.a>0,b<0
C.a<0,b>0 D.a<0,b<0
解析 作出散点图如下:
观察图象可知,回归直线y=bx+a的斜率b<0,当x=0时,y=a>0.故a>0,b<0.
答案 B
13.(2017·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,
某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50
名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选
择一道题进行解答.选题情况如下表:(单位:人)
几何题 代数题 总计
男同学 22 8 30
女同学 8 12 20
总计 30 20 50
根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的
概率不超过________.
附表:P(K2≥k ) 0.15 0.10 0.05 0.025 0.010 0.005 0.001
0
k 2.072 2.706 3.841 5.024 6.635 7.879 10.828
0
解析 由列联表计算K2的观测值
k =≈5.556>5.024.
0
∴推断犯错误的概率不超过0.025.
答案 0.025
14.(2015·全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣
传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8
年的年宣传费x 和年销售量y(i=1,2,…,8)数据作了初步处理,得到下面的散
i i
点图及一些统计量的值.
表中 =, =∑ .
wi w wi
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣
传费x的回归方程类型(给出判断即可,不必说明理由)?
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列
问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u , ),(u , ),…,(u , ),其回归直线 =α+βu的斜率和截
1 v1 2 v2 n vn v距的最小二乘估计分别为:
β=,α^= -β
解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归
方程类型.
(2)令 =,先建立y关于 的线性回归方程,由于
w w
d===68,
c=y-d =563-68×6.8=100.6,
所以y关于 的线性回归方程为y=100.6+68 ,因此y关于x的回归方程为y
w w
=100.6+68.
(3)①由(2)知,当x=49时,年销售量y的预报值
y=100.6+68=576.6,
年利润z的预报值z=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
z=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,z取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.