文档内容
第八章 成对数据的统计分析(基础卷)
姓名:__________________ 班级:______________ 得分:_________________
注意事项:
本试卷满分150分,考试时间1200分钟,试题共23题.答卷前,考生务必用0.5毫米黑色签字笔将
自己的姓名、班级等信息填写在试卷规定的位置.
一、选择题(本大题共12小题,每小题5分,共60分)在每小题所给出的四个选项中,只有一项是符合
题目要求的.
1.线性回归方程=bx+a必过点( )
A.(0,0) B.(,0) C.(0,) D.(,)
【答案】D
【分析】本题考查的知识点是线性回归直线的性质,由线性回归直线方程中系数的求法,我们可知 在
回归直线上.
【解答】解:因为a=﹣b,
所以 =bx+﹣b,
当x=时,y=,
所以回归方程过点(,).
故选:D.
【知识点】线性回归方程
2.下面哪两个变量间是相关关系( )
A.出租车费与行驶的里程 B.房屋面积与房屋价格
C.身高与体重 D.铁块的大小与质量
【答案】C
【分析】根据题意,依次分析选项中变量的关系,综合即可得答案.
【解答】解:根据题意,依次分析选项:
对于A,出租车费与行驶的里程之间的关系是确定,是函数关系,不符合题意;
对于B,房屋面积与房屋价格之间的关系是确定,是函数关系,不符合题意;
对于C,身高与体重之间的关系是不确定,但在一定范围内,身高越高,体重越大,是相关关系,
符合题意;
对于D,铁块的大小与质量之间的关系是确定,是函数关系,不符合题意;
故选:C.
【知识点】变量间的相关关系
3.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是( )
A.=﹣10x+200 B.=10x+200 C.=﹣10x﹣200 D.=10x﹣200
【答案】A
【分析】本题考查的知识点是回归分析的基本概念,根据某商品销售量 y(件)与销售价格x(元/件)负
相关,故回归系数应为负,再结合实际进行分析,即可得到答案.
【解答】解:由x与y负相关,
可排除B、D两项,
而C项中的=﹣10x﹣200<0不符合题意.故选:A.
【知识点】回归分析
4.设(x ,y ),(x ,y ),…,(x ,y )是变量x和y的n个样本点,直线l是由这些样本点通过最小
1 1 2 2 n n
二乘法得到的线性回归直线(如图),以下结论中正确的是( )
A.x和y的相关系数为直线l的斜率
B.x和y的相关系数在0到1之间
C.当n为偶数时,分布在l两侧的样本点的个数一定相同
D.直线l过点(,)
【答案】D
【分析】对于所给的线性回归方程对应的直线,针对于直线的特点,回归直线一定通过这组数据的样本中
心点,得到结果.
【解答】解:直线l是由这些样本点通过最小二乘法得到的线性回归直线,
回归直线方程一定过样本中心点,
故选:D.
【知识点】线性回归方程
5.其食品研究部门为了解一种酒品的储藏年份与芳香度之间的相关关系,在市场上收集到了一部分不同年
份的该酒品,并测定了其芳香度(如表).
年份x 0 1 4 5 6 8
芳香度y 1.3 1.8 5.6 7.4 9.3
由最小二乘法得到回归方程 =1.03x+1.13,但不小心在检测后滴到表格上一滴检测液,污损了一个数据,
请你推断该数据为( )
A.6.1 B.6.28 C.6.5 D.6.8
【答案】A
【分析】由题意求出,代入到回归直线方程,即可求解污损处的数据.
【解答】解:由表中数据:= =4,
回归方程 =1.03x+1.13,
∴ =1.03×4+1.13=5.25,
∴= =5.25,
解得:?=6.1.
故选:A.【知识点】线性回归方程
6.对变量x、y有观测数据(x,y)(i=1,2,…,10),得散点图1;对变量u,v有观测数据(u,v)
i i i i
( i = 1 , 2 , … , 10 ) , 得 散 点 图 2 . 由 这 两 个 散 点 图 可 以 判 断 ( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
【答案】C
【分析】通过观察散点图可以知道,y随x的增大而减小,各点整体呈下降趋势,x与y负相关,u随v的
增大而增大,各点整体呈上升趋势,u与v正相关.
【解答】解:由题图1可知,y随x的增大而减小,各点整体呈下降趋势,x与y负相关,
由题图2可知,u随v的增大而增大,各点整体呈上升趋势,u与v正相关.
故选:C.
【知识点】变量间的相关关系
7.某产品的广告费用x与销售额y的统计数据如下表
广告费用x(万 4 2 3 5
元)
销售额y(万 49 26 39 54
元)
根据上表可得回归方程=x+的为9.4,据此模型预报广告费用为6万元时销售额为( )
A.63.6万元 B.65.5万元 C.67.7万元 D.72.0万元
【答案】B【分析】首先求出所给数据的平均数,得到样本中心点,根据线性回归直线过样本中心点,求出方程中的
一个系数,得到线性回归方程,把自变量为6代入,预报出结果.
【解答】解:∵ =3.5,
=42,
∵数据的样本中心点在线性回归直线上,
回归方程 中的为9.4,
∴42=9.4×3.5+ ,
∴=9.1,
∴线性回归方程是y=9.4x+9.1,
∴广告费用为6万元时销售额为9.4×6+9.1=65.5,
故选:B.
【知识点】线性回归方程
8.设(x ,y ),(x ,y ),…,(x ,y )是变量x和y的n次方个样本点,直线l是由这些样本点通过
1 1 2 2 n n
最小二乘法得到的线性回归直线(如图),以下结论正确的是( )
A.直线l过点
B.x和y的相关系数为直线l的斜率
C.x和y的相关系数在0到1之间
D.当n为偶数时,分布在l两侧的样本点的个数一定相同
【答案】A
【分析】回归直线一定过这组数据的样本中心点,两个变量的相关系数不是直线的斜率,两个变量的相关
系数的绝对值是小于1的,是在﹣1与1之间,所有的样本点集中在回归直线附近,没有特殊的
限制.
【解答】解:回归直线一定过这组数据的样本中心点,故A正确,
两个变量的相关系数不是直线的斜率,而是需要用公式做出,故B不正确,
直线斜率为负,相关系数应在(﹣1,0)之间,故C不正确,
所有的样本点集中在回归直线附近,不一定两侧一样多,故D不正确,
故选:A.
【知识点】线性回归方程
9.为了解儿子身高与其父亲身高的关系,随机抽取5对父子身高数据如下
父亲身高x(cm) 174 176 176 176 178
儿子身高y(cm) 175 175 176 177 177
则y对x的线性回归方程为( )
A.y=x﹣1 B.y=x+1 C. D.y=176【答案】C
【分析】求出这组数据的样本中心点,根据样本中心点一定在线性回归直线上,把样本中心点代入四个选
项中对应的方程,只有y=88+ x适合,得到结果.
【解答】解:∵ =176,
=176,
∴本组数据的样本中心点是(176,176),
根据样本中心点一定在线性回归直线上,
把样本中心点代入四个选项中对应的方程,只有y=88+ x适合,
故选:C.
【知识点】线性回归方程
10.四名同学根据各自的样本数据研究变量 x,y之间的相关关系,并求得回归直线方程,分别得到以下四
个结论:
y与x负相关且=2.347x﹣6.423;
①y与x负相关且=﹣3.476x+5.648;
②y与x正相关且=5.437x+8.493;
③y与x正相关且=﹣4.326x﹣4.578.
④其中一定不正确的结论的序号是( )
A.①② B.②③ C.③④ D.①④
【答案】D
【分析】由题意,可根据回归方程的一次项系数的正负与正相关或负相关的对应对四个结论作出判断,得
出一定不正确的结论来,从而选出正确选项.
【解答】解:①y与x负相关且=2.347x﹣6.423;此结论误,由线性回归方程知,此两变量的关系是正相
关;
y与x负相关且 ;此结论正确,线性回归方程符合负相关的特征;
y与x正相关且 ; 此结论正确,线性回归方程符合正相关的特征;
②
y与x正相关且 .此结论不正确,线性回归方程符合负相关的特征.
③
综上判断知,①④是一定不正确的
④
故选:D.
【知识点】线性回归方程
11.现收集到x、y的六组数据如下:
x 1 2 3 4 5 6
y 2 2.3 3 3.5 5 4.5
由上表数据用最小二乘法计算得其回归直线为l := x+ ,相关系数r ;若经过残差分析后发现(5,5)
1 1
为离群点(对应残差绝对值过大的点),去掉后,用剩下的五组数据计算得其回归直线为 l := x+ ,相
2
关系数为r,则下列结论中,不正确的是( )
2
A. > >0
B. > >0
C.r>r>0
2 1D.去掉离群点后,残差 的方差σ2变小
【答案】B
【分析】由题意求得回归直线为l 中 和 的值,l 中 和 的值,比较得出A、B的正误;由题意易判断C、
1 2
D的正误.
【解答】解:由表中数据求得回归直线为l:= ×(1+2+3+4+5+6)=3.5,
1
= ×(2+2.3+3+3.5+5+4.5)≈3.4,
= ≈0.58,
=3.4﹣0.58×3.5=1.37;
去掉离群点后,用剩下的数据求得回归直线为l:
2
= ×(1+2+3+4+6)=3.2,
= ×(2+2.3+3+3.5+4.5)≈3.1,
∴ = ≈0.13,
=3.1﹣0.13×3.2≈2.7;
∴ > >0,A正确;
> >0,B错误;
易知相关系数r>r>0,C正确;
1 2
去掉离群值后,残差 波动性变小,方差σ2变小,D正确.
故选:B.
【知识点】线性回归方程
12.某产品广告宣传费与销售额的统计数据如右表,根据数据表可得回归直线方程 =x+,其中=2,据此模
型预测广告费用为9千元时,销售额为( )
广告宣传费x 2 3 4 5 6
(千元)
销售额y(万 2 4 7 10 12
元)
A.17万元 B.18万元 C.19万元 D.20万元
【答案】A
【分析】结合题意首先求得线性回归方程,然后进行预测即可.
【解答】解:由题意可得: ,
线性回归方程过样本中心点,则: ,∴ ,
线性回归方程为: ,
据此模型预测广告费用为9千元时,销售额为 万元.
故选:A.
【知识点】线性回归方程
二、填空题(本大题共4小题,每小题5分,共20分.不需写出解答过程,请把答案直接填写在横线
上)
13.已知随机变量y与x有相关关系 ,当x=3时,y的预报值为 .
【答案】7【分析】直接在线性回归方程中取x=2求得y值即可.
【解答】解:∵随机变量y与x有相关关系 ,
∴x=3时,y的预报值为2×3+1=7.
故答案为:7.
【知识点】线性回归方程
14.下列两个变量之间具有相关关系的是 .
①正方形的边长a和面积S;
②一个人的身高h和右手一拃长x;
③真空中的自由落体运动其下落的距离h和下落的时间t;
④一个人的身高h和体重x.
【答案】②④
【分析】根据相关关系是表示两个变量之间有一定的关系,但不是确定的关系,判断即可.
【解答】解:对于①,正方形的边长a和面积S是函数关系,不是相关关系;
对于②,一般情况下,一个人的身高h和右手一拃长x是正相关关系;
对于③,真空中的自由落体运动其下落的距离h和下落的时间t是函数关系,不是相关关系;
对于④,一般情况下,一个人的身高h和他的体重x是正相关关系.
故选:②④.
【知识点】变量间的相关关系
15.已知两个变量x、和y之间有线性相关关系,5次试验的观察数据如下:
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7.0
那么y与x之间的线性回归方程是 .
【分析】先求出横标和纵标的平均数,得到这组数据的样本中心点,利用最小二乘法求出线性回归方程的
系数,代入样本中心点求出a的值,写出线性回归方程.
【解答】解:(Ⅰ)设回归直线方程为 ,则 , ,
=0.8289, ,
故所求的回归方程为 .
【知识点】线性回归方程
16.某市居民2005~2009年家庭年平均收入(单位:万元)与年平均支出(单位:万元)的统计资料如下
表所示:
年份 2005 2006 2007 2008 2009
收入x 11.5 12.1 13 13.5 15
支出Y 6.8 8.8 9.8 10 12
根据统计资料,居民家庭年平均收入的中位数是 ,家庭年平均收入与年平均支出的回归直线方程一
定过 点.
【答案】【第1空】13【第2空】(13.02,9.48)
【分析】由题意知本题求一组数据的中位数,要把这组数据按照从小到大的顺序排列,最中间一个是中位
数,回归直线一定过样本中心点,求出横标和纵标的平均数,得到样本中心点.
【解答】解:求居民收入的中位数,
把居民收入这一栏数据按照从小到大排列,最中间的一个数字是13,
∴居民家庭年平均收入的中位数是13,
∵ =13.02,
=9.48,
∴回归直线一定过(13.02,9.48).
故答案为:13;(13.02,9.48).
【知识点】众数、中位数、平均数、变量间的相关关系
三、解答题(本大题共6小题,共70分.请在答题卡指定区域内作答,解答时应写出文字说明、证明过
程或演算步骤)
17.已知线性回归直线方程是 =1.23x+0.08,求m的值.
x 2 3 4 5 6
y 2.2 3.8 m 6.5 7.0
【分析】由表中数据求出、,代人线性回归直线方程,即可求出m的值.
【解答】解:由表中数据得,= ×(2+3+4+5+6)=4,
= ×(2.2+3.8+m+6.5+7.0)=3.9+ ,
由线性回归直线方程是 =1.23x+0.08,
∴3.9+ =1.23×4+0.08,
解得m=5.5.
【知识点】线性回归方程
18.为改善人居坏境,某区增加了对环境综合治理的资金投入.已知今年治理环境x(亩)与相应的资金投
入y(万元)的四组对应数据的散点图如图所示,用最小二乘法得到关于x的线性回归方程 .
(Ⅰ)求的值,并预测今年治理环境10亩所需投入的资金是多少万元?
(Ⅱ)已知该区去年治理环境10亩所投入的资金为3.5万元,根据(I)的结论,请
你对该区环境治理给出一条简短的评价.
【分析】(Ⅰ)由散点图中的数据可得 与,代入 ,得 ,可得线性回归方程,取x=10求得y值,得
到今年治理环境10亩所需投入的资金;
(Ⅱ)由(Ⅰ)预测今年治理环境10亩所需投入的资金,与该区去年治理环境10亩所投入的资金比较得结论.
【解答】解:(Ⅰ)由散点图中的数据可得: , .
代入 ,得 .
∴回归直线方程为y=0.7x+0.35.
当x=10时,y=0.7×10+0.35=7.35(万元).
预测今年治理环境10亩所需投入的资金是7.35万元;
(Ⅱ)由(Ⅰ)预测今年治理环境10亩所需投入的资金是7.35万元,
而该区去年治理环境10亩所投入的资金为3.5万元,今年增加了资金一倍以上,
说明该区下了大决心改善人居环境,值得赞扬.
【知识点】线性回归方程
19.一辆汽车的使用年限x(年)和所支出的维修费用y(万元)有如下统计资料:
X(年) 2 3 4 5 6
Y(万元) 0.22 0.38 0.55 0.65 0.70
若已知y与x之间有线性相关关系,试求:
(Ⅰ)线性回归方程;
(Ⅱ)估计使用年限为10年时,维修费用约是多少?
【分析】(I)先求出,, , ,利用公式= 及 ,即可得到 .
【解答】解:(I)∵= =4,= =0.5. =2.
=2×0.22+3×0.38+4×0.55+5×0.65+6×0.70=11.23. =90.
∴= =0.123, =0.5﹣0.123×4=0.008,∴ ..
(II)当x=10时, =1.238万元.
【知识点】变量间的相关关系、线性回归方程
20.某种产品的广告费用支出x(万元)与销售额y(万元)之间有如下的对应数据:
x 2 4 5 6 8
y 30 40 60 50 70
(1)画出散点图;
(2)求回归直线方程;
(3)据此估计广告费用为9万元时,销售收入y的值.
参考公式:回归直线的方程=bx+a,其中b= = ,a=﹣b.
【分析】(1)画出坐标系,把所给的五组点的坐标描到坐标系中,作出散点图.
(2)根据所给的5组数据,先求出横标和纵标的平均数,利用最小二乘法,做出线性回归方
程的系数,写出线性回归方程.
(3)把所给的自变量x的值代入直线方程,做出对应的y的值,就是要求的估计广告费用是
9万元时,销售收入的值.
【解答】解:(1)画出坐标系,把所给的五组点的坐标描到坐标系中,作出散点图如图所示:
(2)= ×(2+4+5+6+8)=5,= ×(30+40+60+50+70)=50,=145, =13500, =1380.
= = =6.5,
=﹣b=50﹣6.5×5=17.5.
因此回归直线方程为=6.5x+17.5;
(3)x=9时,预报y的值为y=9×6.5+17.5=76(万元).
【知识点】回归分析
21.某地区2013年至2019年居民纯收入y(单位:千元)的部分数据如表所示:
年份 2013 2014 2015 2016 2017 2018 2019
年份代号t 1 2 3 4 5 6 7
人均纯收入 3.9 4.3 4.6 5.4 5.8
y
2018和2019年的居民纯收入y(单位:千元)数据采用随机抽样的方式获得,用样本的均值来代替当年
的居民人均纯收入,其数据如下:
2018年抽取的居民纯收入(单位:千元)数据:5.2 4.8 6.5 5.6 6.0 7.1 6.1 7.3 5.9 7.5
2019年抽取的居民纯收入(单位:千元)数据:6.2 7.8 6.6 5.8 7.1 6.8 7.2 7.9 5.9 7.7
(Ⅰ)求y关于t的线性回归方程;
(Ⅱ)当地政府为了提高居民收入水平,现从2018和2019年居民纯收入(单位:千元)高于7.0千元的
样本中随机选择3人进行座谈,了解其工作行业及主要收入来源.设 X为选出的3人中2018年纯收入高
于7.0千元的人数,求随机变量X的分布列和数学期望.
附:回归直线的斜率和截距的最小二乘法估计公式分别为:= , .
【分析】(Ⅰ)先求出2018和2019年的居民人均纯收入,然后根据表中的数据求出 ,,利用所给公式
求出线性回归方程即可;
(Ⅱ)先确定2018年和2019年居民纯收入高于7.0千元的人数,然后得出随机变量X的所有
可能值,分别求出其概率,进而求出分布列和数学期望.
【 解 答 】 解 : ( Ⅰ ) 根 据 2018 年 的 抽 样 数 据 可 得 2018 年 的 人 均 纯 收 入 为
(5.2+4.8+6.5+5.6+6.0+7.1+6.1+7.3+5.9+7.5)=6.2 千元,
根 据 2019 年 的 抽 样 数 据 可 得 2019 年 的 人 均 纯 收 入 为
(6.2+7.8+6.6+5.8+7.1+6.8+7.2+7.9+5.9+7.75)=6.9千元,
由所给的数据得= (1+2+3+4+5+6+7)=4,
= (3.9+4.3+4.6+5.4+5.8+6.2+6.9)=5.3,
∴ (t﹣)2=9+4+1+0+1+4+9=28,
i(t﹣ )(y﹣ )=(﹣3)×(﹣1.4)+(﹣2)×(﹣1)+(﹣1)×(﹣
i i
0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
∴= = =0.5,
则=﹣ =5.3﹣0.5×4=3.3,
则所求y关于t的线性回归方程为=0.5t+3.3;
(Ⅱ)由2018年和2019年的抽样数据可知,2018年居民纯收入高于7.0千元的有3人,2019
年居民纯收入高于7.0千元的有5人,
由题意可得,随机变量X的可能取值为0,1,2,3,
则P(X=0)= = ,P(X=1)= = ,
P(X=2)= = ,P(X=1)= = ,
∴随机变量X的分布列为则X的分布列为:
X 0 1 2 3
P
则E(X)=0× +1× +2× +3× =
【知识点】离散型随机变量的期望与方差、线性回归方程、离散型随机变量及其分布列
22.2018年为我国改革开放40周年,某事业单位共有职工600人,其年龄与人数分布表如下:
年龄段 [22,35) [35,45) [45,55) [55,59]
人数(单位: 180 180 160 80
人)
约定:此单位45岁~59岁为中年人,其余为青年人,现按照分层抽样抽取30人作为全市庆祝晚会的观众.
(1)抽出的青年观众与中年观众分别为多少人?
(2)若所抽取出的青年观众与中年观众中分别有12人和5人不热衷关心民生大事,其余人热衷关心民生
大事.完成下列2×2列联表,并回答能否有90%的把握认为年龄层与热衷关心民生大事有关?
热衷关心民生大事 不热衷关心民生大事 总计
青年 12
中年 5
总计 30
(3)若从热衷关心民生大事的青年观众(其中1人擅长歌舞,3人擅长乐器)中,随机抽取2人上台表演
节目,则抽出的2人能胜任才艺表演的概率是多少?
P(K2≥k ) 0.100 0.050 0.025 0.010 0.001
0
k 2.706 3.841 5.024 6.635 10.828
0
.
【分析】(1)利用分层抽样原理计算抽出的人数即可;
(2)填写列联表,计算观测值,对照临界值得出结论;
(3)用列举法求基本事件数,计算所求的概率值.【解答】解:(1)抽出的青年观众为18人,中年观众12人;
(2)2×2列联表如下:
热衷关心民生大事 不热衷关心民生大事 总计
青年 6 12 18
中年 7 5 12
总计 13 17 30
计算观测值 ,
∴没有90%的把握认为年龄层与热衷关心民生大事有关;
(3)热衷关心民生大事的青年观众有6人,记能胜任才艺表演的四人为A,A,A,A,
1 2 3 4
其 余 两 人 记 为 B , B , 则 从 中 选 两 人 , 一 共 有 如 下 15 种 情 况 :
1 2
抽出的2人都能胜任才艺表演的有6种情况,
所以所求的概率为 .
【知识点】独立性检验