文档内容
第八章 成对数据的统计分析(基础训练)A 卷
姓名: 班级:
一、单项选择题:本题共8小题,每小题5分,共40分。在每小题给出的四个选项中,只有一个选项是符
合题目要求的。
1.对具有相关关系的两个变量统计分析的一种常用的方法是( )。
A、回归分析 B、相关系数分析 C、残差分析 D、相关指数分析
2.甲、乙、丙、丁四位同学各自对A、B两变量的线性相关性做试验,并用回归分析方法分别求得相关
系数r与残差平方和m如下表:
甲 乙 丙 丁
r 0.82 0.78 0.69 0.85
m 106 115 124 103
则哪位同学的试验结果体现A、B两变量有更强的线性相关性( )。
A、甲 B、乙 C、丙 D、丁
3.通过随即询问 110 名性别不同的大学生是否爱好某项运动,得到如下的2×2列联表:
男 女 总计
爱好 40 20 60
不爱
20 30 50
好
总计 60 50 110
K2 =
n(ad−bc) 2
K2 =
110×(40×30−20×20) 2
≈7.8
由
(a+b)(a+c)(c+d)(b+d)
算得:
60×50×60×50
。
附表:
P(K2 ≥k ) 0.050 0.010 0.001
0
k 3.841 6.635 10.828
0
参照附表,得到的正确结论是( )。
A、在犯错的概率不超过0.1%
的前提下,认为“爱好该项运动与性别有关”
B、在犯错的概率不超过0.1%
的前提下,认为“爱好该项运动与性别无关”
99%
C、由 以上的把握认为“爱好该项运动与性别有关”
99%
D、由 以上的把握认为“爱好该项运动与性别无关”
4.一位母亲记录了她儿子3到9岁的身高,数据如下表:
年龄(岁) 3 4 5 6 7 8 9
身高(cm) 94.8 104.2 108.7 117.8 124.3 130.8 139.0
y^=7.19x+73.93
10
由此她建立了身高与年龄的回归模型 ,她用这个模型预测儿子 岁时的身高,则下
面的叙述正确的是( )。
A、她儿子
10
岁时的身高一定是
145.83cm
B、她儿子
10
岁时的身高在
145.83cm以上
C、她儿子
10
岁时的身高在
145.83cm左右
D、她儿子
10
岁时的身高在
145.83cm以下5.假设有两个分类变量X 与Y ,它们的值域分别为 {x 1 ,x 2 } 和 {y 1 ,y 2 } ,其2×2列联表为:
y y 总计
1 2
x a b a+b
1
x c d c+d
2
总计 a+c b+d a+b+c+d
对于以下数据,对同一样本能说明X与Y 有关的可能性最大的一组为( )。
A、a=2、b=3、c=5、d=4 B、a=5、b=2、c=4、d=3
C、a=5、b=3、c=2、d=4 D、a=5、b=4、c=3、d=2
6.已知变量x、y、z都是正数,y与x的回归方程:
y^=b^ x+3
,且x每增加1个单位,y减少2个单位,
y与z的回归方程:
y^=2z2
,则( )。
A、y与x正相关,z与x正相关 B、y与x正相关,z与x负相关
C、y与x负相关,z与x正相关 D、y与x负相关,z与x负相关
7.下表提供了某厂节能降耗技术改造后在生产A产品过程中记录的产量x(吨)与相应的生产能耗y
(吨)的几组对应数据,根据表中提供的数据,求出y关于x的线性回归方程为
y^=0.7x+0.35
,则下列
结论错误的是( )。
x 3 4 5 6
y 2.5 t 4 4.5
(4.5,3.5)
A、产品的生产能耗与产量呈正相关 B、回归直线一定过
C、A产品每多生产1吨,则相应的生产能耗约增加0.7吨 D、t的值是3.15
8.对两个变量y和x进行回归分析,得到一组样本数据: (x 1 ,y 1 ) 、 (x 2 ,y 2 ) 、…、 (x n ,y n ) ,则下列说
法中不正确的是( )。
y^=b^ x+a^ (x,y)
A、由样本数据得到的回归方程 必过样本中心
B、残差平方和越小的模型,拟合的效果越好
C、用相关指数R2 来刻画回归效果,R2
越小,说明模型的拟合效果越好
D、若变量y和x之间的相关系数为r=−0.9362 ,则变量y和x之间具有线性相关关系
二、多项选择题:本题共4小题,每小题5分,共20分。在每小题给出的选项中,有多项符合题目要求。
9.某种产品的价格x(单位:元
¿kg
)与需求量y(单位:
kg
)之间的对应数据如下表所示:
x 10 15 20 25 30
y 11 10 8 6 5
y^=b^x+14.4
数据表中的数据可得回归直线方程为 ,则以下结论正确的是( )。
A、变量y与x呈负相关 B、回归直线经过点
(20,8)
b^ =−0.32 35 ¿kg 3.4kg
C、 D、该产品价格为 元 时,日需求量大约为
500 500
10.某医疗研究所为了检验某种血清预防感冒的作用,把 名使用血清的人与另外 名未使用血清的人一年中的感冒记录作比较,提出假设:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得
K2 ≈3.918
,经查临界值表知
P(K2 ≥3.841)≈0.05
。则下列结论中错误的是( )。
A、在犯错误的概率不超过0.05
的前提下认为“这种血清能起到预防感冒的作用”;
95%
B、若某人未使用该血清,那么他在一年中有 的可能性得感冒;
95%
C、这种血清预防感冒的有效率为 ;
95%
D、这种血清预防感冒的有效率为 。
{(x,y )|i=1,2,⋅¿⋅,n} y^=1.5x+0.5 x=3
11.已知由样本数据点集合 i i ,求得的回归直线方程为 ,且 ,现
发现两个数据点
(1.2,2.2)
和
(4.8,7.8) 误差较大,去除后重新求得的回归直线l的斜率为1.2,则下列说法正
确的是( )。
A、变量x与y具有正相关关系 B、去除后的回归方程为
y^=1.2x+1.4
C、去除后y的估计值增加速度变快 D、去除后相应于样本点 (2,3.75) 的残差为0.05
12.对两个变量y和x进行回归分析,得到一组样本数据: (x 1 ,y 1 ) 、 (x 2 ,y 2 ) 、 (x 3 ,y 3 ) 、…、 (x n ,y n ) ,
则下列说法中正确的是( )。
y^=b^ x+a^ (x,y)
A、由样本数据得到的回归方程 必过样本中心
y^=b^ x+a^ (x ,y ) (x ,y ) (x ,y ) (x ,y )
B、由样本数据得到的回归方程 和各点 1 1 、 2 2 、 3 3 、…、 n n 的偏差
n
∑(y −bx−a)2
i i
i=1 是该坐标平面上所有直线与这些点的偏差中最小的
C、若变量y和x之间的相关系数为r=−0.9362 ,则变量y和x之间具有线性相关关系
D、以上说法都不正确
三、填空题:本题共4小题,每小题5分,共20分。
13.某地积极响应党中央的号召,开展扶贫活动,扶贫第x年该地区贫困户每年人均收入y万元的部分数
据如下表:
年份编号x 1 2 3 4 5
年人均收入y 0.5 0.6 a 1.4 1.7
根据表中所给数据,求得y与x的线性回归方程为
y^=0.32x+0.08
,则a= 。
14.某考察团对全国 10 大城市进行职工人均工资水平x(千元)与居民人均消费水平Y (千元)统计调查,
Y 与x具有相关关系,回归方程为 y^=0.66x+1.562 ,若某城市居民人均消费水平为7.675 千元,估计该城
市人均消费额占人均工资收入的百分比约为 。
50
15.某班主任对全班 名学生的积极性和对待班级工作的态度进行了调查,统计数据如下表所示:
积极参加班级工作 不太积极参加班级工作 合计
学习积极性高 18 7 25
学习积极性一
6 19 25
般
合计 24 26 50
则至少有 的把握认为学生的学习积极性与对待班级工作的态度有关。(请用百分数表示)注:独立性检验界值表
P(K2 ≥k ) 0.025 0.010 0.005 0.001
0
k 5.024 6.635 7.879 10.828
0
16.关于x与y,有如下数据有如下的两个模型:(1)
y^=6.5x+17.5
;(2)
y^=7x+17
。通过残差分析
R2 R2 Q Q
发现第(1)个线性模型比第(2)个拟合效果好,则 1 2, 1 2。(本小题每空2.5
分)(用大于、小于号填空,R、 Q 是相关指数和残差平方和)
x 2 4 5 6 8
y 30 40 60 50 70
四、解答题:本题共6小题,共70分。应写出文字说明、证明过程或演算步骤。
17.(本小题满分10分)在对人们的休闲方式的一次调查中,共调查了124人,其中女性 70 人,男性 54
人。女性中有 43 人主要的休闲方式是看电视,另外 27 人主要的休闲方式是运动;男性中有21人主要的休
33
闲方式是看电视,另外 人主要的休闲方式是运动。
(1)根据以上数据建立一个2×2的列联表;
(2)判断性别与休闲方式是否有关系?
18.(本小题满分12分)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储
蓄存款(年底余额),如下表:
年份x 2013 2014 2015 2016 2017
储蓄存款y(千亿
5 6 7 8 10
元)
为了研究计算的方便,工作人员将上表的数据进行了处理,t=x−2012
,
z=y−5
得到下表:
时间代号t 1 2 3 4 5
z 0 1 2 3 5
(1)求z关于t的线性回归方程;
(2)通过(1)中的方程,求出y关于x的回归方程;
2022
(3)用所求回归方程预测到 年年底,该地储蓄存款额可达多少?
n n
∑(x −x)(y −y) ∑x⋅y −n⋅x⋅y
i i i i
b^=i=1 =i=1
n n
(附:对于线性回归方程
y^=b^ x+a^
,其中
∑(x
i
−x)2 ∑x
i
2−n⋅x2
,
a^=y−b^ x
。)
i=1 i=119.(本小题满分12分) 2021 年1月4日上午,辽宁省省委、省政府在沈阳召开辽宁省全面展开新旧动能
转换重大工程动员大会,会议动员各方力量,迅速全面展开新旧动能转换重大工程。某企业响应号召,对
200
现有设备进行改造,为了分析设备改造前后的效果,现从设备改造前后生产的大量产品中各抽取了 件
[20,40)
产品作为样本,检测一项质量指标值,若该项质量指标值落在 内的产品视为合格品,否则为不合格
品。如图是设备改造前的样本的频率分布直方图,如表是设备改造后的样本的频数分布表。
设备改造后样本的频数分布表
质量指标
[15,20) [20,25) [25,30) [30,35) [35,40) [40,45]
值
频数 4 36 96 28 32 4
(1)完成下面的2×2列联表,并判断是否有 99% 的把握认为该企业生产的这种产品的质量指标值与设备
改造有关;
设备改造
设备改造后 合计
前
合格品
不合格品
合计
(2)根据上图和上表提供的数据,试从产品合格率的角度对改造前后设备的优劣进行比较;
180 100
(3)根据市场调查,设备改造后,每生产一件合格品企业可获利 元,一件不合格品亏损 元,用频
1000
率估计概率,则生产 件产品企业大约能获利多少元?
附:
P(K2 ≥k ) 0.150 0.100 0.050 0.025 0.010
0
k 2.072 2.706 3.841 5.024 6.635
0
n(ad−bc) 2
K2
=
(a+b)(a+c)(c+d)(b+d)AQI
20.(本小题满分12分)《环境空气质量指标( )技术规定(试行)》如表1:
AQI
表1:空气质量指标 分组表
AQI 0~50 51~100 101~150 150~200 201~300 ¿300
级别 Ⅰ级 Ⅱ级 Ⅲ级 Ⅳ级 Ⅴ级 Ⅵ级
类别 优 良 轻度污染 中度污染 重度污染 严重污染
表2是某市某气象观测点在某连续4天里的记录, AQI 指数M与当天的空气水平可见度 y^ ( km )的
情况。
AQI
表2:空气质量指标 分组表
AQI 900 700 300 100
指数
空气水平可见度(千
0.5 3.5 6.5 9.5
米)
表3是某气象观测点记录的该市 2018 年 10 月1日至 10 月 30 日 AQI 指数频数统计表。
表3:
AQI
指数
[0,200] (201,400] (401,600] (601,800] (801,1000]
频数 3 6 12 6 3
M
x=
100 y^
(1)设 ,根据表2的数据,求出 关于x的回归方程;
AQI 200 200
(2)小李在该市开了一家小洗车店,经小李统计: 指数不高于 时,洗车店平均每天亏损约
AQI 200 400 400 AQI 400
元; 指数在 至 时,洗车店平均每天收入约 元; 指数大于 时,洗车店平均每天收
入约 700 元。计算小李的洗车店在当年1月份每天收入的数学期望。
n
∑x⋅y −n⋅x⋅y
i i
b^=i=1
n
(用最小二乘法求线性回归方程系数公式
∑x
i
2−n⋅(x)2
,
a^=y−b^ x
)
i=121.(本小题满分12分)某高中数学建模兴趣小组的同学为了研究所在地区男高中生的身高与体重的关系,
1000
从若干个高中男学生中抽取了 个样本,得到如下数据。
数据一:身高在
[170,180)
(单位:cm)的体重频数统计:
体重(
kg )[50,55) [55,60) [60,65) [65,70) [70,75) [75,80) [80,85) [85,90)
人数 20 60 100 100 80 20 10 10
数据二:身高所在的区间含样本的个数及部分数据:
身高x(cm) [140,150) [150,160) [160,170) [170,180) [180,190)
平均体重y( kg ) 45 53.6 60 75
(1)依据数据一将下面男高中生身高在
[170,180)
(单位:cm)体重的频率分布直方图补充完整,并利用
频率分布直方图估计身高在
[170,180)
(单位:cm)的中学生的平均体重;(保留小数点后一位)
(2)依据数据一、二,计算身高(取值为区间中点)和体重的相关系数约为0.99
,能否用线性回归直线
来刻画中学生身高与体重的相关关系,请说明理由;若能,求出该回归直线方程;
(3)说明残差平方和或相关指数R2
与线性回归模型拟合效果之间关系。(只需写出结论,不需要计算)
n n
∑(x −¯x)(y −¯y) ∑x⋅y −n⋅¯x⋅¯y
i i i i
b^= i=1 = i=1
n n
参考公式:
∑(x
i
−¯x)2 ∑x
i
2−n⋅¯x2
,
a^=¯y−b^ ⋅¯x
。
i=1 i=1
参考数据:(1)
145×45+155×53.6+165×60+185×75=38608
;
(2)
1452 +1552 +1652 +1752 +1852 −5×1652 =1000
;
(3)
663×175=116025
,
664×175=116200
,
665×175=116375
;
(4)
728×165=12012022.(本小题满分12分)噪声污染已经成为影响人们身体健康和生活质量的严重问题,为了了解强度D
(单位:分贝)与声音能量I (单位:
W/cm2
)之间的关系,将测量得到的声音强度
D
i和声音能量
I
i(
i=1、2、…、 10 )数据作了初步处理,得到下面的散点图及一些统计量的值。
10 10 10 10
I D W ∑(I −I)2 ∑(W −W)2 ∑(I −I)(D−D) ∑(W −W)(D−D)
i i i i i i
i=1 i=1 i=1 i=1
1.04×10−11 45.7 −11.5 1.56×10−21 0.51 6.88×10−11 5.1
10
1
W= ∑W
W =lgI 10 i
表中 i i, i=1 。
(1)根据表中数据,求声音强度D关于声音能量I 的回归方程
D^ =a^+b^ ⋅lgI
;
(2)当声音强度大于 60 分贝时属于噪音,会产生噪声污染,城市中某点P共受到两个声源的影响,这两
1 4
+
=1010
I I I I I I
个声源的声音能量分别是 1和 2,且 1 2 。已知点P的声音能量等于声音能量 1与 2之和,请根
据(1)中的回归方程,判断P点是否受到噪声污染的干扰,并说明理由。
(u ,v ) (u ,v ) (u ,v ) ν^=α^+β^ u
附:对于一组数据 1 1 , 2 2 ,……, n n ,其回归直线 的斜率和截距的最小二乘
n
∑(u−u)(v−v)
i i
β^=i=1
n
估计分别为: ∑(u i −u)2 , α^=v−β^ ⋅u 。
i=1