文档内容
第八章 成对数据的统计分析(B 卷提高卷)
考试时间:100分钟;
学校:___________姓名:___________班级:___________考号:___________
题号 一 二 三 四 总分
得分
评卷人 得 分
一.选择题(共8小题)
1.(2019•新疆模拟)对于给定的两个变量的统计数据,下列说法正确的是( )
A.都可以分析出两个变量的关系
B.都可以用一条直线近似地表示两者的关系
C.都可以作出散点图
D.都可以用确定的表达式表示两者的关系
2.(2020春•郑州期末)对两个变量 y和x进行回归分析,得到一组样本数据:(x ,y ),(x ,
1 1 2
y ),…,(x ,y ),则下列说法中不正确的是( )
2 n n
A.由样本数据得到的回归方程 x 必过样本中心( , )
B.残差平方和越小的模型,拟合的效果越好
C.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好
D.若变量y和x之间的相关系数为r=﹣0.9362,则变量y和x之间具有线性相关关系
3.(2020•2月份模拟)已知变量x,y的关系可以用模型y=cekx拟合,设z=lny,其变换后得到一组数据
下:
x 16 17 18 19
z 50 34 41 31
由上表可得线性回归方程 ,则c=( )
A.﹣4 B.e﹣4 C.109 D.e109
4.(2020•泉州模拟)如图是某地区2010年至2019年污染天数y(单位:天)与年份x的折线图.根据
2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据分别建立线性回归模型b x+a , ,则( )
1 1
A.b <b <b ,a <a <a B.b <b <b ,a <a <a
1 2 3 1 2 3 1 3 2 1 3 2
C.b <b <b ,a <a <a D.b <b <b ,a <a <a
2 3 1 1 3 2 2 3 1 3 2 1
5.(2020•金安区校级模拟)某研究员为研究某两个变量的相关性,随机抽取这两个变量样本数据如表:
x 0.04 1 4.84 10.24
i
y 1.1 2.1 2.3 3.3 4.2
i
若依据表中数据画出散点图,则样本点(x,y)(i=1,2,3,4,5)都在曲线 附近波动.
i i
但由于某种原因表中一个x值被污损,将方程 作为回归方程,则根据回归方程 和表
中数据可求得被污损数据为( )
A.﹣4.32 B.1.69 C.1.96 D.4.32
6.(2019•湛江二模)有人认为在机动车驾驶技术上,男性优于女性.这是真的么?某社会调查机构与交
警合作随机统计了经常开车的100名驾驶员最近三个月内是否有交通事故或交通违法事件发生,得到下
面的列联表:
男 女 合计
无 40 35 75
有 15 10 25
合计 55 45 100
附:K2P(K2≥k ) 0.50 0.40 0.25 0.15 0.10
0
k 0.455 0.708 1.323 2.072 2.706
0
据此表,可得( )
A.认为机动车驾驶技术与性别有关的可靠性不足50%
B.认为机动车驾驶技术与性别有关的可靠性超过50%
C.认为机动车驾驶技术与性别有关的可靠性不足60%
D.认为机动车驾驶技术与性别有关的可靠性超过60%
7.(2020•德州二模)某中学共有1000人,其中男生700人,女生300人,为了了解该校学生每周平均体
育锻炼时间的情况以及经常进行体育锻炼的学生是否与性别有关(经常进行体育锻炼是指:周平均体育
锻炼时间不少于4小时),现在用分层抽样的方法从中收集200位学生每周平均体育锻炼时间的样本数
据(单位:小时),其频率分布直方图如图.已知在样本数据中,有 40位女生的每周平均体育锻炼时
间超过4小时,根据独立性检验原理( )
附: ,其中n=a+b+c+d.
P(K2≥k ) 0.10 0.05 0.01 0.005
0
k 2.706 3.841 6.635 7.879
0
A.有95%的把握认为“该校学生每周平均体育锻炼时间与性别无关”
B.有90%的把握认为“该校学生每周平均体育锻炼时间与性别有关”
C.有90%的把握认为“该校学生每周平均体育锻炼时间与性别无关”
D.有95%的把握认为“该校学生每周平均体育锻炼时间与性别有关”
8.(2019秋•高安市校级期末)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有
关”作了一次调查,其中女生人数是男生人数的 ,男生追星的人数占男生人数的 ,女生追星的人数占女生人数的 .若有95%的把握认为是否追星和性别有关,则男生至少有( )
P 0.050 0.010 0.001
(K2≥k )
0
k 3.841 6.635 10.828
0
参考数据及公式如下:
K2
A.12 B.11 C.10 D.18
评卷人 得 分
二.多选题(共4小题)
9.(2020春•奎文区校级月考)已知由样本数据点集合{(x,y)|i=1,2,…,n},求得的回归直线方程
i i
为 1.5x+0.5, 3,现发现两个数据点(1.2,2.2)和(4.8,7.8)误差较大,去除后重新求得的回
归直线l的斜率为1.2,则( )
A.变量x与y具有正相关关系
B.去除后的回归方程为
C.去除后y的估计值增加速度变快
D.去除后,当x=4时,y的估计值为6.2
10.(2020•烟台模拟)某校计划在课外活动中新增攀岩项目,为了解学生喜欢攀岩和性别是否有关,面向
学生开展了一次随机调查,其中参加调查的男女生人数相同,并绘制如图等高条形图,则( )P(K2≥k ) 0.05 0.01
0
k 3.841 6.635
0
参考公式: ,n=a+b+c+d.
A.参与调查的学生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多
B.参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数多
C.若参与调查的男女生人数均为100人,则有99%的把握认为喜欢攀岩和性别有关
D.无论参与调查的男女生人数为多少,都有99%的把握认为喜欢攀岩和性别有关
11.(2020春•琼山区校级月考)已知由样本数据点集合{(x,y)|i=1,2,…,n},求得的回归直线方
i i
程为 1.5x+0.5,且 3,现发现两个数据点(1.2,2.2)和(4.8,7.8)误差较大,去除后重新求得
的回归直线l的斜率为1.2,则( )
A.变量x与y具有正相关关系
B.去除后的回归方程为 1.2x+1.4
C.去除后y的估计值增加速度变快
D.去除后相应于样本点(2,3.75)的残差为0.05
12.(2020•山东模拟)某机构在研究性别与是否爱好拳击运动的关系中,通过收集数据得到如下 2×2列联
表男 女 合计
爱好拳击 35 22 57
不爱好拳击 15 28 43
合计 50 50 100
经计算得K2 .之后又对被研究者的身高进行了统计,得
到男、女身高分别近似服从正态分布N(175,16)和N(164,9),则下列选项中正确的是( )
P(K2≥k) 0.50 0.05 0.010 0.005 0.001
k 0.455 3.841 6.635 7.897 10.828
A.在犯错误的概率不超过1%的前提下,认为“爱好拳击运动与性别有关”
B.在100个男生中,至少有一个人爱好打拳击
C.男生身高的平均数为175,男生身高的标准差为16
D.女生身高的平均数为164,女生身高的标准差为3
评卷人 得 分
三.填空题(共4小题)
13.(2020•蚌埠三模)某企业为了调查其产品在国内和国际市场的发展情况,随机抽取国内、国外各 100
名客户代表,了解他们对该企业产品的发展前景所持的态度,得到如图所示的等高条形图,则
(填“能”或“不能”)有99%以上的把握认为是否持乐观态度与国内外差异有关.
P(K2≥k) 0.050 0.010 0.005 0.001
k 3.841 6.635 7.879 10.828
附 .
14.(2020•宜昌模拟)某种品牌汽车的销量y(万辆)与投入宣传费用x(万元)之间具有线性相关关系,
样本数据如表所示:宣传费用x 3 4 5 6
销量y 2.5 3 4 4.5
经计算得回归直线方程 的斜率为0.7,若投入宣传费用为8万元,则该品牌汽车销量的预报值
为 万辆.
15.(2019秋•雅安期末)已知x,y的取值如表所示:从散点图分析,y与x线性相关,且 ,
则 .
x 0 1 3 4
y 2.2 4.3 4.8 6.7
16.(2019春•山西期中)已知一组数据的回归直线方程为 ,且 ,发现有两组数据(﹣
1.7,2.9),(﹣2.3,5.1)的误差较大,去掉这两组数据后,重新求得回归直线方程为 ,
则当x′=﹣3时, .
评卷人 得 分
四.解答题(共5小题)
17.(2020•南平三模)为了解高新产业园引进的甲公司前期的经营状况,市场研究人员对该公司 2019年
下半年连续六个月的利润进行了统计,统计数据列表如表:
月份 7月 8月 9月 10月 11月 12月
月份代码 1 2 3 4 5 6
月利润(万元) 110 130 160 150 200 210
(1)请用相关系数说明月利润y(单位:万元)与月份代码x之间的关系的强弱(结果保留两位小数),
求y关于x的线性回归方程,并预测该公司2020年1月份的利润;
(2)甲公司新研制了一款产品,需要采购一批新型材料,已知生产新型材料的乙企业对A、B两种型号
各100件新型材料进行模拟测试,统计两种新型材料使用寿命频数如表所示:
使用寿命 1个月 2个月 3个月 4个月 总计
材料类型
A 15 40 35 10 100B 10 30 40 20 100
现有采购成本分别为10万元/件和12万元/件的A、B两种型号的新型材料可供选择,按规定每种新型材
料最多可使用4个月,不同类型的新型材料损坏的时间各不相同,经甲公司测算,平均每件新型材料每
月可以带来5万元收入,不考虑除采购成本之外的其他成本,假设每件新型材料的使用寿命都是整数月,
且以频率估计每件新型材料使用寿命的概率,如果你是甲公司的负责人,以每件新型材料产生利润的期
望值为决策依据,你会选择采购哪款新型材料?
参考公式:相关系数 ;
回归直线方程为 ,其中 , .
参考数据: , , , .
18.(2020•三模拟)2020年春节前后,一场突如其来的新冠肺炎疫情在武汉出现并很快地传染开来(已
有证据表明2019年10月、11月国外已经存在新冠肺炎病毒),人传人,传播快,传播广,病亡率高,
对人类生命形成巨大危害.在中华人民共和国,在中共中央、国务院强有力的组织领导下,全国人民万
众一心抗击、防控新冠肺炎,疫情早在3月底已经得到了非常好的控制(累计病亡人数3869人).然
而,国外因国家体制、思想观念与中国的不同,防控不力,新冠肺炎疫情越来越严重.据美国约翰斯•
霍普金斯大学每日下午6时公布的统计数据,选取5月6日至5月10日的美国的新冠肺炎病亡人数如表
(其中t表示时间变量,日期“5月6日”、“5月7日”对应于“t=6“、“t=7“,依次下去):
日期 5月6日 5月7日 5月8日 5月9日 5月10日
新冠肺炎累计病亡人数 72271 75477 76938 78498 80037
新冠肺炎累计病亡人数近似值 72300 75500 76900 78500 80000
(对个位十位进行四舍五入)
时间t 6 7 8 9 10
由如表求得累计病亡人数与时间的相关系数r=0.98.
(1)在5月6日~10日,美国新冠肺炎病亡人数与时间(日期)是否呈现线性相关性?(2)选择对累计病亡人数四舍五入后个位、十位均为0的近似数,求每日累计病亡人数y随时间t变化
的线性回归方程;
(3)请估计美国5月11日新冠肺炎病亡累计人数,请初步预测病亡人数达到9万的日期
附:回归方程 中斜率和截距最小二乘估计公式分别为 , .
19.(2020•淄博模拟)新生儿某疾病要接种三次疫苗免疫(即 0、1、6月龄),假设每次接种之间互不影
响,每人每次接种成功的概率相等为了解新生儿该疾病疫苗接种剂量与接种成功之间的关系,现进行了
两种接种方案的临床试验:10μg/次剂量组与20μg/次剂量组,试验结果如表:
接种成功 接种不成功 总计(人)
10μg/次剂量组 900 100 1000
20μg/次剂量组 973 27 1000
总计(人) 1873 127 2000
(1)根据数据说明哪种方案接种效果好?并判断能否有99.9%的把握认为该疾病疫苗接种成功与两种
接种方案有关?
(2)以频率代替概率,若选用接种效果好的方案,参与该试验的1000人的成功人数比此剂量只接种一
次的成功人数平均提高多少人.
参考公式: ,其中n=a+b+c+d.
参考附表:
P(K2≥k ) 0.050 0.010 0.001
0
k 3.841 6.635 10.828
0
20.(2020•泉州二模)FEV (一秒用力呼气容积)是肺功能的一个重要指标.为了研究某地区 10~15岁
1
男孩群体的FEV 与身高的关系,现从该地区A、B、C三个社区10~15岁男孩中随机抽取600名进行
1
FEV 与身高数据的相关分析.
1(1)若A、B、C三个社区10~15岁男孩人数比例为1:3:2,按分层抽样进行抽取,请求出三个社区
应抽取的男孩人数.
(2)经过数据处理后,得到该地区10~15岁男孩身高x(cm)与FEV y(L)对应的10组数据(x,
1 i
y)(i=1,2,…,10),并作出如图散点图:
i
经计算得: , , 152, 2.464,(x,y)(i=1,2,…,
i i
10)的相关系数r≈0.987.
①请你利用所给公式与数据建立y关于x的线性回归方程,并估计身高160cm的男孩的FEV 的预报值
1
y .
0
②已知,若①中回归模型误差的标准差为s,则该地区身高160cm的男孩的FEV 的实际值落在(y ﹣
1 0
3s,y +3s)内的概率为99.74%.现已求得s=0.1,若该地区有两个身高160cm的12岁男孩M和N,分
0
别测得FEV 值为2.8L和2.3L,请结合概率统计知识对两个男孩的FEV 指标作出一个合理的推断与建
1 1
议.
附:样本(x,y)(i=1,2,…,n)的相关系数r ,
i i
其回归方程 的斜率和截距的最小二乘法估计分别为 , ,
.
21.(2020•香坊区校级二模)近期,湖北省武汉市等多个地区发生新型冠状病毒感染的肺炎疫情.为了尽快遏制住疫情,我国科研工作者坚守在科研一线,加班加点、争分夺秒与病毒抗争,夜以继日地进行研
究.新型冠状病毒的潜伏期检测是疫情控制的关键环节之一.在传染病学中,通常把从致病刺激物侵入
机体或对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏
期.钟南山院士带领的研究团队统计了武汉市某地区10000名医学观察者的相关信息,并通过咽拭子核
酸检测得到1000名确诊患者的信息如表格:
潜伏期(单位:天) [0,7] (7,14] (14,21] (21,28]
人数 800 190 8 2
(1)求这1000名确诊患者的潜伏期样本数据的平均数 (同一组数据用该组数据区间的中点值代表).
(2)新型冠状病毒的潜伏期受诸多因素影响,为了研究潜伏期与患者性别的关系,以潜伏期是否超过
7天为标准进行分层抽样,从上述1000名患者中抽取100名,得到如下列联表.请将列联表补充完整,
并根据列联表判断是否有90%的把握认为潜伏期与患者性别有关.
潜伏期≤7天 潜伏期>7天 总计
男性患者 12
女性患者 50
总计 100
(3)由于采样不当、标本保存不当、采用不同类型的标本以及使用不同厂家试剂都可能造成核酸检测
结果“假阴性”而出现漏诊.当核酸检测呈阴性时,需要进一步进行血清学IgM/IgG抗体检测,以弥补
核酸检测漏诊的缺点.现对10名核酸检测结果呈阴性的人员逐一地进行血清检测,记每个人检测出
IgM(IgM是近期感染的标志)呈阳性的概率为p(0<p<1)且相互独立,设至少检测了9个人才检测
出IgM呈阳性的概率为f(p),求f(p)取得最大值时相应的概率p.
附: ,其中n=a+b+c+d.
P(K2≥k ) 0.100 0.050 0.025 0.010 0.005 0.001
0
k 2.706 3.841 5.024 6.635 7.879 10.828
0