文档内容
第十章 统计与成对数据的统计分析章末检测
(考试时间:120分钟 试卷满分:150分)
注意事项:
1.答卷前,考生务必将自己的姓名、准考证号等填写在答题卡和试卷指定位置上。
2.回答选择题时,选出每小题答案后,用铅笔把答题卡上对应题目的答案标号涂黑。如
需改动,用橡皮擦干净后,再选涂其他答案标号。回答非选择题时,将答案写在答题卡上。写
在本试卷上无效。
3.考试结束后,将本试卷和答题卡一并交回。
第Ⅰ卷
一、单项选择题:本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题
目要求.
1.某班共有45名学生,其中女生25名,为了解学生的身体状况,现采用分层抽样的方法进行调查,若样
本中有5名女生.则样本中男生人数为( )
A.4 B.5 C.6 D.9
【答案】A
【详解】设样本中男生人数为x,由题意可得 ,解得 故选:A
2.2020年,面对新冠肺炎疫情的严重冲击,在以习近平同志为核心的党中央坚强领导下,我国能源领域
深入贯彻“四个革命、一个合作”能源安全新战略,全面落实中央“六保”工作部署,战疫情促生产、增供
应保安全,能源生产稳中有增,进口较快增长,能源供应能力和水平不断巩固提升,为统筹推进疫情防控
和经济社会发展提供了有力保障.下图是2020年1~12月分品种能源生产当月同比增长率情况变化图.下列说
法错误的是( )
A.4~7月,原煤及天然气当月同比增长率呈下降趋势B.9~12月,原煤及天然气当月同比增长率总体呈上升趋势
C.7月份品种能源生产当月同比增长率最高的是原油加工量同比增长率
D.2020年分品种能源生产当月同比增长率波动最小的是发电量同比增长率
【答案】D
【分析】观察题中所给的图,对选项逐个分析,得到结果.
【详解】观察题中所给的折线图,可知:
4~7月,原煤及天然气当月同比增长率是下降的,呈下降趋势,所以A项正确;
9~12月,虽然天然气11月比10月偏低,但总体趋势仍为上升的,所以原煤及天然气当月同比增长率总体
呈上升趋势,所以B正确;
图中7月份,只有原煤加工上升,其他品种能源均比6月份低,所以C项正确;
由图易知,相比发电量,原油的曲线波动幅度更小,所以D项错误;
故选:D.
【点睛】关键点点睛:该题考查的是有关根据折线图,对相应量进行分析的问题,在解题的过程中,注意
正确理解折线图的意义是解题的关键.
3.按从小到大顺序排列的两组数据:甲组:27,31,37,m,42,49;乙组:24,n,33,44,48,52,
若这两组数据的第30百分位数、第50百分位数都分别对应相等,则 ( )
A.60 B.65 C.70 D.71
【答案】D
【分析】利用百分位数的定义即可得解.
【详解】因为甲组:27,31,37,m,42,49;乙组:24,n,33,44,48,52,
由 ,得第30百分位数是第2个数据,故 ,
由 ,得第50百分位数是第3与4个数据平均值 ,解得 .
所以 .
故选:D.
4.相关变量的样本数据如下表,
x 1 2 3 4 5 6 7
y 2.9 3.3 3.6 4.4 4.8 a 5.9
经回归分析可得y与x线性相关,并由最小二乘法求得回归直线方程为 ,下列说法正确的是
( )A.x增加1时,y一定增加2.3 B.变量x与y负相关
C.当y为6.3时,x一定是8 D.a=5.2
【答案】D
【分析】根据回归直线方程的几何意义判断A、B错误;令 求解判断C,计算 并代入回归直线
方程中,求得a的值,判断D正确.
【详解】根据回归直线方程 知,x增加1时,估计y增加 ,故A错误;
由 知, ,故变量x与y正相关,故B错误;
时, ,解得 ,估计 的值应为8,故C错误;
又 , ,
代入回归直线方程中,则 ,解得 ,故D正确.
故选:D
5.已知甲乙两名同学本学期5次数学测试成绩如下表,
7 8
甲 76 78 88
6 7
7 8
乙 79 82 87
7 5
则根据表中数据下列说法正确的是( )
A.甲比乙平均成绩高 B.甲成绩的极差比乙成绩的极差大
C.甲比乙成绩的中位数大 D.甲比乙成绩更稳定
【答案】B
【分析】由表格数据计算平均数、极差、中位数、方差,比较大小即可得答案.
【详解】甲平均成绩 ,乙平均成绩 ,故A错误;
甲的极差为 ,乙的极差为 ,B正确;
甲的中位数为 ,乙的中位数为 ,C错误;
甲的方差为 ,乙的方差为 ,故乙成绩比甲稳定,D错误.
故选:B6.杂交水稻之父袁隆平,推进粮食安全,消除贫困,造福民生做出杰出贡献,他在杂交水稻育种的某试
验中,第1个周期到第5个周期育种频数如下
周期数(x) 1 2 3 4 5
1
频数(y) 2 36 93 142
7
由表格可得 关于 的二次回归方程为 ,则此回归模型第2周期的残差(实际值与预报值之差)
为( )
A.0 B.1 C.4 D.5
【答案】B
【分析】令 则回归方程为 ,符合线性回归,计算中心点代入方程求得 ,继而得到回归方
程,算出预估值,即可求出残差.
【详解】令 则回归方程为 ,符合线性回归,
周期数的平均数 ,
频数的平均数 ,
则中心点为 ,代入 ,
可得 ,则 ,
所以 ,
当 时 的预估值为 ,
则第2周期的残差为 ,
故选:B.
7.为了加深师生对党史的了解,激发广大师生知史爱党、知史爱国的热情,某校举办了“学党史、育文
化”暨“喜迎党的二十大”党史知识竞赛,并将1000名师生的竞赛成绩(满分100分,成绩取整数)整理
成如图所示的频率分布直方图,则下列说法错误的为( )
A.a的值为0.005B.估计这组数据的众数为75
C.估计这组数据的第85百分位数为86
D.估计成绩低于60分的有25人
【答案】D
【分析】对A:根据频率之和为1,结合图表数据,计算即可;
对B:找出面积最大的小长方形对应的区间,求得众数即可;
对C:根据百分位数定义,结合数据求解即可;
对D:求得成绩低于60分的频率,结合总人数计算即可.
【详解】对A: ,
即 , ,故A正确;
对B:由面积最大的小长方形可知,估计这组数据的众数为75,故B正确;
对C:前4组频率之和为 ,
前5组频率之和为 ,
设这组数据的第85百分位数为 ,
则 , ,故C正确;
对D:成绩低于60分的频率为 ,
故估计成绩低于60分的有 人,D错误.
故选:D
8.为了学习、宣传和践行党的二十大精神,某班组织全班学生开展了以“学党史、知国情、圆梦想”为
主题的党史暨时政知识竞赛活动.已知该班男生 人,女生 人,根据统计分析,男生组成绩和女生组
成绩的方差分别为 .记该班成绩的方差为 ,则下列判断正确的是( )
A. B. C. D.
【答案】D
【分析】由方差公式推出 , ,可得 ,,再用推导公式求班级的方差即可.
【详解】记男生组成绩和女生组成绩的平均分分别为 ,则
,
,
同理 ,
, , ,
,
故选:D.
二、多项选择题:本题共4小题,每小题5分,共20分.在每小题给出的选项中,有多项符合题目要求.全
部选对的得5分,部分选对的得2分,有选错的得0分.
9.某商店的某款商品近5个月的月销售量 (单位:千瓶)如下表:
第 个月 1 2 3 4 5
月销售量 2.5 3.2 4 4.8 5.5
若变量 和 之间具有线性相关关系,用最小二乘法建立的经验回归方程为 ,则下列说法正确
的是( )
A.点 一定在经验回归直线 上
B.
C.相关系数D.预计该款商品第6个月的销售量为7800瓶
【答案】AB
【分析】对于A,根据表中的数据可求出样本中心点进行判断,对于B,将样本中心点代入回归方程可求
出 判断,对于C,由 进行判断,对于D,将 代入回归方程求解判断.
【详解】对于A, ,
所以样本点中心 一定在经验回归直线 上,所以A正确,
对于B,因为样本点中心 一定在经验回归直线 上,所以 ,解得 ,
所以B正确,
对于C,因为 ,所以变量 与 成正相关,所以相关系数 ,所以C错误,
对于D,当 时, ,预计该款商品第6个月的销售量为6280瓶,所以D错误,
故选:AB
10.一组数据 , ,…, 的平均数为6,方差为1,则关于新数据 , ,…, ,下
列说法正确的是( )
A.这组新数据的平均数为6 B.这组新数据的平均数为9
C.这组新数据的方差为1 D.这组新数据的方差为4
【答案】BD
【分析】用平均数和方差求解公式进行求解.
【详解】由题意得: , ,则
,
所以这组新数据的
平均数为9,方差为4.
故选:BD
11.某保险公司为客户定制了5个险种:甲,一年期短险;乙,两全保险;丙,理财类保险;丁,定期寿险:戊,重大疾病保险,各种保险按相关约定进行参保与理赔.该保险公司对5个险种参保客户进行抽样
调查,得出如下的统计图例:
用该样本估计总体,以下四个选项正确的是( )
A.54周岁以上参保人数最少
B.18~29周岁人群参保总费用最少
C.丁险种更受参保人青睐
D.30周岁以上的人群约占参保人群20%
【答案】AC
【分析】A选项,根据扇形统计图可得A正确;B选项,从扇形统计图和折线统计图计算出54周岁以上人
群参保总费用比18~29周岁人群参保总费用低,B错误;C选项,从条形统计图可得C正确;D选项,从
扇形统计图可得到D错误.
【详解】设抽查的5个险种参保客户的总人数为 ,
A选项,从扇形图可得到54周岁以上参保人数占比为 ,人数最少,A正确;
B选项,18~29周岁人群人均参保费用高于3500元,故参保总费用高于 ,
54周岁以上人群人均参保费用为6000元,故参保总费用为 ,
由于 ,故18~29周岁人群参保总费用不是最少的,B错误;
C选项,从条形统计图可看出丁险种所占比例为 ,比其他险种均高,故更受参保人青睐,C正确;
D选项,30周岁以上的人群约占参保人群为 ,D错误.
故选:AC
12.已知互不相同的20个样本数据,若去掉其中最大和最小的数据,设剩下的18个样本数据的方差为 ,平均数 :去掉的两个数据的方差为 ,平均数 ;原样本数据的方差为 ,平均数 ,若 ,则
( )
A.剩下的18个样本数据与原样本数据的中位数不变
B.
C.剩下18个数据的 分位数大于原样本数据的 分位数
D.
【答案】ABD
【分析】设20个样本数据从小到大排列分别为 ,再根据中位数、平均数、第22百分位数与
方差的定义与公式推导即可.
【详解】设20个样本数据从小到大排列分别为 ,则剩下的18个样本数据为 ,
对于A:原样本数据的中位数为 ,剩下的18个样本数据的中位数为 ,A正确;
对于B,依题意, , , ,
由 ,得 ,即 ,
于是 ,因此 ,即 ,B正确;
对于C,因为 ,则剩下18个数据的 分位数为 ,
又 ,则原样本数据的 分位数为 ,C错误;
对于D,因为 ,则 , ,
,
于是 , ,
因此 ,即 ,D正确.故选:ABD
第Ⅱ卷
三、填空题:本题共4小题,每小题5分,共20分
13.已知x与y之间的一组数据:
x 0 1 2 3
y m 3 5.5 7
已知关于y与x的线性回归方程为 ,则m的值为 .
【答案】
【解析】求出 ,代入回归方程解出 ,进而解出 的值.
【详解】由表格中的数据可得
由于回归直线过样本的中心点 ,所以
所以 ,解得
故答案为:
14.某学习小组共有20人,在一次数学测试中,得100分的有2人,得95分的有4人,得90分的有5人,
得85分的有3人,得80分的有5人,得75分的有1人,则这个学习小组成员该次数学测试成绩的第70百
分位数是 .
【答案】
【分析】将数据从小到大排列,结合百分位数的计算方法,即可求解.
【详解】根据题意,将20个数据从小到大排列:其中75分1个,80分5个,85分3个,90分5个,95分
4个,100分2个,
由 ,所以 百分位数是第14和15个数据的平均数,
所以 百分位数为 .
故答案为: .
15.某企业三月中旬生产A、B、C三种产品共3000件,根据分层抽样的结果,企业统计员作了如下统计
表格.产品类别 A B C
产品数量(件) 1300
样本容量(件) 130
由于不小心,表格中A、C产品的有关数据已被污染看不清楚,统计员记得A产品的样本容量比C产品的
样本容量多10,根据以上信息,可得C产品的数量是 .
【答案】800
【详解】设C产品的数量为x件,则A产品的数量为1700-x件,由
,各得C产品的数量为800件.
16.已知6个正整数,它们的平均数是5,中位数是4,唯一的众数是3,则这6个数的方差的最大值为
.
【答案】
【分析】设这6个数为 ,根据题意,分析可得 ,代入方差公式,计算即可得答
案.
【详解】因为6个正整数,它们的平均数是5,中位数是4,唯一的众数是3,
要使这个6个数方差最大,则数据波动强,即极差最大,
所以最小值 ,
若6个数中有3个3,则设数据为 ,不满足中位数是4,
则数据中只有2个3,所以设这6个数为 ,且 ,
又仅有一个众数3,所以 ,且 ,
所以 时,c最大,方差最大,此时 ,
所以方差为 .
故答案为:
四、解答题:本小题共6小题,共70分,其中第17题10分,18~22题12分。解答应写出文字说明、证明过程或演算步骤.
17.某大型科学竞技真人秀节目挑选选手的方式为:不但要对选手的空间感知、照相式记忆能力进行考核,
而且要让选手经过名校最权威的脑力测试,125分以上才有机会入围.某重点高校准备调查脑力测试成绩是
否与性别有关,在该高校随机抽取男、女学生各100名,然后对这200名学生进行脑力测试.规定:分数不
小于125分为“入围学生”,分数小于125分为“未入围学生”.已知男生未入围76人,女生入围20人.
(Ⅰ)根据题意,填写下面的 列联表,并根据列联表判断是否有95%以上的把握认为脑力测试后是否
为“入围学生”与性别有关;
入围人
性别 未入围人数 总计
数
男生
女生
总计
(Ⅱ)用分层抽样的方法从“入围学生”中随机抽取11名学生,求这11名学生中男、女生人数;若抽取
的女生的脑力测试分数各不相同(每个人的分数都是整数),分别求这11名学生中女生测试分数平均分的
最小值.
0.10 0.05 0.01 0.005
2.706 3.841 6.635 7.879
附: ,其中 .
【答案】(Ⅰ)列联表见解析,没有(Ⅱ)男生人数6人,女生人数5人,女生测试分数平均分的最小值
为127分
【分析】(Ⅰ)根据题意可得 列联表,计算出 ,根据临界值表可得答案;
(Ⅱ)根据抽样比计算可得男女生人数;根据抽取的女生的脑力测试分数各不相同(每个人的分数都是整
数),可知这5名学生的成绩分别为125,126,127,128,129时,女生测试分数平均分取最小值.
【详解】(Ⅰ)根据题意, 列联表如下:
性别 入围人数 未入围人数 总计
男生 24 76 100
女生 20 80 100总计 44 156 200
,
所以没有95%以上的把握认为脑力测试后是否为“入围学生”与性别有关.
(Ⅱ)这11名学生中,被抽到的男生的人数为 人,女生的人数为 人,
因为抽取的女生的脑力测试分数各不相同(每个人的分数都是整数),
所以这5名学生的成绩分别为125,126,127,128,129时,女生测试分数平均分取最小值,
最小值为 分.
【点睛】本题考查了完善列联表,考查了独立性检验,考查了分层抽样,属于基础题.
18.某地教育部门对某学校学生的阅读素养进行检测,在该校随机抽取了 名学生进行检测,实行百分制,
现将所得的成绩按照 分成6组,并根据所得数据作出了如下
所示的频数与频率的统计表和频率分布直方图.
分组 频数 频率
2510
合计 1
(1)求出表中 及图中 的值;
(2)(2)估计该校学生阅读素养的成绩中位数以及平均数.
【答案】(1) ;
(2)中位数是 ,平均数是68.5.
【分析】(1)根据样本总体和频数,频率的定义结合频率和为1计算得到答案.
(2)根据平均数和中位数的定义计算得到答案.
【详解】(1) ; ;
,解得 .
(2)设中位数为 ,则 ,解得 ;
平均数为:
.
19.市场监管部门对某线下某实体店2023年前两季度的月利润情况进行调查统计,得到的数据如下:
月份x 1 2 3 4 5 6
净利润y(万元) 1.0 1.4 1.7 2.0 2.2 2.4
(1)是否可以用线性回归模型拟合y与x的关系?请用相关系数r加以说明;(参考:若 时,则线性
相关程度较高, ,则线性相关程度一般,计算 时精确度为0.01)
(2)利用最小二乘法求出y关于x的回归方程;用样本估计总体,请预估第9月份的利润.
附:对于一组数据 ,其回归直线 的斜率, .相关系数 .
参考数据: , , , , , .
【答案】(1)可以,理由见解析
(2) ,3.32万元
【分析】(1)计算出相关数据,利用相关系数公式计算即可;
(2)根据线性回归方程公式计算即可.
【详解】(1)由条件则 ,
,
.
根据相关系数公式则
.
因此可以用线性回归模型拟合x与y的关系.
(2)根据(1)则变量x,y线性相关,设所求的线性回归方程为 .
根据回归方程的回归系数公式则
.
又因为 .从而可得变量x,y线性回归方程为
当 时,
因此预测9月份的利润为3.32万元.
20.某互联网公司为了确定下季度的前期广告投人计划,收集了近6个月广告投入量 (单位:万元)和
收益 (单位:万元)的数据如表:
月份 1 2 3 4 5 6
广告投入
2 4 6 8 10 12
量
收益 14.21 20.31 31.8 31.18 37.83 44.67
他们用两种模型① ,② 分别进行拟合,得到相应的回归方程并进行残差分析,得到如图
所示的残差图及一些统计量的值.
7 30 1464.24 364
(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型拟合?并说明理由;
(2)残差绝对值大于2的数据被认为是异常数据,需要剔除.
(i)剔除异常数据后求出(1)中所选模型的回归方程;
(ii)若广告投入量 时,(1)中所选模型收益的预报值是多少?
附:对于一组数据 ,其回归直线 的斜率和截距的最小二乘估计分别为:【答案】(1)选择模型①,理由见解析
(2)(i) ;(ii)62.04万元
【分析】(1)根据残差图的分布比较可得结论;
(2)(i)求出剔除异常数据后的平均数,即可求得 和 ,即得回归方程;(ii)将 代入回归直线
方程,即可得答案.
【详解】(1)选择模型①,因为模型①的残差点比较均匀地落在水平的带状区域中,
且模型①的带状区域比模型②的带状区域窄,
所以模型①的拟合精度高,回归方程的预报精度高.
(2)(i)剔除异常数据,即组号为3的数据,剩下数据的平均数为
;
,
.
.
∴所选模型的回归方程为 ;
(ⅱ)若广告投入量 时,该模型收益的预报值是 万元.
21.我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,
获得了某年100位居民每人的月均用水量(单位:吨),将数据按照 分成9组,制
成了如图的频率分布直方图.(1)求直方图中 的值;
(2)该市决定设置议价收费标准 ,用水量低于 的居民按照“民用价”收费,高于 的按照“商业价”收
费,为保障有90%居民能享受“民用价”,请设置该标准 .
(3)以每组数据中点值作为该组数据代表,分别是 .规定“最佳稳定值” 是这样一个量: 与各
组代表值的差的平方和最小.依此规定,请求出 .
【答案】(1)0.30
(2)
(3)2.25
【分析】(1)根据所有矩形面积和等于1,列方程可求出结果;
(2)根据百分位数的计算方法求解即可;
(3)设x与各数据的差的平方和为y,由题意可得 ,进而
结合二次函数的性质求解即可.
【详解】(1)由频率分布直方图知,月均用水量在 中的频率为0.08×0.5=0.04,
同理,在 , , , , , , , 中的频率分别为
0.08, ,0.20,0.26, ,0.06,0.04,0.02.
由 ,
解得 .
(2)由(1)知,前六组的总频率为 ,
前七组的总频率为 ,
所以 ,
所以根据百分位数的计算方法有: ,
解得 .
(3)设x与各数据的差的平方和为y,
则,
由二次函数的性质知,当 时, 取得最小值,
故 .
22.为传承和发扬淄博陶瓷,某陶瓷公司计划加大研发力度.为确定下一年度投资计划,需了解年研发资
金 (亿元)与年销售额 (亿元)的关系.该公司对历史数据进行对比分析,建立了两个函数模型:①
,② ,其中 , , , 均为常数, 为自然对数的底数.
现该公司收集了近12年的年研发资金 和年销售额 的数据, ,2, ,12,并对这些数据作了初步
处理,得到了散点图及一些统计量的值.令 , ,经计算得如下
数据:
20 66 770 200 460 4.20
3125000 21500 0.308 14
(1)设 和 的相关系数为 , 和 的相关系数为 ,请从相关系数的角度,选择一个拟合程度更
好的模型;
(2)根据(1)的选择及表中数据,建立 关于 的回归方程(计算过程中保留到0.001,最后结果精确到
0.01);(3)为进一步了解人们对新款式瓷器喜爱程度(分为“比较喜欢”和“不太喜欢”)是否跟年龄(分为“小
于30岁”和“不小于30岁”)有关,公司从该地区随机抽取600人进行调查,调查数据如下表:
不太喜
比较喜欢 合计
欢
年龄小于30岁 200 100 300
年龄不小于30岁 150 150 300
合计 350 250 600
根据小概率 的独立性检验,分析该地区对新款式瓷器喜爱程度是否与年龄有关.
附:①相关系数 ,回归直线 中斜率和截距的最小二乘估计公式分别为:
, ;
② , ;
0.15 0.1 0.05 0.025 0.01 0.001
2.072 2.706 3.841 5.024 6.635 10.828
③参考数据: .
【答案】(1)模型 的拟合程度更好
(2)
(3)该地区对新款式瓷器喜爱程度与年龄有关
【分析】(1)由相关系数求出两个系数,比较大小可得;
(2)先建立 关于 的线性回归方程,从而得出 关于 的回归方程;
(3)计算出 的值即可得到判断.【详解】(1) ,
,
则 ,因此从相关系数的角度,模型 的拟合程度更好
(2)先建立 关于 的线性回归方程.
由 ,得 ,即 .
由于 ,
所以 关于 的线性回归方程为 ,
所以 ,则
(3)零假设为 :对新款式瓷器喜爱程度与年龄无关
,
根据小概率 独立性检验,可推断 不成立,
即该地区对新款式瓷器喜爱程度与年龄有关.