文档内容
第九章 统计与成对数据的统计分析(测试)
(考试时间:120分钟 试卷满分:150分)
注意事项:
1.答卷前,考生务必将自己的姓名、准考证号填写在答题卡上。
2.回答选择题时,选出每小题答案后,用铅笔把答题卡对应题目的答案标号涂黑。如需改动,用橡
皮擦干净后,再选涂其他答案标号。回答非选择题时,将答案写在答题卡上。写在本试卷上无效。
3.考试结束后,将本试卷和答题卡一并交回。
第一部分(选择题 共58分)
一、选择题:本题共8小题,每小题5分,共40分。在每小题给出的四个选项中,只有一项是符合题目要
求的。
1.已知一组数据: 的平均数为6,则该组数据的 分位数为( )
A.4.5 B.5 C.5.5 D.6
【答案】C
【解析】依题意, ,解得 ,
将数据从小到大排列可得: ,
又 ,则 分位数为 .
故选:C.
2.法国当地时间2024年7月26日晚,第三十三届夏季奥林匹克运动会在巴黎举行开幕式.“奥林匹克之
父”顾拜旦曾经说过,奥运会最重要的不是胜利,而是参与;对人生而言,重要的不是凯旋,而是拼搏.为
弘扬奥运精神,某学校组织高一年级学生进行奥运专题的答题活动.为了调查男生和女生对奥运会的关注程
度,在高一年级随机抽取10名男生和10名女生的竞赛成绩(满分100分),按从低到高的顺序排列,得
到下表中的样本数据:
男
82 85 86 87 88 90 90 92 94 96
生
女
82 84 85 87 87 87 88 88 90 92
生
则下列说法错误的是( )
A.男生样本数据的 分位数是86
B.男生样本数据的中位数小于男生样本数据的众数
C.女生样本数据中去掉一个最高分和一个最低分后所得数据的平均数不变
D.女生样本数据中去掉一个最高分和一个最低分后所得数据的方差不变
【答案】D
【解析】对于A: ,所以男生样本数据的 分位数是 ,故A正确;对于B:男生样本数据的中位数为 ,男生样本数据的众数为 ,故B正确;
对于C:女生样本数据的平均数为 ,
女生样本数据中去掉一个最高分和一个最低分后所得数据的平均数为 ,
故C正确;
对于D:女生样本数据中去掉一个最高分和一个最低分后所得数据的平均数不变,
但是极差变小,所以方差变小,故D错误.
故选:D
3.已知一组数据丢失了其中一个,另外六个数据分别是8,8,8,10,11,16,若这组数据的平均数、中
位数、众数依次成等差数列,则丢失数据的所有可能值的和为( )
A.12 B.20 C.25 D.27
【答案】D
【解析】这 个数据的众数是 ,设丢失的数据是 ,
则平均数为 ,
若 ,则中位数是 ,则 ,解得 .
若 ,则中位数是 ,平均数 ,
此时 不成等差数列,不符合题意.
若 ,则中位数是 ,则 ,解得 .
若 ,则中位数是 ,则 ,
不成等差数列,不符合题意.
若 ,则中位数是 ,则 ,解得 .
所以丢失数据的所有可能值的和为 .
故选:D
4.“绿水青山就是金山银山”的理念深入人心,人民群众的生态环境获得感、幸福感、安全感不断提升.
某校高一年级举行环保知识竞赛,共500人参加,若参赛学生成绩的第60百分位数是80分,则关于竞赛
成绩不小于80分的人数的说法正确的是( )
A.至少为300人 B.至少为200人
C.至多为300人 D.至多为200人【答案】D
【解析】由题意, ,因此竞赛成绩不小于80分的人数至多有 人,
故选:D.
5.为了解某校今年准备报考飞行员的学生的体重情况,对所得的体重数据(单位: )进行分组,区间
为 ,将其按从左到右的顺序分别编号为第一组,第二组,……,第
五组.画出频率分布直方图(如图所示),已知第一组,第二组和第三组的频率之比为 ,且第一组
的频数为6,则报考飞行员的学生人数是( )
A.48 B.5 C.54 D.60
【答案】A
【解析】由题前三组频率之和为 ,
又第一组、第二组和第三组的频率之比为 ,
所以第一组的频率为 ,又第一组的频数为 ,
所以报考飞行员的学生人数为 人.
故选:A.
6.已知数据 ,…, ( , )的平均数、中位数、方差均为4,则这组数据的极差为
( )
A.3 B.4 C.5 D.6
【答案】D
【解析】根据题意,不妨设 ,且 ,可得 ,
由平均数为4,得 ,即 ;
由方差为4,得 ,即 ;
联立 ,由 可解得 ;
根据极差定义可得这组数据的极差为 .故选:D
7.已知实数 ,则使 和 最小的实数 分别为 的( )
A.平均数;平均数 B.平均数;中位数
C.中位数;平均数 D.标准差;平均数
【答案】C
【解析】 ,表示2025个绝对值之和,
根据绝对值的几何意义知,绝对值的和的最小值表示距离和的最小值,
因为2025为奇数,所以 取 的中位数时, 有最小值;
为关于 的
一元二次函数,
故当 时, 有最小值,
即 为 的平均数时, 有最小值.
故选:C
8.某校积极开展“戏曲进校园”活动,为了解该校各班参加戏曲兴趣小组的人数,从全校随机抽取5个班
级,把每个班级参加该小组的人数作为样本数据.已知样本平均数为7,样本标准差为2,且样本数据互不
相等,则该样本数据的极差为( )
A.3 B.4 C.5 D.6
【答案】D
【解析】不妨设该五个班级的样本数据分别为 ,且 ,
则依题意有 ,
化简得
易知 ,
又易知五个数据减7的平方数为整数, 五个数的绝对值不超过4,
当 时, ,由数据为整数且均不相同得不成立,
当 时, ,由数据为整数且均不相同得该四个平方数只能为
,则 ,符合题意,此时极差为6;当 时, ,由数据为整数且均不相同得不成立;
综上,五组数据的极差为6.
故选:D
二、选择题:本题共3小题,每小题6分,共18分.在每小题给出的选项中,有多项符合题目要求.全部
选对的得6分,部分选对的得部分分,有选错的得0分.
9.某公司计划组织秋游活动,定制了一套文化衫,女职工需要不同尺码文化衫的频数如图.
根据图中数据,下列结论正确的是( )
A.文化衫尺码的众数为187 B.文化衫尺码的平均数为165
C.文化衫尺码的方差为28 D.文化衫尺码的中位数为165
【答案】BD
【解析】由题图知,众数为165,故A错误;
总数为 ,
平均数为 ,故B正确;
方差为 ,故C错误;
中位数为165,故D正确.
故选:BD
10.已知一组数据 的平均数为 ,另一组数据 的平均数为 .若数据
的平均数为 ,则 ( )
A.当 时, B.当 时,
C.当 时, D.当 时,
【答案】ACD
【解析】当 时, ,A正确;
当 时,取 则m与n不一定相等,B错误;当 时, ,C正确;
当 时, ,有 ,故
即 ,所以 ,D正确.
故选:ACD.
11.北京时间2024年8月12日凌晨,第33届法国巴黎奥运会闭幕式正式举行,中国体育代表团以出色的
表现再次证明了自己的实力,最终取得了40枚金牌、27枚银牌和24枚铜牌的最佳境外参赛成绩,也向世
界展示了中国体育的蓬勃发展和运动员们顽强拼搏的精神.某校社团为发扬奥运体育精神举办了竞技比赛,
此比赛共有5名同学参加,赛后经数据统计得到该5名同学在此次比赛中所得成绩的平均数为8,方差为
4,比赛成绩 ,且 ,则该5名同学中比赛成绩的最高分可能为( )
A.13 B.12 C.11 D.10
【答案】BC
【解析】设该5名同学在此次比赛中所得成绩分别为 , , , , ,
由题得 ,则 ,
且 ,
则 ,
不妨设 最大,
对于A选项,若 ,则 不成立,故A错误;
对于B选项,若 ,则 ,
则满足题意,例如5位同学的成绩可为7,7,7,7,12,故B正确;
对于C选项,若 ,则 ,
则满足题意,例如5位同学的成绩可为5,7,8,9,11,故C正确;
对于D选项,若 ,则 且 ,
则 ,
,
则可得 ,该方程组无正整数解,故D错误.
故选:BC.
第二部分(非选择题 共92分)三、填空题:本题共3小题,每小题5分,共15分。
12.现利用随机数表发从编号为 的20支水笔中随机选取6支,选取方法是从下列随机数表
第1行的第9个数字开始由左到右依次选取两个数字,则选出来的第6支水笔的编号为 .
【答案】18
【解析】依次选出的编号为:
则选出来的第6支水笔的编号为18,
故答案为: .
13.某公司对来应聘的人进行笔试,统计出200名应聘者的笔试成绩,整理得到下表:
组号 1 2 3 4 5 6
成绩分组
累积频率 0.05 0.15 a
注:第n组的累积频率指的是前n组的频率之和.
若公司计划150人进入面试,则估计参加面试的最低分数线为 .
【答案】65
【解析】由各组累积频率为1得, ,则 .
又由 知,面试的最低分数线为笔试成绩从低到高排列的第25百分位数 ,
由题表知,笔试成绩分别在 与 的累积频率分别为 ,
故 ,
解得 ,
从而可估计参加面试的最低分数线为65.
故答案为:65
14.已知一组统计数据 的平均数为 ,方差为 ,则函数 的最小值为 .
【答案】
【解析】由 ,得 ,
则 ,
故 ,当且仅当 时等号成立.所以函数 的最小值为 .
故答案为:
四、解答题:本题共5小题,共77分。解答应写出文字说明、证明过程或演算步棸。
15.(13分)
为了了解某中学学生的身高情况,随机对该校男生、女生的身高进行抽样调查,已知抽取的样本中,
男生、女生的人数相同,根据所得数据绘制成如图所示的统计图表.
组别 身高(cm)
A
B
C
D
E
根据图表中信息,回答下列问题:
(1)在样本中,男生身高的中位数落在________组(填组别序号),女生身高在B组的有________人;
(2)在样本中,身高在 之间的共有________人,身高人数最多的在________组(填组别序
号);
(3)已知该校共有男生500人,女生480人,请估计身高在 之间的学生约有多少人?
【解析】(1)∵在样本中,共有男生 (人),
∴中位数是第20和第21人的平均数,∴男生身高的中位数落在D组,
女生身高在B组的有 (人). (4分)
(2)在样本中,身高在 之间的共有 (人),身高人数最多的在C组.
(3)由于 (人), (9分)
故估计身高在 之间的学生约有541人. (13分)
16.(15分)
某公司为了了解顾客对其旗下产品的满意程度,随机抽取n名顾客进行满意度问卷调查,按所得评分(满分100分)从低到高将满意度分为四个等级:
调查评分 [40,50) [50,60) [60,70) [80,90) [90,100]
满意度等级 不满意 一般 良好 满意
并绘制如图所示的频率分布直方图.已知调查评分在 的顾客为80人.
(1)求n的值及频率分布直方图中t的值;
(2)若某段时间有10000名顾客购买该公司的产品,请估计这10000名顾客中对该公司产品满意度达到
“满意”的人数;
(3)该公司设定的预案是:以抽取的样本作为参考,若顾客满意度评分的均值低于80分,则需要对该
公司旗下产品进行调整,否则不需要调整、根据你所学的统计知识,判断该公司是否需要对旗下产品进行
调整,并说明理由.(每组数据以区间的中点值代替)
【解析】(1) , ,
所以 , ; (5分)
(2) ,
估计的人数为 人; (10分)
(3)由频率分布直方图得,顾客满意度评分的均值为:
,
由题意知不需要对该公司旗下产品进行调整. (15分)
17.(15分)
为进一步推动防范电信网络诈骗工作,预防和减少电信网络诈骗案件的发生,某市开展防骗知识大宣
传活动.举办了“网络防骗”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100
分,成绩均为不低于40分的整数)分成六段:[40,50),[50,60),…,[90,100]得到如图所示的频率分布
直方图.(1)求图中 的值,根据频率分布直方图计算样本成绩的平均数和下四分位数;
(2)已知若总体划分为2层,通过分层随机抽样,各层抽取的样本量、样本平均数和样本方差分别为:
, , ; , , ,记总的样本平均数为 ,样本方差为 .
证明: ;
(3)已知落在[50,60)的平均成绩是59,方差是7,落在[60,70)的平均成绩为65,方差是4,求两组样
本成绩的总平均数 和总方差 .
【解析】(1)由题意可知, ,
解得: ;
平均数为 ,
前2组的频率和为 ,
前3组的频率和为 ,
所以下四分位数在第3组,设为 ,
则 ,得
所以下四分位数为 ; (4分)
(2) ,
, ,
总体方差 ,
又 ,
,
,因为 ,
,
,
同理 ,
故 ,
; (12分)
(3) 的频率是 ,频数是 , 的频率是 ,频数
是
所以总体平均数 ,
总体方差 . (15分)
18.(17分)
机器模型预测常常用于只有正确与错误两种结果的问题.表1为根据模型预测结果与真实情况的差距的
情形表格,定义真正例率 ,假正例率 .概率阈值为自行设定的用于判别正(反)例的值,
若分类器(分类模型)对该样例的预测正例概率大于等于设定的概率阈值,则记分类器预测为正例,反之预
测为反例.
预测结果
总例
正例 反例
正
真正例 假反例
例
真实
情况
反
假正例 真反例
例
表1分类结果样例划分
利用这些指标绘制出的ROC曲线可衡量模型的评价效果:将各样例的预测正例概率与 从大到小排
序并依次作为概率阈值,分别计算相应概率阈值下的 与 .以 为横坐标, 为纵坐标,得到标记点.依
次连接各标记点得到的折线就是ROC曲线.图1为甲分类器对于8个样例的ROC曲线,表2为甲,乙分类
器对于相同8个样例的预测数据.甲分 乙分
样例数据
类器 类器
样 预测
例 样例 正 预测正
标 属性 例概 例概率
号 率
1 正例 0.23 0.34
2 正例 0.58 0.53
3 反例 0.15 0.13
4 反例 0.62 0.39
5 正例 0.47 0.87
6 反例 0.47 0.53
7 反例 0.33 0.11
8 正例 0.77 0.63
表2甲,乙分类器对于相同8个样例的预测数据
(1)当概率阈值为0.47时,求甲分类器的ROC曲线中的对应点;
(2)在图2中绘制乙分类器对应的ROC曲线(无需说明绘图过程),并直接写出甲,乙两分类器的ROC
曲线与 轴,直线 所围封闭图形的面积;
(3)按照上述思路,比较甲,乙两分类器的预测效果,并直接写出理想分类器的ROC曲线与 轴,直
线 所围封闭图形的面积为1的充要条件.
【解析】(1)概率阈值为0.47时,
真正例为 ,假反例为 ,假正例为 ,真反例为 ,
则 .所以横坐标 ,纵坐标 ,
故当概率阈值为0.47时,求甲分类器的ROC曲线中的对应点对应点为 . (5分)
(2)乙分类器对应的ROC曲线如下图所示.
由已知题意可得,甲、乙分类器的ROC曲线都经过 ,
作如下图所示的辅助线,每个小直角三角形的面积都等于 ,
大直角三角形的面积都等于 ,故所求面积为 .
所以,甲分类器的ROC曲线与 轴,直线 所围封闭图形的面积为 .
作如下图所示的辅助线,同理可得所求面积为 .
所以,乙分类器的ROC曲线与 轴,直线 所围封闭图形的面积为 . (12分)
(3)乙分类器的预测效果更好.由(2)分析可知,
乙分类器的ROC曲线与 轴,直线 所围封闭图形的面积较甲的大些,
故可认为乙分类器的预测效果更好.
充要条件:所有真实属性为正例的样例的预测正例概率的最小值大于所有真实属性为反例的样例的预
测正例概率的最大值. (17分)
19.(17分)
将2024表示成5个正整数 , , , , 之和,得到方程 ①,称五元
有序数组 为方程①的解,对于上述的五元有序数组 ,当 时,若
,则称 是 密集的一组解.
(1)方程①是否存在一组解 ,使得 等于同一常数?若存在,请求出该
常数;若不存在,请说明理由;
(2)方程①的解中共有多少组是 密集的?
(3)记 ,问 是否存在最小值?若存在,请求出 的最小值;若不存在,请说明理由.
【解析】(1)若 等于同一常数,
根据等差数列的定义可得 构成等差数列,所以 ,
解得 ,与 矛盾,
所以不存在一组解 ,使得 等于同一常数; (4分)
(2)因为 ,
依题意 时,即当 时, ,
所以 , ,
设有 个 ,则有 个 ,由 ,解得 ,
所以 , , , , 中有 个 , 个 ,
所以方程①的解共有 组. (10分)
(3)因为平均数 ,
又方差 ,即 ,
所以 ,因为 为常数,所以当方差 取最小值时 取最小值,
又当 时 ,即 ,方程无正整数解,故舍去;当 时,即 是 密集时, 取得最小值,
且 . (17分)