文档内容
第九章 统计与成对数据的统计分析(测试)
时间:120分钟 分值:150分
第Ⅰ卷
一、选择题:本题共8小题,每小题5分,共40分。在每小题给出的四个选项中,只有一项是符合题目要
求的。
1.已知某地区中小学生人数和近视情况分别如图甲和图乙所示,为了了解该地区中小学生的近视形成原
因,用分层抽样的方法抽取 的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
A.100,10 B.100,20 C.200,10 D.200,20
【答案】D
【解析】依题意可得样本容量为 ,
其中高中生抽取 人,
因为样本中高中生的近视率为 ,所以抽取的高中生近视人数为 人;
故选:D
2.已知某设备的使用年限 (年)与年维护费用 (千元)的对应数据如下表:
2 4 5 6 8
3 9
由所给数据分析可知: 与 之间具有线性相关关系,且 关于 的经验回归方程为 ,则
( )
A. B. C. D.
【答案】B
【解析】由题意得 , ,
因为回归直线过样本中心点 ,所以 ,解得 .
故选:B.
3.一组数据按从小到大的顺序排列为1,4,4,x,7,8( ),若该组数据的中位数是众数的 倍,
则该组数据的60%分位数是( )
A.4 B.5 C.6 D.7
【答案】C【解析】由题意知,众数是4,则中位数为 ,则 ,
解得 ,又 ,则第60百分位数是6.
故选:C.
4.用模型 拟合一组数据组 ,其中 ,设 ,得变换后
的线性回归方程为 ,则 ( )
A. B. C.70 D.35
【答案】B
【解析】因为 ,
所以 ,则 ,
即 ,
即 ,所以 .
故选:B.
5.某机构对 名网络购物者 年度的消费情况进行统计,发现消费金额(单位:万元)都在
内,其频率分布直方图如图所示,则这 名购物者消费金额的平均数约为(同一组中的数据用
该组区间的中点值作代表)( )
A. (万元) B. (万元)
C. (万元) D. (万元)
【答案】B
【解析】由 ,得 ,
这 名购物者消费金额的平均数约为
(万元).
故选:B
6.以下四个命题,其中正确的个数有( )
①经验回归直线 必过样本中心点 ;②在经验回归方程 中,当变量x每增加一个单位时,变量 平均增加0.3个单位;
③由独立性检验可知,有99%的把握认为物理成绩与数学成绩有关,某人数学成绩优秀,则他有99%的可
能物理优秀;
④在一个 列联表中,由计算得 ,则有99.9%的把握确认这两个变量间有关系(其中
).
A.1个 B.4个 C.3个 D.2个
【答案】D
【解析】A选项,线性回归方程必过 ,故①正确;
B选项,当变量x每增加一个单位时,变量 平均减少0.3个单位,故②错误;
C选项,有99%的把握认为物理成绩与数学成绩有关,是指这种判断出错的概率为 ,并不指某人数学成
绩优秀,则他有99%的可能物理优秀,故③错误;
D选项,由独立性检验知识可知当 , 时,可认为99.9%的把握确认这两
个变量间有关系,故④正确.
故选:D
7.根据气象学上的标准,连续5天的日平均气温低于 即为入冬,将连续5天的日平均温度的记录数据
(记录数据都是自然数)作为一组样本,现有4组样本①、②、③、④,依次计算得到结果如下:
①平均数 ;
②平均数 且极差小于或等于3;
③平均数 且标准差 ;
④众数等于5且极差小于或等于4.
则4组样本中一定符合入冬指标的共有( )
A.1组 B.2组 C.3组 D.4组
【答案】B
【解析】①举反例: , , , , ,其平均数 .但不符合入冬指标;
②假设有数据大于或等于10,由极差小于或等于3可知,
则此组数据中的最小值为 ,此时数据的平均数必然大于7,
与 矛盾,故假设错误.则此组数据全部小于10. 符合入冬指标;
③举反例:1,1,1,1,11,平均数 ,且标准差 .但不符合入冬指标;
④在众数等于5且极差小于等于4时,则最大数不超过9.符合入冬指标.
故选:B.
8.设两个相关变量 和 分别满足 , , ,2,…,6,若相关变量 和 可拟合为非线性
回归方程 ,则当 时, 的估计值为( )
A.32 B.63 C.64 D.128【答案】C
【解析】令 ,则 ,
, ,
所以 , ,
所以 ,即 ,
所以当 时, .
故选:C.
二、选择题:本题共4小题,每小题5分,共20分。在每小题给出的选项中,有多项符合题目要求。全部
选对的得5分,部分选对的得2分,有选错的得0分。
9.在某区高三年级第一学期初举行的一次质量检测中,某学科共有2000人参加考试.为了解本次考试学生
的该学科成绩情况,从中抽取了 名学生的成绩(成绩均为正整数,满分为100分)进行统计,成绩均在
内,按照 , , , , 的分组作出频率分布直方图(如图所
示).已知成绩落在 内的人数为16,则下列结论正确的是( )
A.
B.估计全体学生该学科成绩的平均分为70.6分
C.若成绩低于60分定为不及格,估计全体学生中不及格的人数约为300人
D.若将该学科成绩由高到低排序,前 的学生该学科成绩为 等,则成绩为 分的学生该学科成
绩有可能是 等
【答案】BD
【解析】由频率分布直方图可得: , , , , 的频率依次为
.
对于A:因为 ,所以 ,
因为成绩落在 内的人数为16,所以 ,故A错误;对B:估计全体学生该学科成绩的平均分 分,故B正确;
对C:由选项A可得:成绩落在 的频率为 ,
所以估计全体学生中不及格的人数约为 ,故C错误;
对D:设该学科成绩为A等的最低分数为 ,
因为 , , 的频率依次为 ,
则 ,
可知 ,则 ,解得 ,
虽然 ,但 是估计值,同时学生成绩均为正整数,
所以成绩为 分的学生该学科成绩有可能是A等,D正确.
故选:BD.
10.某学校一同学研究温差 与本校当天新增感冒人数 (人)的关系,该同学记录了5天的数据:
x 5 6 8 9 12
1 2
y 20 28 35
7 5
经过拟合,发现基本符合经验回归方程 ,则( )
A.样本中心点为 B.
C. ,残差为 D.若去掉样本点 ,则样本的相关系数r增大
【答案】ABC
【解析】对于A项,因为 , ,
所以样本中心点为 ,故A项正确;
对于B项,由回归直线必过样本中心可得: 解得: ,故B项正确;
对于C项,由B项知, ,令 ,则 ,
所以残差为 ,故C项正确;
对于D项,由相关系数公式可知,去掉样本点 后,x与y的样本相关系数r不变,故D项错误.
故选:ABC.
11.若一组不完全相同的数据 , ,…, 的平均数为 ,极差为a,中位数为b,方差为 ,在这组
数据中加入一个数 后得到一组新数据 , , ,…, ,其平均数为 ,极差为 ,中位数为 ,方
差为 ,则下列判断一定正确的是( )
A. B. C. D.
【答案】AB【解析】 , , ,…, 中最大值和最小值不变,极差不变;
而 ,因此平均数不变,
如果原来是偶数个数,中位数是中间两个数的均值,现在变成奇数个数,
中位是中间的一个数,两个中位数可能不相等,中位数可能改变,
而方差为 , ,两者一定
不相同.
故选:AB.
12.小明在家独自用下表分析高三前5次月考中数学的班级排名y与考试次数x的相关性时,忘记了第二
次和第四次月考排名,但小明记得平均排名 ,于是分别用m=6和m=8得到了两条回归直线方程:
, ,对应的相关系数分别为 、 ,排名y对应的方差分别为 、 ,则下列结论正
确的是( )
x 1 2 3 4 5
y 10 m 6 n 2
(附: , )
A. B. C. D.
【答案】BD
【解析】当 时, ,解得 ,
则 ,
, ,
,
,所以 ,
得 ,
,
;
同理,当 时, , ,
所以 ,
故选:BD.
第Ⅱ卷
三、填空题:本题共4小题,每小题5分,共20分。
13.现从某学校450名同学中用随机数表法随机抽取30人参加一项活动.将这450名同学编号为001,
002,…,449,450,要求从下表第2行第5列的数字开始向右读,则第5个被抽到的编号为 .
16 22 77 94 39 49 54 43 54 82 17 37 93 23 78 87 35 20 96 43 84 26 34 91 64
84 42 17 53 31 57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76
63 01 63 78 59 16 95 55 67 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 79
【答案】447
【解析】根据随机数表的读取方法,依次抽取到的编号分别为:175,331,068,047,447,…,
故第5个被抽到的编号为447,
故答案为:447.
14.为调查某地区中学生每天睡眠时间,采用样本量比例分配的分层随机抽样,现抽取初中生800人,其
每天睡眠时间均值为9小时,方差为0.5,抽取高中生1200人,其每天睡眠时间均值为8小时,方差为1,
则估计该地区中学生每天睡眠时间的方差为 .
【答案】
【解析】该地区中学生每天睡眠时间的平均数为:
(小时),
该地区中学生每天睡眠时间的方差为:
.
故答案为:15.近年来,加强青少年体育锻炼,重视体质健康已经在社会形成高度共识.2021年10月,《中华人民共
和国体育法》在颁布20多年后迎来首次大修.教育部发布的2022年工作要点中提出,实施学校体育和体教
融合改革发展行动计划.为了考察某校各班参加两项以上体育项目锻炼小组的人数,在全校随机抽取五个班
级,把每个班级参加两项以上体育项目锻炼小组的人数作为样本数据.已知样本平均数为7,样本的标准差
为2,若样本数据各不相同,则样本数据的第80百分位数是 .
【答案】9
【解析】设5个数据分别为 .
由题意可得: .
由于5个数的平方和为20,则必为0+1+1+9+9=20.
由 解得: 或4;由 解得: 或8,故样本数据为4,6,7,8,10.
因为 ,所以样本数据的第80百分位数为 .
故答案为:9
16.某校团委对“学生性别和喜欢网络游戏是否有关”作了一次调查,其中被调查的男女生人数相同,男
生喜欢网络游戏的人数占男生人数的 ,女生喜欢网络游戏的人数占女生人数的 .若根据独立性检验认为
喜欢网络游戏和性别有关,且此推断犯错误的概率超过0.01但不超过0.05,则被调查的学生中男生可能有
人.(请将所有可能的结果都填在横线上)
附表: ,其中 .
0.050 0.010
3.841 6.635
【答案】45,50,55,60,65
【解析】设男生有x人,由题意可得 列联表如下,
喜欢 不喜欢 合计
男生 x
女生 x
合计
若认为喜欢网络游戏和性别有关,且该推断犯错误的概率超过0.01但不超过0.05,
则 .∵ ,
∴ ,解得 ,
又x为5的整数倍,∴被调查的学生中男生可能人数为45,50,55,60,65.
故答案为:45,50,55,60,65.
四、解答题:本题共6小题,共70分。解答应写出文字说明、证明过程或演算步棸。
17.(10分)
ChatGPT作为一个基于大型语言模型的聊天机器人,最近成为全球关注的焦点.ChatGPT是一个超强的
AI,它能像人类一样聊天交流,甚至能完成撰写邮件、文案、写论文、答辩、编程等任务.专家预言,随着
人工智能技术的发展,越来越多的职业可能会被ChatGPT或其他类似的人工智能工具所取代.某地区为了
了解ChatGPT的普及情况,统计了该地区从2023年1月至5月使用ChatGPT的用户人数 (万人),详见下
表:
X(月份) 1 2 3 4 5
Y(万人) 3.6 6.4 11.7 18.64 27.5
(1)根据表中数据信息及模型(1) 与模型(2) ,判断哪一个模型更适合描述变量 和 的变
化规律(无需说明理由),并求出 关于 的经验回归方程;
(2)为了进一步了解人们对适应人工智能所将带来的职业结构变化的自信程度(分为“基本适应”和“不适
应”)是否跟年龄有关,某部门从该地区随机抽取300人进行调查,调查数据如下表:
基本适
不适应 合计
应
年龄小于30岁 100 50 150
年龄不小于30岁 75 75 150
合计 175 125 300
根据小概率 的独立性检验,分析该地区对职业结构变化的自信程度是否与年龄有关.
附参考公式与数据: , ;
15 55 979 67.84 263.56 1120.240.15 0.1 0.05 0.025 0.01 0.001
2.072 2.706 3.841 5.024 6.635 10.828
【解析】(1)根据表格数据知:随月份变化,用户人数的增量在变大,则 更适合,
而 , ,则 ,
所以 ,故 .
(2)由 ,
所以小概率 的独立性检验,该地区对职业结构变化的自信程度与年龄有关.
18.(12分)
文明城市是反映城市整体文明水平的综合性荣誉称号,作为普通市民,既是文明城市的最大受益者,更是
文明城市的主要创造者.某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所
有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:
, ,…, 得到如图所示的频率分布直方图.
(1)求频率分布直方图中 的值;
(2)求样本成绩的第75百分位数;
(3)已知落在 的平均成绩是61,方差是7,落在 的平均成绩为70,方差是4,求两组成绩的
总平均数 和总方差 .
【解析】(1)利用每组小矩形的面积之和为1可得,
,
解得
(2)成绩落在 内的频率为 ,
落在 内的频率为 ,
设第75百分位数为 ,由 ,得 ,
故第75百分位数为84;
(3)由图可知,成绩在 的市民人数为 ,
成绩在 的市民人数为 ,
故 ;
由样本方差计算总体方差公式可得总方差为 .
19.(12分)
如图是我国2016年至2022年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1—7分别对应年份2016—2022.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2024年我国生活垃圾无害化处理量.
附注:参考数据: , , , .参考公式:相关系数
,回归方程 中斜率和截距最小二乘估计公式分别为 ,
.
【解析】(1) ,
,
因为 正向趋近
1,所以说明这对样本数据的线性相关程度很强;
(2)由(1)可知: ,, ,
,
,所以
当 时, ,
所以y关于t的回归方程为 ,预测2024年我国生活垃圾无害化处理量将约1.83亿吨.
20.(12分)
秋天的第一杯奶茶是一个网络词汇,最早出自四川达州一位当地民警之口,民警用“秋天的第一杯奶茶”
顺利救下一名女孩,由此而火爆全网.后来很多人开始在秋天里买一杯奶茶送给自己在意的人.某奶茶店主
记录了入秋后前7天每天售出的奶茶数量(单位:杯)
如下:
第三 第六
日期 第一天 第二天 第四天 第五天 第七天
天 天
日期代码
1 2 3 4 5 6 7
杯数 4 15 22 26 29 31 32
(1)请根据以上数据,绘制散点图,并根据散点图判断, 与 哪一个更适宜作为y关于x
的回归方程模型(给出判断即可,不必说明理由);
(2)建立y关于x的回归方程(结果保留1位小数),并根据建立的回归方程,试预测要到哪一天售出的奶
茶才能超过35杯?
(3)若每天售出至少25杯即可盈利,则从第一天至第七天中任选三天,记随机变量X表示盈利的天数,求
随机变量X的分布列.参考公式和数据:其中
回归直线方程 中,
22.7 1.2 759 235.1 13.2 8.2
【解析】(1)
根据散点图,知 更适宜作为 关于 的回归方程模型;
(2)令 ,则 ,
由已知数据得 ,
,
所以 ,
故 关于 的回归方程为 ,
进而由题意知,令 ,整理得 ,即 ,
故当 时,即到第9天才能超过35杯;
(3)由题意知,这7天中销售超过25杯的有4天,则随机变量 的可能取值为
, ,
, ,
则随机变量 的分布列为0 1 2 3
21.(12分)
黄河鲤是我国华北地区的主要淡水养殖品种之一,其鳞片金黄、体形梭长,尤以色泽鲜丽、肉质细嫩、气
味清香而著称.为研究黄河鲤早期生长发育的规律,丰富黄河鲤早期养殖经验,某院校研究小组以当地某
水产养殖基地的黄河鲤仔鱼为研究对象,从出卵开始持续观察20天,试验期间,每天固定时段从试验水体
中随机取出同批次9尾黄河鲤仔鱼测量体长,取其均值作为第 天的观测值 (单位: ),其中 ,
.根据以往的统计资料,该组数据 可以用Logistic曲线拟合模型 或Logistic
非线性回归模型 进行统计分析,其中a,b,u为参数.基于这两个模型,绘制得到如下的散点
图和残差图:
(1)你认为哪个模型的拟合效果更好?分别结合散点图和残差图进行说明:
(2)假定 ,且黄河鲤仔鱼的体长 与天数 具有很强的相关关系.现对数据进行初步处理,得到如下
统计量的值: , , , ,
, ,其中 , ,根据
(1)的判断结果及给定数据,求 关于 的经验回归方程,并预测第22天时仔鱼的体长(结果精确到小数
点后2位).
附:对于一组数据 , ,…, 其回归直线 的斜率和截距的最小二乘估计分别
为 , ;参考数据: .【解析】(1)Logistic非线性回归模型 拟合效果更好.
从散点图看,散点更均匀地分布在该模型拟合曲线附近;
从残差图看,该模型下的残差更均匀地集中在以残差为0的直线为对称轴的水平带状区域内.
(2)将 转化为 ,
则 ,所以 ,
所以 .
所以 关于 的经验回归方程为 .
当 时,体长 .
22.(12分)
足球是一项大众喜爱的运动.2022卡塔尔世界杯揭幕战将在2022年11月21日打响,决赛定于12月18日晚
进行,全程为期28天.
(1)为了解喜爱足球运动是否与性别有关,随机抽取了男性和女性各100名观众进行调查,得到2 2列联表
如下:
喜爱足球运
不喜爱足球运动 合计
动
男性 60 40 100
女性 20 80 100
合计 80 120 200
依据小概率值a=0.001的独立性检验,能否认为喜爱足球运动与性别有关?
(2)校足球队中的甲、乙、丙、丁四名球员将进行传球训练,第1次由甲将球传出,每次传球时,传球者都
等可能的将球传给另外三个人中的任何一人,如此不停地传下去,且假定每次传球都能被接到.记开始传
球的人为第1次触球者,第 次触球者是甲的概率记为 ,即 .
(i)求 (直接写出结果即可);
(ii)证明:数列 为等比数列,并判断第19次与第20次触球者是甲的概率的大小.
【解析】(1)假设 :喜爱足球运动与性别独立,即喜爱足球运动与性别无关.
根据列联表数据,经计算得根据小概率值 的独立性检验,我们推断 不成立,
即认为喜爱足球运动与性别有关,此推断犯错误的概率不超过0.001.
(2)(i)由题意得:第二次触球者为乙,丙,丁中的一个,第二次触球者传给包括甲的三人中的一人,
故传给甲的概率为 ,故 .
(ii)第 次触球者是甲的概率记为 ,则当 时,第 次触球者是甲的概率为 ,
第 次触球者不是甲的概率为 ,
则 ,
从而 ,
又 , 是以 为首项,公比为 的等比数列.
则 ,
∴ , ,
,故第19次触球者是甲的概率大