文档内容
考点巩固卷 21 统计与统计案例(七大考点)
考点1 简单随机抽样
1、抽样调查
(1)总体:统计中所考察对象的某一数值指标的全体构成的集合称为总体.
(2)个体:构成总体的每一个元素叫做个体.
(3)样本:从总体中抽取若干个个体进行考察,这若干个个体所构成的集合叫做总体
的一个样本,样本中个体的数目叫做样本容量.
2、简单随机抽样
(1)定义
一般地,设一个总体含有 个个体,从中逐个不放回地抽取 个个体作为样本(
),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.
(2)两种常用的简单随机抽样方法
①抽签法:一般地,抽签法就是把总体中的 个个体编号,把号码写在号签上,将号
签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取 次,就得到一个容
量为 的样本.
②随机数法:即利用随机数表、随机数骰子或计算机产生的随机数进行抽样.这里仅
介绍随机数表法.随机数表由数字 , , ,…, 组成,并且每个数字在表中各个位置
出现的机会都是一样的.
注意:为了保证所选数字的随机性,需在查看随机数表前就指出开始数字的横、纵位
置.
(3)抽签法与随机数法的适用情况
抽签法适用于总体中个体数较少的情况,随机数法适用于总体中个体数较多的情况,
但是当总体容量很大时,需要的样本容量也很大时,利用随机数法抽取样本仍不方便.
(4)简单随机抽样的特征
①有限性:简单随机抽样要求被抽取的样本的总体个数是有限的,便于通过样本对总
体进行分析.
②逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作.
③不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算.
④等可能性:简单单随机抽样中各个个体被抽到的机会都相等,从而保证了抽样方法
的公平.
只有四个特点都满足的抽样才是简单随机抽样.
3、分层抽样
(1)定义
一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地
抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.
分层抽样适用于已知总体是由差异明显的几部分组成的.
(2)分层抽样问题类型及解题思路
①求某层应抽个体数量:按该层所占总体的比例计算.
②已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比
例式进行计算.
试卷第2页,共3页③分层抽样的计算应根据抽样比构造方程求解,其中“抽样比==”
注意:分层抽样时,每层抽取的个体可以不一样多,但必须满足抽取 (
)个个体(其中 是层数, 是抽取的样本容量, 是第 层中个体的个数,
是总体容量).
1.电影《孤注一掷》的上映引发了电信诈骗问题的热议,也加大了各个社区反电信诈骗的
宣传力度.已知某社区共有居民480人,其中老年人200人,中年人200人,青少年80人,
若按年龄进行分层随机抽样,共抽取36人作为代表,则中年人比青少年多( )
A.6人 B.9人 C.12人 D.18人
【答案】B
【分析】根据题意可以计算出分层随机抽样的抽样比例,进而计算出中年人和青年人的人
数,进而可以知道中年人比青少年多多少个.
【详解】设中年人抽取 人,青少年抽取 人,由分层随机抽样可知 ,
解得 ,故中年人比青少年多9人.
故选:B.
2.已知 三种不同型号的产品数量之比依次为 ,现用分层抽样的方法抽取容量
为 的样本,若样本中 型号产品有 件,则 为( )
A.60 B.70 C.80 D.90
【答案】B
【分析】由条件确定 型号产品的抽样比,再根据频数,频率,样本容量的关系求 .
【详解】因为 三种不同型号的产品数量之比依次为 ,
且用分层抽样的方法抽取一个容量为 的样本,
所以 型号产品被抽的抽样比为: ,
因为 型号产品有 件,所以 ,解得 .
故选:B.
3.国内某优秀新能源电池制造企业在锂电池单位能量密度技术上取得了重大突破,该制造
企业内的某车间有两条生产线,分别生产高能量密度锂电池和低能量密度锂电池,总产量为400个锂电池.质检人员采用分层随机抽样的方法随机抽取了一个容量为80的样本进行
质量检测,已知样本中高能量密度锂电池有35个,则估计低能量密度锂电池的总产量为(
).
A.325个 B.300个 C.225个 D.175个
【答案】C
【分析】根据分层抽样计算规则计算可得.
【详解】根据分层随机抽样可知低能量密度锂电池的产量为 (个).
故选:C
4.用按比例分配的分层随机抽样方法,从某学校的600名男生和800名女生中选取14人
参与某项研学活动,则女生比男生多选取( )
A.8 人 B.6人 C.4人 D.2人
【答案】D
【分析】确定抽样比计算出男生和女生的人数即可得出结论.
【详解】依题意可知,分层抽样比为 ,
因此可得选取的男生为6人,女生为8人,
所以女生比男生多选取2人.
故选:D
5.已知甲组数据:1,3,5,7,9,11,乙组数据:2,4,8,16,根据不同组别,用分层
抽样的方法随机抽取一个容量为5的样本,则该样本的平均数不可能是( )
A.5 B.7 C.9 D.11
【答案】D
【分析】先根据分层抽样算出甲乙两组数据抽到的数据个数,列出表格,在结合平均数公
式计算得出答案;
【详解】根据分层抽样可知甲组数据抽取3个数据,乙组数据抽取2个数据,具体情况如
下表:
甲组抽
乙组抽样 平均数
样
3,5,7 2,8 5
5,7,11 4,8 7
试卷第4页,共3页5,7,9 8,16 9
平均数为11时,需5个样本数字之和为55,而样本之和最大值为 .
故选:D.
6.已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生
近视情况形成的原因,采用分层抽样的方法抽取部分学生进行调查,若抽取的小学生人数
为70,则抽取的高中生中近视人数为( )
A.10 B.20 C.25 D.40
【答案】B
【分析】根据题意,求得抽取的高中生人数是 人,再结合图乙可知高中生的近视率为
,即可求解.
【详解】由图甲可知抽取的高中生人数是 ,
又由图乙可知高中生的近视率为 ,所以抽取的高中生中近视人数为 人.
故选:B.
7.为了检查某超市货架上的饮料是否含有塑化剂,要从编号依次为1到100的塑料瓶装饮
料中抽取5瓶进行检验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5瓶
饮料的编号可能是( )
A.5,15,25,35,45 B.10,25,40,55,70
C.10,20,30,40,50 D.10,30,50,70,90
【答案】D
【分析】求出分段间隔,然后验证每个选项中样本编号的间隔即可得出结论.
【详解】利用系统抽样,把编号分为5段,每段20个,每段抽取1个,号码间隔为20.
选项A中样本间隔为10,选项B中样本间隔为15,选项C中样本间隔为10,
选项D中样本间隔为20.
故选:D8.从一个含有 个个体的总体中抽取一容量为 的样本,当选取抽签法、随机数法和分层
随机抽样三种不同方法时,总体中每个个体被抽中的概率分别为 ,三者关系可能
是( )
A. B. C. D.
【答案】B
【分析】根据抽样的概念,每个个体被抽中的概率是均等的,进而即可选择答案.
【详解】因为在抽签法抽样、随机数法抽样和分层随机抽样中,每个个体被抽中的概率均
为 ,
所以 .
故选:B.
9.下列说法中正确的个数有( )
对具有线性相关关系的变量 , ,其回归方程为 ,若样本点的中心为
①
,则实数 的值是 ;
某校共有学生1003人,用简单随机抽样的方法先剔除3人,再按简单随机抽样的方法抽
②
取为20人,则每个学生被抽到的概率为 ;
若随机事件A,B满足: , , ,则事件A与B相互独立;
③
若随机变量 , 满足 ,则 .
④
A.1 B.2 C.3 D.4
【答案】B
【分析】根据根据回归直线过样本中心点,计算可判断①正确;据简单随机抽样概率均等
计算可知②错误;由 ,可求得 ,可判断③
正确;根据方差的计算公式可知④错.
试卷第6页,共3页【详解】对于①:因为回归方程为 ,又样本点中心为 ,
所以 ,解得 ,则实数 的值是 ,故①正确;
对于②:根据简单随机抽样概率均等可知,每个学生被抽到的概率为 ,
故②错误.
对于③:由 ,可得 ,
解得 , ,所以 ,
所以事件A与B相互独立,故③正确;
对于④:由 ,可得 ,故④错误.
故正确的命题有2个.
故选:B.
10.为了解某校初中学生的近视情况,按年级用分层抽样的方法随机抽取100名学生进行
视力检测,已知初一、初二、初三年级分别有800名,600名,600名学生,则不同的抽样
结果共有( )
A. B. C. D.
【答案】A
【分析】根据分层抽样可知抽取初一学生40名,初二、初三学生各30名,由分步乘法计
数原理即可求解.
【详解】由初一、初二、初三年级分别有800名,600名,600名学生可知,
抽样比为 ,
按年级用分层抽样的方法随机抽取初一学生40名,初二、初三学生各30名,
根据分步乘法计数原理可知,
不同的抽样结果共有 .
故选: .
考点2 频率分布直方图
1、频率分布直方图
(1)频率、频数、样本容量的计算方法①×组距=频率.
②=频率,=样本容量,样本容量×频率=频数.
③频率分布直方图中各个小方形的面积总和等于 .
2、频率分布直方图中数字特征的计算
(1)最高的小长方形底边中点的横坐标即是众数.
(2)中位数左边和右边的小长方形的面积和是相等的.设中位数为 ,利用 左
(右)侧矩形面积之和等于 ,即可求出 .
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面
积乘以小长方形底边中点的横坐标之和,即有 ,其中 为每个小
长方形底边的中点, 为每个小长方形的面积.
11.某公司为了解用户对其产品的满意度,从使用该产品的用户中随机调查了100个用户,
根据用户对产品的满意度评分,得到如图所示的用户满意度评分的频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是( )
A.对该公司产品满意度评分低于60分的用户比例估计为35%
B.对该公司产品满意度评分不低于70分的用户比例估计为40%
C.估计该公司用户对产品的满意度评分的平均值不超过60分
D.估计该公司有一半以上的用户,对产品的满意度评分介于50分至80分之间
【答案】C
【分析】由频率分布直方图计算频率逐项判断A,B,D即可,计算平均数判断C即可.
【详解】对于A,对该公司产品满意度评分低于60分的用户比例估计为:
,故A正确;
试卷第8页,共3页对于B,对该公司产品满意度评分不低于70分的用户比例估计为:
,故B正确;
对于C,估计该公司用户对产品的满意度评分的平均值为:
,故C错误;
对于D,对产品的满意度评分介于50分至80分之间的用户比例为:
,
估计该公司有一半以上的用户,对产品的满意度评分介于50分至80分之间,故D正确.
故选:C.
12.在某次高中数学模拟考试中,对800名考生的考试成绩进行统计,得到如图所示的频
率分布直方图,其中分组的区间分别为[40,50),[50,60),[60,70), ,[80,90),
[90,100].若考生成绩在 内的人数为 ,考生成绩在 内的人数为 ,则
( )
A.20 B.10 C.60 D.40
【答案】D
【分析】由频率分布直方图求出 、 ,即可得解.
【详解】由频率分布直方图可得 , ,
所以 .
故选:D.
13.为了解高中学生每天的体育活动时间,某市教育部门随机抽取 高中学生进行调查,
把每天进行体育活动的时间按照时长(单位:分钟)分成 组: ,[40,50),[50,60),[60,70), , .然后对统计数据整理得到如图所示的频率分布直方图,则可估计这
名学生每天体育活动时间的第 百分位数为( )
A. B. C. D.
【答案】A
【分析】根据第 百分位数的概念,知道它在第二组[40,50)里.运用概率之和为 ,构
造方程,解出即可.
【详解】第 百分位数设为 ,而 ,则所求百分位数在第二组,
则可列方程 解得 .
故选:A.
14.为了加深师生对党史的了解,激发广大师生知史爱党、知史爱国的热情,某校举办了
“学党史、育新人”的党史知识竞赛,并将1000名师生的竞赛成绩(满分100分,成绩取
整数)整理成如图所示的频率分布直方图,则下列说法错误的是( )
A. 的值为0.005
B.估计这组数据的众数为75分
C.估计成绩低于60分的有250人
D.估计这组数据的中位数为 分
【答案】D
【分析】对A,根据频率和为1求解即可;对B,根据频率分布直方图的众数判断即可;
试卷第10页,共3页对C,计算成绩低于60分的频率,进而可得人数;对D,根据成绩低于中位数的频率为
0.5计算即可.
【详解】对A,由题意, ,解得 ,故A正确;
对B,由直方图可得估计这组数据的众数为 分,故B正确;
对C,由直方图可得成绩低于60分的频率为 ,故估计成绩低于60
分的有 人,故C正确;
对D,由A可得区间 的频率分别为
,
因为 , ,故中位数位于 内.
设中位数为 ,则 ,解得 ,故D错误.
故选:D
15.某教育机构为调查中小学生每日完成作业的时间,收集了某位学生100天每天完成作
业的时间,并绘制了如图所示的频率分布直方图(每个区间均为左闭右开),根据此直方
图得出了下列结论,其中正确的是( )
A.估计该学生每日完成作业的时间在2小时至2.5小时的有50天
B.估计该学生每日完成作业时间超过3小时的概率为0.3
C.估计该学生每日完成作业时间的中位数为2.625小时
D.估计该学生每日完成作业时间的众数为2.3小时
【答案】C
【分析】利用频率分别直方图、频数、频率、中位数、众数直接求解.【详解】对于A,该学生每日完成作业的时间在2小时至2.5小时的天数为:
天,故A错误;
对于B,估计该学生每日完成作业时间超过3小时的概率为 ,
故B错误;
对于C, 的频率为 , 的频率为 ,
则该学生每日完成作业时间的中位数为 ,故C正确;
对于D,估计该学生每日完成作业时间的众数为 ,故D错误;
故选:C
16.为了加深师生对党史的了解,激发广大师生知史爱党、知史爱国的热情,某校举办了
“学党史、育文化”的党史知识竞赛,并将1000名师生的竞赛成绩(满分100分,成绩取
整数)整理成如图所示的频率分布直方图,估计这组数据的第85百分位数为( )分
A.84 B.85 C.86 D.87
【答案】C
【分析】根据百分位数定义,结合数据求解即可.
【详解】由 ,解得: ,
所以前4组频率之和为 ,前5组频率之和为 ,
设这组数据的第85百分位数为 ,则 ,解得: ,
故选:C
17.某校高三共有200人参加体育测试,将体测得分情况进行了统计,把得分数据按照
分成6组,绘制了如图所示的频率分布直
试卷第12页,共3页方图.根据规则,82分以上的考生成绩等级为A,则获得 的考生人数约为( )
A.25 B.50 C.75 D.100
【答案】B
【分析】根据频率分布直方图求获得 的频率,进而可得相应的人数.
【详解】由题意可知:估计获得 的频率为 ,
所以获得 的考生人数约为 .
故选:B.
18.为深入贯彻落实习近平总书记对天津工作“三个着力”重要要求,天津持续深化改革,
创建全国文明城区,城市文明程度显著提升,人民群众的梦想不断实现.在创建文明城区的
过程中,中央文明办对某小区居民进行了创建文明城区相关知识网络问卷调查,从本次问
卷中随机抽取了50名居民的问卷结果,统计其得分数据,将所得50份数据的得分结果分
为6组: ,并整理得到如下的频率分布直
方图,则该小区居民得分的第70百分位数为( )
A.89.09 B.86.52 C.84.55 D.81.32
【答案】C
【分析】利用百分位数的概念以及频率分布直方图求解.【详解】由题意得 ,
解得 ,
因为前4组数据的频率之和为 ,
前5组数据的频率之和为 ,
则 分位数在[80,90)内,设 分位数为x,
则 ,解得 ,
所以 分位数约为 .
故选:C.
19.某市为了解全市12000名高一学生的的体能素质情况,在全市高一学生中随机抽取了
1000名学生进行体能测试,并将这1000名的体能测试成绩整理成如下频率分布直方图.
根据此频率分布直方图,下列结论中正确的是( )
A.图中 的值为0.020;
B.同一组中的数据用该组区间的中点值做代表,则这1000名学生的平均成绩约为
80.5;
C.估计样本数据的75%分位数为88;
D.由样本数据可估计全市高一学生体测成绩优异(80分及以上)的人数约为5000人.
【答案】B
【分析】A.根据频率和为1,计算 的值;B.根据平均数公式,判断B;C.根据百分位数公
式,判断C;计算体测成绩在 内的频率,再结合总人数,即可判断D.
【详解】A.由频率分布直方图可知, ,
试卷第14页,共3页得: ,故A错误;
B. ,故B正确;
C.设 百分位数 ,易得 ,
则 ,
解得: ,故C错误;
D.则体测成绩在 的频率为 ,
估计全市高一学生体测成绩优异(80分及以上)的人数约为 人,故D错
误.
故选:B.
20.某校举行知识竞赛,对全校参赛的1000名学生的得分情况进行了统计,把得分数据按
, , , , 分成5组,得到如图所示的频率分布直方
图,则下列说法不正确的是( )
A.图中的x值为0.020 B.得分在 的人数为400
C.这组数据的极差为50 D.这组数据的平均数的估计值为77
【答案】C
【分析】根据频率分布直方图中所有长方形的面积和为1,以及极值、频数以及平均数的
计算,对每个选项进行逐一分析,即可判断和选择.
【详解】对于A,由 ,可解得 ,故选项A
正确;对于B,得分在80分及以上的人数的频率为 ,
故人数为 ,故选项B正确;
对于C,频率分布直方图无法看出这组数据的最大值和最小值,故选项C不正确;
对于D,这组数据的平均数的估计值为:
,故选项D正确.
故选:C.
考点3 均值及方差的性质
平均数、方差的性质
如果数据 的平均数为 ,方差为 ,那么
①一组新数据 的平均数为 ,方差是 .
②一组新数据 的平均数为 ,方差是 .
③一组新数据 的平均数为 ,方差是 .
21.样本数据 的平均数 ,方差 ,则样本数据 , , ,
的平均数,方差分别为( )
A.9,4 B.9,2 C.4,1 D.2,1
【答案】A
【分析】由平均值、方差的性质求新数据的平均数和方差.
【详解】由 ,得样本数据 , , , 的平均数为 ,
由 ,得样本数据 , , , 的方差为 .
故选:A
22.若数据 的标准差为 ,则数据 , , ,…, 的标
准差为( )
试卷第16页,共3页A. B. C. D.
【答案】D
【分析】根据线性变化前后数据的方差的关系求解.
【详解】因为数据 的标准差为 ,
由数据方差的性质,可得数据 , ,…, 的标准差为 ,
故选:D.
23.已知数据 的平均数为10,方差为10,则
的平均数和方差分别为( )
A.32,90 B.32,92 C.30,90 D.30,92
【答案】A
【分析】根据平均数、方差的性质计算可得.
【详解】因为 的平均数是10,方差是10,
所以 的平均数是 ,方差是 .
故选:A.
24.下列命题错误的是( )
A.若数据 的标准差为 ,则数据 的标准差为
B.若 ,则
C.若 ,则
D.若 为取有限个值的离散型随机变量,则
【答案】D
【分析】根据方差以及标准差的性质即可求解A;结合二项分布的概率公式,即可求解
B;结合正态分布的对称性,即可求解C;结合方差的非负性,即可求解D.
【详解】数据 , , , , 的标准差为 ,则数据 , , , , 的标准差为 ,故A正确;
, ,则 ,得 ,
,故B正确;
, ,
则 ,故C正确;
为取有限个值的离散型随机变量,
则 ,故D错误.
故选:D.
25.已知样本数据 的平均数和标准差均为4,则数据
的平均数与方差分别为( )
A. B. C. D.
【答案】B
【分析】根据样本数据同加上一个数和同乘以一个数后的新数据的平均值和方差的性质,
即可求得答案.
【详解】由题意知样本数据 的平均数和标准差均为4,则 的方差为
16,
则 的平均数为 ,方差为 ,
故 的平均数为 ,方差 ,
故选:B
26.已知一组数据 , , , , 的平均数是 ,方差是 ,则对于以下数据:
试卷第18页,共3页, , , , 下列选项正确的是( )
A.平均数是 ,方差是6 B.平均数是 ,方差是
C.平均数是5,方差是 D.平均数是5,方差是12
【答案】D
【分析】根据平均数以及方差的性质即可求解.
【详解】由于数据 , , , , 的平均数是 ,方差是 ,故数据: , ,
, , 的平均数是 ,方差是 ,
故选:D
27.某人在“全球购”平台上购买了 件商品,这些商品的价格如果按美元计算,则平均
数为 ,标准差为 ,如果按人民币计算(汇率按1美元=7元人民币),则平均数和方差
分别为( )
A. , B. , C. , D. ,
【答案】D
【分析】根据一组数据同乘以一个数后的平均数以及方差的性质计算即可.
【详解】由题意知这些商品的价格如果按人民币计算,价格是按美元计算的价格的7倍,
故按人民币计,则平均数和方差分别为 .
故选:D.
28.已知样本数据 的平均数为 、方差为 ,若样本数据 ,
的平均数为 ,方差为 ,则 ( )
A. B. C. D.
【答案】D
【分析】由平均数和方差的运算性质即可求解.
【详解】由方差的性质,得 , ,…, 的方差为 ,故 ,解得 .由 ,可知 .
由平均数的性质,得 , ,…, 的平均数为 ,
故 ,
解得 .
故选:D.
29.一组数据 的平均数和标准差分别为3和1,另一组数据
(其中 )的平均数和标准差分别为10和4,则
( )
A.16 B.8 C. D.
【答案】C
【分析】
根据两组数据的线性关系确定它们的平均数与标准差的关系列方程,即可得 的值,从
而可得答案.
【详解】由题可知, ,解得 ,则 .
故选:C.
30.已知数据 , ,…, 的平均数和方差分别为4,10,那么数据 ,
,…, 的平均数和方差分别为( )
A. , B.1, C. , D. ,
【答案】D
【分析】
利用平均数与方差的运算性质求解即可.
试卷第20页,共3页【详解】设数据 , ,…, 的平均数和方差分别为 和 ,
则数据 , ,…, 的平均数为 ,方差为 ,
得 , ,
故选:D.
考点4 总体百分位数的估计
百分位数
(1)定义
一组数据的第 百分位数是这样一个值,它使得这组数据中至少有 的数据小于或
等于这个值,且至少有 的数据大于或等于这个值.
(2)计算一组 个数据的的第 百分位数的步骤
①按从小到大排列原始数据.
②计算 .
③若 不是整数而大于 的比邻整数 ,则第 百分位数为第 项数据;若 是整数,
则第 百分位数为第 项与第 项数据的平均数.
(3)四分位数
我们之前学过的中位数,相当于是第 百分位数.在实际应用中,除了中位数外,常
用的分位数还有第 百分位数,第 百分位数.这三个分位数把一组由小到大排列后的
数据分成四等份,因此称为四分位数.
31.小明希望自己的高考数学成绩能超过120分,为了激励自己,他记录了近8次数学考
试成绩,并绘制成折线统计图,如图,这8次成绩的第80百分位数是( )
A.100 B.105 C.110 D.120
【答案】C
【分析】根据百分位数定义求解即可.【详解】因为 ,由图可知8次成绩由小到大排序,
第7个位置的数是110,所以这8次成绩的第80百分位数是110.
故选:C.
32.某校高三年级举行数学知识竞赛,并将100名学生的竞赛成绩(满分100分,成绩取
整数)整理成如图所示的频率分布直方图,则估计这组数据的第85百分位数为( )
A.85 B.86 C.86.5 D.87
【答案】B
【分析】由频率分布直方图性质求 ,根据百分位数定义,结合数据求解即可.
【详解】由 ,解得: ,所以前4组频率和为
,前5组频率和为 ,
设这组数据的第85百分位数为 ,则 ,解得: ,
故选:B
33.某地气象部门统计了当地2024年3月前8天每天的最高气温T(单位:℃),数据如
下:
时间 第1天 第2天 第3天 第4天 第5天 第6天 第7天 第8天
T(℃) 8 12 8 14 16 11 18 21
则这8天的气温数据的75%分位数为( )
A.15 B.16 C.17 D.18
【答案】C
【分析】由小到大排列数据,再由百分数求法按步骤求解即可.
【详解】将8天的数据由小到大排列: .
因为 ,6是整数,
试卷第22页,共3页故第这8天的气温数据的75%分位数为 .
故选:C.
34.已知某学校参加学科节数学竞赛决赛的8人的成绩(单位:分)为:72,78,80,
81,83,86,88,90,则这组数据的第75百分位数是( )
A.86 B.87 C.88 D.90
【答案】B
【分析】根据样本数据百分位数的定义求解即可.
【详解】将数据从小到大排序得 ,
因为 ,
所以第75百分位数是 .
故选:B.
35.已知一组数据:4,6,7,9,11,13,则这组数据的第65百分位数为( )
A.6 B.7 C.9 D.11
【答案】C
【分析】由百分位数的定义,求出第65百分位数是这组数据从小到大排列的第几个数,即
可得到答案.
【详解】已知一组数据:4,6,7,9,11,13,共6个数,
则 ,
所以这组数据的第65百分位数为从小到大排列的第四个数9.
故选:C.
36.给出下列说法,其中正确的是( )
A.某病8位患者的潜伏期(天)分别为3,3,8,4,2,7,10,18,则它们的第50
百分位数为
B.已知数据 的平均数为2,方差为3,那么数据 , , 的平均数
和方差分别为5,13
C.在回归直线方程 中,相对于样本点 的残差为
D.样本相关系数
【答案】C【分析】根据百分位数的概念可判断A的真假;根据两组相关数据的平均数和方差的计算
方法判断B的真假;计算残差判断C的真假;根据相关系数的取值范围判断D.
【详解】对A:将3,3,8,4,2,7,10,18由小到大排列为2,3,3,4,7,8,10,
18,第50百分位数即为中位数,这组数的中位数为 ,所以A错误;
对B:由数据 的平均数为2,方差为3,则数据 , , 的平均数为
,方差为 ,所以B错误;
对C:残差 ,故C正确;
对D:样本的相关系数应满足 ,所以D错误.
故选:C
37.某台机器每天生产10000个零件,现连续12天检测,得到每天的次品零件个数依次为:
8,12,9,18,16,17,15,9,18,20,13,11,则这组样本数据的中位数与第60百分
位数之和是( )
A.29 B.30 C.30.5 D.31
【答案】B
【分析】由百分位数、中位数的定义即可求解.
【详解】将这12个数据从小到大排列为 ,
,所以排列后的第8个数即为第60百分位数:16,
中位数为 ,故所求为: .
故选:B.
38.样本数据12,8,32,10,24,22,12,33的第60百分位数为( )
A.8 B.12 C.22 D.24
【答案】C
【分析】根据给定条件,利用第60百分位数的定义求解即得.
【详解】样本数据12,8,32,10,24,22,12,33,按从小到大排序为8,10,12,12,
22,24,32,33,
试卷第24页,共3页由 ,得样本数据的第60百分位数为升序排列的第五个数,即22.
故选:C
39.样本数据 的第60百分位数为( )
A.23 B.31 C.33 D.36
【答案】C
【分析】由百分位数的定义,先将样本数据从小到大排列,再计算第60百分位数为第6和
第7个数的平均数即可.
【详解】将这组数据从小到大排列为 ,
数据的第60百分位数为 33,
故选:C.
40.样本数据11 ,12 ,13 ,15 ,16 ,13 ,14 ,15 ,11的第一四分位数为( )
A.11.5 B.12 C.12.5 D.13
【答案】B
【分析】把样本数据由小到大排列,再利用第一四分位数的定义求解即得.
【详解】样本数据由小到大排列为11 ,11,12 ,13 ,13 ,14 ,15 ,15,16 ,
由 ,得样本数据的第一四分位数为12.
故选:B
考点5 相关关系与相关系数
1、变量之间的相关关系
当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫
相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非
常重要的作用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其
中的规律,对它们的关系作出判断.
注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一
种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是
伴随关系.
2、散点图将样本中的 个数据点 描在平面直角坐标系中,所得图形叫做散点
图.根据散点图中点的分布可以直观地判断两个变量之间的关系.
(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关
关系,我们将它称为正相关,如图(1)所示;
(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关
关系,我们将它称为负相关,如图(2)所示.
3、相关系数
若相应于变量 的取值 ,变量 的观测值为 ,则变量 与 的相关系数
,通常用 来衡量 与 之间的线
性关系的强弱, 的范围为 .
(1)当 时,表示两个变量正相关;当 时,表示两个变量负相关.
(2) 越接近 ,表示两个变量的线性相关性越强; 越接近 ,表示两个变量间几
乎不存在线性相关关系.当 时,所有数据点都在一条直线上.
(3)通常当 时,认为两个变量具有很强的线性相关关系.
41.如图对两组数据 , 和 , 分别进行回归分析,得到散点图如图,并求得线性回归
方程分别是 和 ,并对变量 , 进行线性相关检验,得到相关系数 ,
试卷第26页,共3页对变量 , 进行线性相关检验,得到相关系数 ,则下列判断正确的是( )
A. B. C. D.
【答案】D
【分析】由两散点图中散点的位置关系直接得答案.
【详解】由散点图可知, 与 负相关, 与 正相关,则 , ,故A、B错误;
且图形中点 比 更加集中在一条直线附近,
则 ,又 , ,得 .
故C错误,D正确.
故选:D.
42.对四组数据进行统计,获得如图散点图,关于其相关系数的比较,正确的是( )
A. B.C. D.
【答案】B
【分析】根据散点图和相关系数的概念和性质辨析即可.
【详解】由散点图可知,相关系数 所在散点图呈负相关, 所在散点图呈正相关,
所以 都为正数, 都为负数.
所在散点图近似一条直线上,线性相关性比较强,相关系数的绝对值越接近 ,
而 所在散点图比较分散,线性相关性比较弱点,相关系数的绝对值越远离 .
综上所得: .
故答案为:B.
43.上海百联集团对旗下若干门店的营业额与三个影响因素分别作了相关性分析,绘制了
如下的散点图,则下述大小关系正确的为( ).
A. B. C. D.
【答案】C
【分析】根据散点图判断两变量的线性相关性,再根据线性相关性与相关系数的关系判断
即可.
【详解】由散点图可知,图一两个变量成正相关,且线性相关性较强,故 ,
图二、图三两个变量都成负相关,且图二的线性相关性更强,
故 , , ,故 ,所以 .
故选:C.
试卷第28页,共3页44.调查某校高三学生的身高 和体重 得到如图所示散点图,其中身高 和体重 相关系
数 ,则下列说法正确的是( )
A.学生身高和体重没有相关性
B.学生身高和体重呈正相关
C.学生身高和体重呈负相关
D.若从样本中抽取一部分,则这部分的相关系数一定是
【答案】B
【分析】由散点图的特点可分析相关性的问题,从而判断选项 ,根据相关系数的定义
可判断选项 .
【详解】由散点图可知,散点的分布集中在一条直线附近,
所以学生身高和体重具有相关性, 不正确;
又身高 和体重 的相关系数为 ,相关系数 ,
所以学生身高和体重呈正相关, 正确, 不正确;
从样本中抽取一部分,相关性可能变强,也可能变弱,所以这部分的相关系数不一定是
, 不正确.
故选: .
45.已知变量 与 的回归直线方程为 ,变量 与 负相关,则( )
A. 与 负相关, 与 负相关 B. 与 正相关, 与 正相关
C. 与 负相关, 与 正相关 D. 与 正相关, 与 负相关
【答案】D
【分析】根据已知条件,结合回归方程可判断 与 正相关,再由变量 与 负相关,即可
判断 与 负相关.
【详解】根据回归方程 可知变量 与 正相关,又变量 与 负相关,
由正相关、负相关的定义可知, 与 负相关.
故选:D46.某校数学建模兴趣小组为研究本地区儿子身高 与父亲身高 之间的关系,
抽样调查后得出 与 线性相关,且经验回归方程为 .调查所得的部分样本
数据如下:
17 17
父亲身高 164 166 173 174 180
0 3
儿子身高 17 17
165 168 170 176 178
6 2
则下列说法正确的是( )
A.儿子身高 是关于父亲身高 的函数
B.当父亲身高增加 时,儿子身高增加
C.儿子身高为 时,父亲身高一定为
D.父亲身高为 时,儿子身高的均值为
【答案】D
【分析】根据变量的线性相关、经验回归方程特点逐项分析即可得结论.
【详解】由题意知父亲身高 与儿子身高 具有线性相关关系,
不是函数关系,故A不正确;
当父亲身高增加 时,儿子身高约增加 ,故B不正确;
当儿子身高为 时,代入 可得 ,父亲身高可能为 ,故
C不正确;
若某父亲身高为 ,则其儿子的身高估计为 ,故D正确.
故选:D.
47.某校为了解本校高一男生身高和体重的相关关系,在该校高一年级随机抽取了7名男
生,测量了他们的身高和体重得下表:
16 17
身高x(单位: ) 173 175 178 180 181
7 7
体重y(单位: ) 90 54 59 64 67 72 76
由表格制作成如图所示的散点图:
试卷第30页,共3页由最小二乘法计算得到经验回归直线 的方程为 ,其相关系数为 ;经过残差分
析,点 对应残差过大,把它去掉后,再用剩下的6组数据计算得到经验回归直线
的方程为 ,相关系数为 .则下列选项正确的是( )
A. B.
C. D.
【答案】A
【分析】根据 的特点判断斜率和截距;由于去掉 ,其它点的线性关系更
强,从而可判断相关系数.
【详解】身高的平均数为 ,
因为离群点 的横坐标167小于平均值176,纵坐标90相对过大,
所以去掉 后经验回归直线的截距变小而斜率变大,故 ,
去掉 后相关性更强,拟合效果也更好,且还是正相关,所以 .
故选:A
48.已知变量 , 之间的一组相关数据如下表所示:
6 8 10 12
6 3 2据此得到变量 , 之间的线性回归方程为 ,则下列说法不正确的是( )
A.变量 , 之间成负相关关系 B.可以预测,当 时,
C. D.该回归直线必过点
【答案】C
【分析】由 ,可判断A正确;当 时,得到 的预测值,可判定B正确;由
表格中的数据,求得样本中心,代入求得 的值,可判定C不正确;由 ,求得 ,
可判定D正确.
【详解】对于A中,由 ,可得变量 之间呈现负相关关系,所以A正确;
对于B中,当 ,可得 ,所以B正确;
对于C中,由表格中的数据,可得 ,
则 ,解得 ,所以C不正确;
对于D中,由 ,可得 ,所以该回归直线必经过点 ,所以D正
确.
故选:C.
49.已知变量x和y满足经验回归方程 ,且变量x和y之间的一组相关数据
如表所示,则下列说法错误的是( )
6 8 10 12
7 4 3
A.变量x和y呈负相关 B.当 时,
C. D.该经验回归直线必过点
试卷第32页,共3页【答案】C
【分析】对A:借助回归方程的斜率即可得;对B:将 代入方程计算即可得;对C、
D:借助线性回归方程必过点 计算即可得.
【详解】对A:由 可得 ,故变量x和y呈负相关,故A正确;
对B:当 时, ,故B正确;
对C:由表可得 , ,
故 ,解得 ,故C错误;
对D:由 , ,故D正确.
故选:C.
50.对变量 有观测数据 ,得散点图1;对变量 有观测数据
,得散点图2. 表示变量 之间的线性相关系数, 表示变量 之间的线
性相关系数,则下列说法正确的是( )
A.变量 与 呈现正相关,且 B.变量 与 呈现负相关,且
C.变量 与 呈现正相关,且 D.变量 与 呈现负相关,且
【答案】C
【分析】利用散点图,结合相关系数的知识可得答案.
【详解】由题意可知,变量 的散点图中, 随 的增大而增大,所以变量 与 呈现正相关;
再分别观察两个散点图,图 比图 点更加集中,相关性更好,所以线性相关系数 .
故选:C.
考点6 线性回归方程(非线性)
1、线性回归
线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.
对于一组具有线性相关关系的数据(x ,y ),(x ,y ),…,(x ,y ),其回归
1 1 2 2 n n
方程 的求法为
其中, , ,( , )称为样本点的中心.
2、残差分析
对于预报变量 ,通过观测得到的数据称为观测值 ,通过回归方程得到的 称为预
测值,观测值减去预测值等于残差, 称为相应于点 的残差,即有 .残
差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始
数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图
通过残差分析,残差点 比较均匀地落在水平的带状区域中,说明选用的模型比
较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和 分析,如果残差平方和越小,则说明选用的模型
的拟合效果越好;反之,不合适.
(3)相关指数
试卷第34页,共3页用相关指数来刻画回归的效果,其计算公式是: .
越接近于 ,说明残差的平方和越小,也表示回归的效果越好.
51.某零售行业为了解宣传对销售额的影响,在本市内随机抽取了5个大型零售卖场,
得到其宣传费用x(单位:万元)和销售额y(单位:万元)的数据如下:
x(万元) 3 4 5 6 7
5
y(万元) 45 60 65 70
0
由统计数据知y与x满足线性回归方程 ,其中 ,当宣传费用 时,销
售额y的估计值为( )
A.89.5 B.90.5 C.92.5 D.94.5
【答案】B
【分析】由题意求得样本中心点的坐标,进一步得 ,由此即可预测求解.
【详解】由表中数据可知, ,
所以 ,解得 ,
所以当宣传费用 时,销售额y的估计值为 .
故选:B.
52.下列说法中,正确命题的个数为( )
① 已知随机变量 服从二项分布 ,若 ,则 .
②对具有线性相关关系的变量 , ,其线性回归方程为 ,若样本点的中心为
,则实数 的值是 .
③以模型 去拟合一组数据时,为了求出回归方程,设 ,求得线性回归方程
为 ,则 、 的值分别是 和 .
④若样本数据 的方差为 ,则数据: 的方差为16A.0个 B.1个 C.2个 D.3个
【答案】D
【分析】根据二项分布的期望公式及期望的性质判断①;根据回归直线方程必过样本中心
点,判断②;将两边取对数,即可判断③;根据方差的性质判断④.
【详解】对于①:因为 服从二项分布 ,所以 ,
所以 ,解得 ,故①正确;
对于②:因为线性回归直线必过样本中心点,所以 ,可得 ,故②正确;
对于③:由 两边取对数可得 ,
令 ,求得线性回归方程为 ,所以 , ,则 , ,
故③正确;
对于④:若样本数据 的方差为 ,则数据 的方差为
,故④错误;
故正确的为①②③共 个.
故选:D
53.下列说法正确的是( )
A.若数据 , ,…, 的方差为1,则数据 , ,…, 的标准差为4
B.已知一组数据2,3,5,7,8,9,9,11,则该组数据的第40百分位数为6
C.一组样本数据的频率分布直方图是单峰的且形状是对称的,则该组数据的平均数和
中位数应该大体上差不多
D.经验回归直线 恒过 ,且在回归直线上的样本点越多,拟合效果越好
【答案】C
【分析】由统计知识,依次判断即可.
【详解】解:对于A项,若数据 的方差为1,则数据 的方差为
,标准差为2,故A项错误;
对于B项,由于 ,则该组数据的第40百分位数是第4个数据,为7,故B项
试卷第36页,共3页错误;
对于C项,由于频率分布直方图是单峰的且形状是对称的,故C项正确;
对于D项,应是偏差平方和越小,拟合效果越好,故D项错误;
故选:C
54.云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长. 已知某
科技公司2018年至2022年云计算市场规模数据,且市场规模 与年份代码 的关系可以用
模型 (其中 为自然对数的底数)拟合,设 ,得到数据统计表如下:
年份 2018年 2019年 2020年 2021年 2022年
年份代码 1 2 3 4 5
2 2.4 3 3.6 4
由上表可得经验回归方程 ,则2026年该科技公司云计算市场规模 的估计值
为( )
(参考公式: )
A. B. C. D.
【答案】C
【分析】根据 可得线性回归方程,再由回归方程求出2026年z的预测值,代入
即可得解.
【详解】因为
所以
即经验回归方程
当 时,
所以
即2026年该科技公司云计算市场规模y的估计值为 .
故选:C.
55.下列说法中正确的是( )A.具有线性相关关系的变量 , ,其线性回归方程为 ,若样本的中心
,则
B.数据3,4,2,8,1,5,8,6的中位数为5
C.将一组数据中的每一个数据加上同一个正数后,方差变大
D.若甲、乙两组数据的相关系数分别为 和0.89,则甲组数据的线性相关性更强
【答案】D
【分析】把样本点的中心坐标代入线性回归方程,求出 判断A;由中位数的计算公式即
可判断B;由方差的性质即可判断C;由相关系数 的意义即可判断D.
【详解】对于A,把 代入 ,可得 ,解得 ,故A错误;
对于B,数据3,4,2,8,1,5,8,6,即1,2,3,4,5,6,8,8的中位数为
,故B错误;
对于C,将一组数据中的每一个数据加上同一个正数后,方差不变,故C错误;
对于D,若甲、乙两组数据的相关系数分别为 和0.89,,因为 ,则甲组
数据的线性相关性更强,故D正确.
故选:D.
56.下列命题错误的是( )
A.两个随机变量的线性相关性越强,相关系数的绝对值越接近于1
B.设 ,若 , ,则
C.线性回归直线 一定经过样本点的中心
D.一个袋子中有100个大小相同的球,其中有40个黄球、60个白球,从中不放回地
随机摸出20个球作为样本,用随机变量X表示样本中黄球的个数,则X服从二项分布,
且
【答案】D
试卷第38页,共3页【分析】根据相关系数的表示意义、二项分布的有关性质、线性回归方程和超几何分布的
定义依次判断选项即可.
【详解】A:两个随机变量的线性相关性越强,相关系数的绝对值越接近于1,故A正确;
B:由 ,得 ,解得 ,故B正确;
C:线性回归直线 一定经过样本点的中心 ,故C正确;
D:由于是不放回地随机摸出20个球作为样本,
所以由超几何分布的定义知 服从超几何分布,得 ,故D错误;
故选:D
57.已知变量x和y的统计数据如表:
x 1 2 3 4 5
y 6 6 7 8 8
根据上表可得回归直线方程 ,据此可以预测当 时, ( )
A.8.5 B.9 C.9.5 D.10
【答案】D
【分析】根据给定的数表,求出样本的中心点,进而求出 即可得解.
【详解】依题意, , ,
即样本的中心点为 ,于是 ,解得 ,即 ,
当 时,预测 .
故选:D
58.下列说法中正确的个数为( )个
①对立事件一定是互斥事件;②在经验回归直线方程 中,当解释变量 每增加
一个单位时,预报变量 减少0.1个单位;③两个随机变量的线性相关性越强,相关系数
绝对值越接近于1;④在回归分析模型中,若相关指数 越小,则残差平方和越大,模型
的拟合效果越好.A.1 B.2 C.3 D.4
【答案】B
【分析】根据对立事件与互斥事件定义、回归直线中回归系数的含义、相关系数的计算公
式和回归分析的基本思想依次判断各个选项即可.
【详解】对于①,对立事件一定是互斥事件,但互斥事件未必是对立事件,故①正确;
对于②,根据回归直线方程中回归系数的含义可知:当解释变量 每增加一个单位时,预
报变量 增加 个单位,故②错误;
对于③,根据相关系数的计算公式可知:两个变量的线性相关性越强,相关系数的绝对值
越接近 ,故③正确;
对于④,根据回归分析的基本思想可知:相关指数 越小,则残差平方和越大,模型的拟
合效果越差,④错误.
故选:B.
59.下列说法不正确的是( ).
A.一组数据10,11,11,12,13,14,16,18,20,22的第60百分位数为14
B.若随机变量 服从正态分布 ,且 ,则
C.若线性相关系数 越接近1,则两个变量的线性相关程度越高
D.对具有线性相关关系的变量 、 ,且回归方程为 ,若样本点的中心
为 ,则实数 的值是
【答案】A
【分析】利用百分位数的定义即可判断选项A,利用正态分布的性质即可判断选项B,根
据线性相关系数的性质即可判断选项C,利用线性回归方程中的基本量即可判断选项D.
【详解】对A:因为 ,所以第 百分位数为 ,A错误;
对B:若随机变量 服从正态分布 ,且 ,
则 ,
则 ,B正确;
试卷第40页,共3页对C:若线性相关系数 越接近 ,则两个变量的线性相关性越强,C正确;
对于D,样本点的中心为 ,所以 , ,
因为 满足线性回归方程,所以 ,所以 ,D正确.
故选:A
60.为了研究y关于x的线性相关关系,收集了5组样本数据(见下表):
x 1 2 3 4 5
y 0.5 0.9 1 1.1 1.5
若已求得一元线性回归方程为 ,则下列选项中正确的是( )
A.
B.当 时,y的预测值为2.2
C.样本数据y的第40百分位数为1
D.去掉样本点 后,x与y的样本相关系数r不会改变
【答案】D
【分析】由表格数据求出样本点的中心坐标,代入可得 的值由此即可判断A,进一步可
得回归方程,由此即可验算B选项,由百分位数的概念即可判断C,由相关系数公式即可
判断D.
【详解】 ,所以样本点的中心坐标为 ,
将它代入 得, ,解得 ,故A错误;
对于B,当 时,y的预测值为 ,故B错误;
对于C,样本数据y的第40百分位数为 ,故C错误;
对于D,由相关系数公式可知,去掉样本点 后,x与y的样本相关系数r不会改变,故
D正确.故选:D.
考点7 独立性检验
1、分类变量和列联表
(1)分类变量:
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本
频数列联表(称为2×2列联表)为
总计
总计
从 列表中,依据 与 的值可直观得出结论:两个变量是否有关系.
2、等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用
等高条形图表示列联表数据的频率特征.
(2)观察等高条形图发现 与 相差很大,就判断两个分类变量之间有关系.
3、独立性检验
(1)定义:利用独立性假设、随机变量 来确定是否有一定把握认为“两个分类变
量有关系”的方法称为两个分类变量的独立性检验.
(2)公式: ,其中 为样本容量.
(3)独立性检验的具体步骤如下:
①计算随机变量 的观测值 ,查下表确定临界值 :
试卷第42页,共3页0.5 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
②如果 ,就推断“ 与 有关系”,这种推断犯错误的概率不超过 ;
否则,就认为在犯错误的概率不超过 的前提下不能推断“ 与 有关系”.
(2)两个分类变量 和 是否有关系的判断标准:
统计学研究表明:
当 时,认为 与 无关;
当 时,有 的把握说 与 有关;
当 时,有 的把握说 与 有关;
当 时,有 的把握说 与 有关.
61.“民政送温暖,老人有饭吃”.近年来,各级政府,重视提高老年人的生活质量.在
医疗、餐饮等多方面,为老人提供了方便.单从用餐方面,各社区,创建了“爱心食堂”、
“爱心午餐”、“老人食堂”等等不同名称的食堂,解决了老人的吃饭问题.“爱心食堂
A”为了更好地服务老人,于3月28日12时,食堂管理层人员对这一时刻用餐的118人,
对本食堂推出的15种菜品按性价比“满意”和“不满意”作问卷调查,其中,有13人来
食堂用餐不足5次,另有儿童5人,他们对菜品不全了解,不予问卷统计,在被问卷的人
员中男性比女性多20人.用餐者对15种菜品的性价比认为“满意”的菜品数记为
,当 时,认为该用餐者对本食堂的菜品“满意”,否则,认为
“不满意”.统计结果部分信息如下表:
满意 不满意 合计
男 40
女 20
合计
(1)①完成上面 列联表;
②能有多大(百分比)的把握认为用餐者对本食堂菜品的性价比是否满意与性别有关?
(2)用分层抽样在对菜品的性价比“满意”的人群中抽取6人,再从这6人中随机抽取3人,
用 表示抽取的3人中的男性人数,求 的分布列和期望.附:参考公式和临界值表 ,其中, .
0.100 0.050 0.010 0.001
2.706 3.841 6.635 10.828
【答案】(1)①列联表见解析;② (2)分布列见解析,
【分析】(1)①依题意补全列联表;②计算 值和临界值比较,得到把握性;
(2)根据分层抽样,得到男性4人和女性2人,从而可知 的可能取值为 ,再利用
古典概型求出相应取值的概率,即可求出分布,再利用期望的计算公式,即可求解.
【详解】(1)①由题意,问卷调查人数为 (人),其中,男性60人,
女性40人,
得完整 列联表如下表:
满意 不满意 合计
男 40 20 60
女 20 20 40
吕计 60 40 100
② ,而 .
所以有 的把握认为用餐者对本食堂菜品的性价比是否满意与性别有关.
(2)由(1)知,对菜品的性价比“满意”的人群中有40名男性和20名女性,用分层抽
样分别抽取男性4人和女性2人,
易知 的可能取值为 ,
, ,
试卷第44页,共3页,
所以 的分布列为
.
62.某学校举办了一次主题为“科技兴国,强国有我”的知识竞赛,并从所有参赛学生中
随机抽取了男、女生各50人,统计他们的竞赛成绩(满分100分,每名参赛学生至少得60
分),并将成绩分成4组: , , , (单位:分),得到如下
的频率分布直方图.
(1)现将竞赛成绩不低于90分的学生称为“科技知识达人”,成绩低于90分的学生称为
“非科技知识达人”.把随机抽取的参赛学生数据统计如下,将下列 列联表补充完整,
并判断是否有95%的把握认为能否获得“科技知识达人”称号与性别有关.
科技知识达
非科技知识达人 合计
人
男生 15
女生
合计
(2)将频率视为概率,从所有参赛学生中随机抽取3人进行访谈,记这3人中是“科技知识
达人”的人数为 ,求 的分布列与数学期望.附: (其中 ).
0.10 0.05 0.025 0.010 0.005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
【答案】(1)列联表见解析,有 的把握认为能否获得“科技知识达人”称号与性别有关
(2)分布列见解析,期望
【分析】(1)补充完整 列联表,计算 的值,再与临界值比较即可;
(2)由题意可知 , 的可能取值为0,1,2,3,利用二项分布的概率公式求出
相应的概率,进而得到 的分布列,再结合期望公式求解.
【详解】(1) 列联表补充完整如下:
科技知识达
非科技知识达人 合计
人
男生 15 35 50
女生 5 45 50
合计 20 80 100
零假设 :能否获得“科技知识达人”称号与性别无关,
则 ,
所以依据小概率值 的独立性检验,我们推断 不成立,即有 的把握认为能否
获得“科技知识达人”称号与性别有关;
(2)从所有参赛学生中任取一人是“科技知识达人”的概率 ,
试卷第46页,共3页由题意可知: , 的可能取值为0,1,2,3,
则 ,
,
,
,
所以 的分布列为:
0 1 2 3
所以 .
63.某数学老师在其任教的甲、乙两个班级中各抽取30名学生进行测试,分数分布如表:
甲班人
分数区间 乙班人数
数
[0,30) 3 6
[30,60) 6 6
[60,90) 9 12
[90,120) 6 3
[120,150] 6 3
(1)若成绩在120分以上(含120分)为优秀,求从乙班参加测试的成绩在90分以上(含
90分)的学生中,随机任取2名学生,恰有1名为优秀的概率;
(2)根据以上数据完成下面的2×2列联表,则在犯错的概率不超过0.1的前提下,是否有足
够的把握认为学生的数字成绩优秀与否和班级有关?优秀 不优秀 总计
甲班
乙班
总计
参考公式: ,其中 .
【答案】(1) ;
(2)列联表见解析,没有足够的把握说明学生的数学成绩是否优秀与班级有关系.
【分析】(1)列举基本事件,利用古典概型的概率公式求解.
(2)由题意进行数据分析,完善列联表,计算 ,对照参数下结论.
【详解】(1)乙班参加测试的 分以上的同学有 人,其中成绩优秀的有3人,记为
,另3人记为 ,
从这六名学生中抽取两名的样本空间 ,
有15个样本点,
设事件 表示恰有一位学生成绩优秀,则 ,有9个样本点,
所以所求概率为 .
(2)由给定的分数分布表,得2×2列联表:
优秀 不优秀 总计
甲班 6 24 30
乙班 3 27 30
总计 9 51 60
试卷第48页,共3页,
在犯错概率小于 的前提下,没有足够的把握说明学生的数学成绩是否优秀与班级有关系.
64.同城配送是随即时物流发展而出现的非标准化服务,省时省力是消费者使用同城配送
服务的主要目的.某同城配送服务公司随机统计了800名消费者的年龄(单位:岁)以及每
月使用同城配送服务的次数,得到每月使用同城服务低于5次的有550人,并将每月使用
同城配送服务次数不低于5次的消费者按照年龄 进行分组,
得到如图所示的频率分布直方图.
(1)估计每月使用同城配送服务不低于5次的消费者年龄的平均值和中位数(结果精确到
0.1,每组数据用该组区间的中点值代表);
(2)若年龄在 内的人位于年龄段 ,年龄在 内的人位于年龄段II,把每月使用
同城配送服务低于5次的消费者称为“使用同城配送服务频率低”,否则称为“使用同城
配送服务频率高”,若800名消费者中有400名在年龄段I,补全 列联表,并判断是否
有 的把握认为消费者使用同城配送服务频率的高低与年龄段有关?
年龄段I 年龄段II 合计
使用同城配送服务频率
高
使用同城配送服务频率
低
合计
参考公式: ,其中 .附:0.050 0.010 0.001
3.841 6.635 10.828
【答案】(1)平均数为33.4,中位数为32.3
(2)表格见解析,有 的把握认为同城配送服务的使用频率高低与年龄段有关.
【分析】(1)根据频率分布直方图中的平均数和中位数求解公式求解即可;
(2)根据题目数据完善 列联表,计算卡方,与临界值比较即可判断.
【详解】(1)每月使用同城配送服务不低于5次的消费者年龄的平均数为
设每月使用同城配送服务不低于5的消费者年龄的中位数为 ,
则 ,解得 .
(2)补全的 列联表如下:
年龄段I 年龄段II 合计
使用同城配送服务频率
145 105 250
高
使用同城配送服务频率
255 295 550
低
合计 400 400 800
所以 .
所以,有 的把握认为同城配送服务的使用频率高低与年龄段有关.
65.某地为调查年龄在35―50岁段人群每周的运动情况,从年龄在35―50岁段人群中随
机抽取了200人的信息,将调查结果整理如下:
女性 男性
每周运动超过2小时 60 80
每周运动不超过2小时 40 20
(1)根据以上信息,能否有99%把握认为该地年龄在35―50岁段人群每周运动超过2小时与
性别有关?
试卷第50页,共3页(2)在以上被抽取且每周运动不超过2小时的人中,按性别进行分层抽样,共抽6人.再从
这6人中随机抽取2人进行访谈,求这2人中至少有1人是女性的概率.
参考公式: , .
0.10 0.05 0.025 0.010 0.001
2.706 3.841 5.024 6.635 10.828
【答案】(1)有(2)
【分析】(1)根据二联表求解卡方,即可与临界值比较作答,
(2)列举基本事件,即可由古典概型的概率个数求解.
【详解】(1)由题意可得
女
男性
性
每周运动超过2小时 60 80 140
每周运动不超过2小时 40 20 60
总计 100 100 200
由 .
知:有99%把握认为该地35-50岁年龄段人每周运动超过2小时与性别有关.
(2)在以上被抽取且每周运动不超过2小时的人中,按性别进行分层抽样,共抽6人
在以上被抽取且每周运动不超过2小时的人中,按性别进行分层抽样,共抽6人,则女性
抽取4人,记为: , , , ,男性抽取2人,记为: , ,从这6人中随机抽
取2人,抽法有:
, , , , , , , , , , , , ,
, 共15种,这两人中至少有一人是女性的抽法有:
, , , , , , , , , , , , ,
共14种,故两人中至少有一人是女性的概率
66.为了有效预防流感,很多民众注射了流感疫苗.市防疫部门随机抽取了1000人进行调
查,发现其中注射疫苗的800人中有220人感染流感,另外没注射疫苗的200人中有80人
感染流感.医学研究表明,流感的检测结果有检错的可能,已知患流感的人其检测结果有
呈阳性(流感),而没有患流感的人其检测结果有 呈阴性(未感染)
(1)估计该市流感感染率是多少?
(2)根据所给的数据,判断是否有99%的把握认为注射流感疫苗与预防流感有关;
(3)已知某人的流感检查结果呈阳性,求此人真的患有流感的概率.(精确到0.001)
附: .
0.050 0.010 0.001
k 3.841 6.635 10.828
【答案】(1) (2)有(3)
【分析】(1)根据古典概型运算公式进行求解即可;
(2)根据题中数据得到列联表,结合卡方运算公式和附表中的值进行判断即可;
(3)利用条件概率和全概率公式进行求解即可.
【详解】(1)估计流感的感染率 ;
(2)列联表如下:
患有流
疫苗情况 不患有流感 合计
感
打疫苗 220 580 800
不打疫苗 80 120 200
合计 300 700 100
试卷第52页,共3页所以 ,
所以有99.9%的把握认为注射流感疫苗与流感发病人数有关.
(3)设事件A为“一次检测结果呈阳性”,事件B为“被检测者确实患有流感”,
由题意得 , , , ,
,
由全概率公式得 ,
所以 ,于是此人真的患有流感的概率是0.976.
67.为了引导学生阅读世界经典文学名著,某学校举办“名著读书日”活动,每个月选择
一天为“名著读书日”,并给出一些推荐书目.为了了解此活动促进学生阅读文学名著的
情况,该校在此活动持续进行了一年之后,随机抽取了校内100名学生,调查他们在开始
举办读书活动前后的一年时间内的名著阅读数量,所得数据如下表:
不少于5本 少于5本 合计
活动前 35 65 100
活动后 60 40 100
合计 95 105 200
(1)依据小概率值 的独立性检验,分析举办该读书活动对学生阅读文学名著是否有
促进作用;
(2)已知某学生计划在接下来的一年内阅读6本文学名著,其中4本国外名著,2本国内名
著,现从6本名著中随机抽取3本在上半年读完,求上半年读完的国内名著本数 的分布
列及数学期望.
附: ,其中 .
临界值表:
0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828
【答案】(1)有促进作用(2)分布列见解析,
【分析】(1)根据公式计算 得认为举办该读书活动对学生阅读文学名
著有促进作用,该推断犯错误的概率不超过0.001;
(2)上半年读完的国内名著本数可能为0、1、2,由超几何分布的概率计算得到分布列,
进而得到数学期望.
【详解】(1)零假设 :该读书活动对学生阅读文学名著没有促进作用;
由表中数据可知, ,
故可推断 不成立,即认为举办该读书活动对学生阅读文学名著有促进作用,该推断犯错
误的概率不超过0.001.
(2)由题意可知, 的可能取值为0、1、2,
; ; ;
所以 的分布列为:
0 1 2
所以 的数学期望为: .
68.随着AI技术的不断发展,人工智能科技在越来越多的领域发挥着重要的作用.某校在
寒假里给学生推荐了一套智能辅导系统,学生可自愿选择是否使用该系统完成假期的作业.
开学时进行了入学测试,随机抽取了100名学生统计得到如下列联表:
使用智能辅导系统 未使用智能辅导系统 合计
入学测试成绩优秀 20 20 40
试卷第54页,共3页入学测试成绩不优
40 20 60
秀
合计 60 40 100
(1)判断是否有95%的把握认为入学测试成绩优秀与使用智能辅导系统相关;
(2)若把这100名学生按照入学测试成绩是否优秀进行分层随机抽样,从中抽取5人,再从
这5人中随机抽取2人,记抽取的2人中入学测试成绩优秀的人数为 ,求 的分布列及
数学期望 .
附: ,其中 .
0.10 0.05 0.025 0.010
2.706 3.841 5.024 6.635
【答案】(1)没有(2)分布列见解析,
【分析】(1)计算卡方后与3.841比较大小即可得;
(2)借分层抽样的性质可得5人中成绩优秀的人数,再得出 的取值可能后计算相应的
概率即可得其分布列,即可得其期望.
【详解】(1) ,
没有 的把握认为入学测试成绩优秀与使用智能辅导系统相关;
(2) , , 人中2人成绩优秀,3人成绩不优秀,
的取值可能为 、 、 ,
, , ,
分布列为:
0 1 2.
69.某海鲜餐厅在试营业期间,同时采用自助餐和团购套餐两种营销模式,其中自助餐模
式是指顾客可随意享用餐厅内所有菜品,最长可用餐2小时;团购套餐是指顾客在APP上
购买团购券后到店消费,只可享用套餐内所包含的菜品,用餐时间不限.该餐厅为了了解这
两种营销模式的受欢迎程度,现随机调查了130位顾客对这两种营销模式的意见反馈,统
计结果如下表:
认为自助餐更有性价比 认为团购套餐更有性价比
男性顾
40 20
客
女性顾
30 40
客
(1)依据小概率值 的独立性检验,推断能否认为顾客对这两种营销模式的意见与顾
客的性别有关;
(2)店长统计了第 , , , 天自助餐的用餐人数 ,统计结果如下(已知
):
(天)
(用餐人数) 32 52 73 95
经计算得经验回归方程为 ,以样本 的相关系数 为标准,
对该经验回归方程的拟合效果进行说明.
附:(i)在经验回归方程 中, .
(ii)相关系数 若 ,可认为该模型拟合效果良好,反之,则认
试卷第56页,共3页为该模型拟合效果不好.
(iii) ,其中 .
0.050 0.010 0.001
3.841 6.635 10.828
【答案】(1)答案见解析;(2)答案见解析.
【分析】(1)提出零假设,计算 ,比较其与临界值大小,给出结论.
(2)由条件,结合公式求相关系数即可判断.
【详解】(1)零假设 为顾客对这两种营销模式的意见与顾客的性别独立,
由已知 ,
又 ,
根据小概率值 的独立性检验,没有充分证据推断 不成立,
因此,可以认为 成立,即认为顾客对这两种营销模式的意见与顾客的性别无关.
(2)因为经验回归方程为 ,
所以 , ,
又 ,
所以 ,
,所以 ,
所以该经验回归方程的拟合效果非常好.
70.2024年3月,某校语文教师对学生提出“3月读一本书”的要求,每位学生都选择且
只能选择《红楼梦》和《三国演义》中的一本,现随机调查该校男、女生各100人,整理
得到 列联表如下.
《红楼梦》 《三国演义》
男
30 70
生
女
60 40
生
(1)依据小概率值 的独立性检验,能否认为学生选择《红楼梦》还是《三国演义》
与性别有关?
(2)已知学生选择哪本书是相互独立的,用频率代替概率,从该校选择《红楼梦》的学生中
随机抽取3人,抽到的女生人数设为 ,求 的分布列和数学期望.
参考公式: ,其中 .
参考数据:
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【答案】(1)有关(2)分布列见解析,
【分析】(1)利用公式计算 ,对照临界值表下结论;
(2)依题意 ,根据二项分布的概率公式求解概率,由此能求出 的分布列和期
试卷第58页,共3页望.
【详解】(1)因为
,
所以依据小概率值 的独立性检验,可以认为学生选择《红楼梦》还是《三国演
义》与性别有关.
(2)由题可知, 的所有可能取值为0,1,2,3,
选择《红楼梦》的学生是女生的概率为 ,所以 .
所以 , ,
, ,
所以 的分布列为
0 1 2 3
P
所以 .