文档内容
专题 16 统计
目录一览
2023真题展现
考向一 样本的数字特征
考向二 频率分布直方图
真题考查解读
近年真题对比
考向一 样本的数字特征
考向二 频率分布直方图
考向三 独立性检验
命题规律解密
名校模拟探源
易错易混速记/二级结论速记
考向一 样本的数字特征
1.(多选)(2023•新高考Ⅰ•第9题)有一组样本数据x ,x ,⋯,x ,其中x 是最小值,x 是最大值,
1 2 6 1 6
则( )
A.x,x,x,x 的平均数等于x,x,⋯,x 的平均数
2 3 4 5 1 2 6
B.x,x,x,x 的中位数等于x,x,⋯,x 的中位数
2 3 4 5 1 2 6
C.x,x,x,x 的标准差不小于x,x,⋯,x 的标准差
2 3 4 5 1 2 6
D.x,x,x,x 的极差不大于x,x,⋯,x 的极差
2 3 4 5 1 2 6
考向二 频率分布直方图
2.(2023•新高考Ⅱ•第19题)某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有
明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:
资料整理【淘宝店铺:向阳百分百】利用该指标制定一个检测标准,需要确定临界值 c,将该指标大于c的人判定为阳性,小于或等于c的
人判定为阴性,此检测标准的漏诊率是将患病者判定为阴性的概率,记为 p(c);误诊率是将未患病
者判定为阳性的概率,记为q(c).假设数据在组内均匀分布,以事件发生的频率作为相应事件发生
的概率.
(1)当漏诊率p(c)=0.5%时,求临界值c和误诊率q(c);
(2)设函数f(c)=p(c)+q(c).当c [95,105],求f(c)的解析式,并求f(c)在区间[95,
105]的最小值.
∈
【命题意图】
考查样本的数字特征、频率分布直方图、相关性、独立性检验.
【考查要点】
考查相关性、频率分布直方图、样本的数字特征、独立性检验、回归分析等.考查学生读取数据、分
析数据、处理数据的能力.
【得分要点】
1.众数、中位数、平均数
(1)众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.
(2)中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平
资料整理【淘宝店铺:向阳百分百】均数)叫做这组数据的中位数.
1
(3)平均数:一组数据的算术平均数,即x= (x +x +⋯+x ).
n 1 2 n
2.频率分布直方图
(1)频率分布直方图:在直角坐标系中,横轴表示样本数据,纵轴表示频率与组距的比值,将频率分
布表中的各组频率的大小用相应矩形面积的大小来表示,由此画成的统计图叫做频率分布直方图.
(2)频率分布直方图的特征
①各长方形面积等于相应各组的频率的数值,所有小矩形面积和为1.
②从频率分布直方图可以清楚地看出数据分布的总体趋势.
③从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息被抹
掉.
(3)频率分布直方图求数据
①众数:频率分布直方图中最高矩形的底边中点的横坐标.
②平均数:频率分布直方图各小矩形的面积乘底边中点的横坐标之和.
③中位数:把频率分布直方图分成两个面积相等部分的平行于y轴的直线横坐标.
3.极差、方差与标准差
(1)①用一组数据中最大数据减去最小数据的差来反映这组数据的变化范围,这个数据就叫极差.
②一组数据中各数据与平均数差的平方和的平均数叫做方差.
③方差的算术平方根就为标准差.
(2)方差和标准差都是反映这组数据波动的大小,方差越大,数据的波动越大.
4.独立性检验
(1)分类变量: 如果某种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)原理:假设性检验.
一般情况下:假设分类变量X和Y之间没有关系,通过计算K2值,然后查表对照相应的概率P,发现
这种假设正确的概率P很小,从而推翻假设,最后得出X和Y之间有关系的可能性为(1﹣P),也就是
“X和Y有关系”.(表中的k就是K2的观测值,即k=K2).
利用随机变量 (也可表示为 ) (其中 为样本容量)来
判断“两个变量有关系”的方法称为独立性检验.
资料整理【淘宝店铺:向阳百分百】(3)2×2列联表:
设 , 为两个变量,它们的取值分别为 和 ,其样本频数列联表( 列联表)如
下:
总计
总计
(4)范围:K2 (0,+∞);性质:K2越大,说明变量间越有关系.
(5)解题步骤:
∈
①认真读题,取出相关数据,作出2×2列联表;
②根据2×2列联表中的数据,计算K2的观测值k;
③通过观测值k与临界值k 比较,得出事件有关的可能性大小.
0
考查相关性、频率分布直方图、样本的数字特征、独立性检验、回归分析等.考查形式以多选题和解
答题为主。
考向一 样本的数字特征
3.(多选)(2021•新高考Ⅱ)下列统计量中,能度量样本x ,x ,…,x 的离散程度的有( )
1 2 n
A.样本x ,x ,…,x 的标准差
1 2 n
B.样本x ,x ,…,x 的中位数
1 2 n
C.样本x ,x ,…,x 的极差
1 2 n
D.样本x ,x ,…,x 的平均数
1 2 n
4.(多选)(2021•新高考Ⅰ)有一组样本数据x ,x ,…,x ,由这组数据得到新样本数据y ,y ,…,
1 2 n 1 2
y ,其中y=x+c(i=1,2,…,n),c为非零常数,则( )
n i i
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
考向二 频率分布直方图
5.(2022•新高考Ⅱ)在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下的
样本数据的频率分布直方图:
(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);
(2)估计该地区一位这种疾病患者的年龄位于区间[20,70)的概率;
资料整理【淘宝店铺:向阳百分百】(3)已知该地区这种疾病患者的患病率为0.1%,该地区年龄位于区间[40,50)的人口占该地区总人口
的16%.从该地区中任选一人,若此人的年龄位于区间[40,50),求此人患这种疾病的概率(以样本
数据中患者的年龄位于各区间的频率作为患者的年龄位于该区间的概率,精确到0.0001 ).
考向三 独立性检验
6.(2022•新高考Ⅰ)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良
好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该
疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好 良好
病例组 40 60
资料整理【淘宝店铺:向阳百分百】对照组 10 90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患
有该疾病”, 与 的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,
记该指标为R.
(ⅰ)证明:R= • ;
(ⅱ)利用该调查数据,给出P(A|B),P(A| )的估计值,并利用(ⅰ)的结果给出R的估计值.
附:K2= .
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
一.简单随机抽样(共3小题)
1.(2023•湖南模拟)已知某班共有学生46人,该班语文老师为了了解学生每天阅读课外书籍的时长情况,
决定利用随机数表法从全班学生中抽取10人进行调查.将46名学生按01,02,…,46进行编号.现
提供随机数表的第7行至第9行:
84 42 17 53 31 57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76
63 01 63 78 59 16 95 56 57 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 79
资料整理【淘宝店铺:向阳百分百】33 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 99 66 02 79 54
若从表中第7行第41列开始向右依次读取2个数据,每行结束后,下一行依然向右读数,则得到的第8
个样本编号是( )
A.07 B.12 C.39 D.44
2.(2023•赤峰模拟)某商场推出一种抽奖活动:盒子中装有有奖券和无奖券共10张券,客户从中任意抽
取2张,若至少抽中1张有奖券,则该客户中奖,否则不中奖.客户甲每天都参加1次抽奖活动,一个
月(30天)下来,发现自己共中奖11次,根据这个结果,估计盒子中的有奖券有( )
A.1张 B.2张 C.3张 D.4张
3.(2023•宜春模拟)福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个两位号
码中选取,小明利用如下所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列的数字开
始,从左到右依次读取数据,则第四个被选中的红色球号码为( )
第1行:2 9 7 6 3 4 1 3 2 8 4 1 4 2 4 1
第2行:8 3 0 3 9 8 2 2 5 8 8 8 2 4 1 0
第3行:5 5 5 6 8 5 2 6 6 1 6 6 8 2 3 1
A.10 B.22 C.24 D.26
二.分层抽样方法(共2小题)
4.(2023•江西模拟)目前,甲型流感病毒在国内传播,据某市卫健委通报,该市流行的甲型流感病毒,
以甲型H1N1亚型病毒为主,假如该市某小区共有100名感染者,其中有10名年轻人,60名老年人,
30名儿童,现用分层抽样的方法从中随机抽取20人进行检测,则做检测的老年人人数为( )
A.6 B.10 C.12 D.16
5.(2023•西山区校级模拟)为庆祝中国共产党成立100周年,某市举办“红歌大传唱”主题活动,以传
承红色革命精神,践行社会主义路线,某高中有高一、高二、高三分别600人、500人、700人,欲采
用分层抽样法组建一个18人的高一、高二、高三的红歌传唱队,则应抽取高三( )
A.5人 B.6人 C.7人 D.8人
三.系统抽样方法(共2小题)
6.(2023•凯里市校级二模)某工厂要对生产流水线上的600个零件(编号为001,002,…,599,600)
进行抽检,若采用系统抽样的方法抽检50个零件,且编号为015的零件被抽检,则被抽检的零件的最
小编号为 .
7.(2023•武汉模拟)2022年8月16日,航天员的出舱主通道——问天实验舱气闸舱首次亮相,为了解
学生对这一新闻的关注度,某班主任在开学初收集了50份学生的答题问卷,并抽取10份问卷进行了解,
现采用系统抽样的方法,将这50份答题问卷从01到50进行编号,分成10组,已知第一组中被抽到的
号码为03,则第8组中被抽到的号码为 .
四.分布和频率分布表(共2小题)
8.(2023•青羊区校级模拟)一个果园培养了一种少籽苹果,现随机抽样一些苹果调查苹果的平均果籽数
量,得到下列频率分布表:
果籽数目 1 2 3 4
苹果数 12 5 2 1
资料整理【淘宝店铺:向阳百分百】则根据表格,这批样本的平均果籽数量为( )
A.1 B.1.6 C.2.5 D.3.2
9.(2023•安宁市校级模拟)某人发现人们在邮箱名称里喜欢用数字,于是他做了调查,结果如下表:
邮箱数 60 130 265 306 1233 2130 4700 6897
名称里 36 78 165 187 728 1300 2820 4131
有数字
的邮箱
数
频率
(1)填写上表中的频率(结果保留到小数点后两位);
(2)人们在邮箱名称里使用数字的概率约是多少?
五.频率分布直方图(共11小题)
10.(2023•四川模拟)某学校在高三年级中抽取200名学生,调查他们课后完成作业的时间,并根据调查
结果绘制了如下频率分布直方图.根据此直方图得出了下列结论,其中不正确的是( )
A.所抽取的学生中有40人在2.5小时至3小时之间完成作业
B.该校高三年级全体学生中,估计完成作业的时间超过4小时的学生概率为0.1
C.估计该校高三年级学生的平均做作业的时间超过3小时
D.估计该校高三年级有一半的学生做作业的时间在2.5小时至4.5小时之间
11.(2023•碑林区校级模拟)为弘扬奥林匹克精神,普及冰雪运动知识,助力 2022年冬奥会和冬残奥会,
某校组织全体学生参与“激情冰雪﹣相约冬奥”冰雪运动知识竞赛.从参加竞赛的学生中,随机抽取若
干名学生的竞赛成绩,均在 50到100之间,将样本数据分组为[50,60),[60,70),[70,80),
[80,90),[90,100],并将成绩绘制得到如图所示的频率分布直方图.已知成绩在区间70到90的有
60人.
(1)求样本容量,并估计该校本㳄竞赛成绩的中位数及平均数 (同一组中的数据用该组区间的中点
值为代表);
(2)全校学生有1000人,抽取学生的竞赛成绩的标准差为11,用频率估计概率,记全校学生的竞赛成
绩的标准差为σ,估计全校学生中竞赛成绩在 内的人数.
资料整理【淘宝店铺:向阳百分百】12.(2023•商丘三模)某学校参加全国数学竞赛初赛(满分100分).该学校从全体参赛学生中随机抽取
了200名学生的初赛成绩绘制成频率分布直方图如图所示:
(1)根据频率分布直方图给出的数据估计此次初赛成绩的中位数和平均分数;
(2)从抽取的成绩在90~100的学生中抽取3人组成特训组,求学生A被选的概率.
13.(2023•葫芦岛一模)某校进行了物理学业质量监测考试,将考试成绩进行统计并制成如下频率分布
直方图,a的值为 ;考试成绩的中位数为 .
资料整理【淘宝店铺:向阳百分百】14.(2023•泉州模拟)随着老年人消费需求从“生存型”向“发展型”转变,消费层次不断提升,“银
发经济”成为社会热门话题之一,被各企业持续关注.某企业为了解该地老年人消费能力情况,对该地
年龄在[60,80)的老年人的年收入按年龄[60,70),[70,80)分成两组进行分层抽样调查,已知抽取
了年龄在[60,70)的老年人500人.年龄在[70,80)的老年人300人.现作出年龄在[60,70)的老年
人年收入的频率分布直方图(如下图所示).
(1)根据频率分布直方图,估计该地年龄在[60,70)的老年人年收入的平均数及第95百分位数;
(2)已知年龄在[60,70)的老年人年收入的方差为3,年龄在[70,80)的老年人年收入的平均数和方
差分别为3.75和1.4,试估计年龄在[60,80)的老年人年收入的方差.
15.(2023•贾汪区校级模拟)在某地区进行流行病调查,随机调查了100名某种疾病患者的年龄,得到如
图的样本数据频率分布直方图.
(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值作代表);
(2)估计该地区一人患这种疾病年龄在区间[20,70)的概率;
(3)已知该地区这种疾病的患病率为0.1%,该地区年龄位于区间[40,50)的人口占该地区总人口的
16%,从该地区任选一人,若此人年龄位于区间[40,50),求此人患该种疾病的概率.(样本数据中
的患者年龄位于各区间的频率作为患者年龄位于该区间的概率,精确到0.0001)
资料整理【淘宝店铺:向阳百分百】16.(2023•郑州模拟)2023U.I.M.F1摩托艇世界锦标赛中国郑州大奖赛于2023年4月29日~30日
在郑东新区龙湖水域举办.这场世界瞩目的国际体育赛事在风光迤逦的龙湖上演绎了速度与激情,全面
展示了郑州现代化国家中心城市的活力与魅力.为让更多的人了解体育运动项目和体育精神,某大学社
团举办了相关项目的知识竞赛,并从中随机抽取了100名学生的成绩,绘制成如图所示的频率分布直方
图.
(1)求频率分布直方图中成绩的平均数和中位数(同一组数据用该组区间的中点值代替);
(2)若先采用分层抽样的方法从成绩在[80,90),[90,100]的学生中共抽取6人,再从这6人中随机
抽取2人为赛事志愿者,求这2名志愿者中恰好有一人的成绩在[90,100]的概率.
17.(2023•四川模拟)某市为了解全市环境治理情况,对本市的200家中小型企业的污染情况进行了摸排,
并把污染情况各类指标的得分综合折算成准分(最高为100分),统计并制成如图所示的直方图,则这
次摸排中标准分不低于75分的企业数为( )
资料整理【淘宝店铺:向阳百分百】A.30 B.60 C.70 D.130
18.(2023•甘肃模拟)为提升本地景点的知名度、美誉度,各地文旅局长纷纷出圈,作为西北自然风光
与丝路人文历史大集合的青甘大环线再次引发热议.为了更好的提升服务,某地文旅局对到该地的
5000名旅行者进行满意度调查,将其分成以下 6组:[40,50),[50,60),[60,70),[70,80),
[80,90),[90,100],整理得到如图所示的频率分布直方图.
(1)求频率分布直方图中a的值;
(2)在这些旅行者中,满意度得分在60分及以上的有多少人?
(3)为了打造更加舒适的旅行体验,文旅局决定在这 5000名旅行者中用分层抽样的方法从得分在
[80,100]内抽取6名旅行者进一步做调查问卷和奖励.再从这6名旅行者中抽取一等奖两名,求中奖的
2人得分都在[80,90)内的概率.
19.(2023•日喀则市模拟)我市某校为了解高一新生对物理科与历史科方向的选择意向,对 1000名高一
新生发放意向选择调查表,统计知,有600名学生选择物理科,400名学生选择历史科.分别从选择物
理科和历史科的学生中随机各抽取20名学生的数学成绩得如下累计表(如表):
分数段 物理人数 历史人数
资料整理【淘宝店铺:向阳百分百】[40,50) 0 2
[50,60) 1 4
[60,70) 3 4
[70,80) 6 5
[80,90) 6 3
[90,100] 4 2
(1)利用表中数据,试分析数学成绩对学生选择物理科或历史科的影响,并绘制选择物理科的学生的
数学成绩的频率分布直方图,并求出选择物理科的学生的数学成绩的平均数(如图);
(2)从数学成绩低于80分的选择物理科和历史科的学生中按照分层抽样的方法抽取5个成绩,再从这
5个成绩中抽2个成绩,求至少有一个选择物理科学生的概率.
20.(2023•博白县模拟)某地区期末进行了统一考试,为做好本次考试的评价工作,现从中随机抽取了
50名学生的成绩,经统计,这批学生的成绩全部介于 40至100之间,将数据按照[40,50),[50,
60),[60,70),
[70,80),[80,90),[90,100]分成6组,制成了如图所示的频率分布直方图.
(1)求频率分布直方图中 m的值;在这50名学生中用分层抽样的方法从成绩在[70,80),[80,
资料整理【淘宝店铺:向阳百分百】90),
[90,100]的三组中抽取了11人,再从这11人中随机抽取3人,记X为3人中成绩在[80,90)的人数,
求P(X=1);
(2)规定成绩在[90,100]的为A等级,成绩在[70,90)的为B等级,其它为C等级.以样本估计总体,
用频率代替概率.从所有参加考试的同学中随机抽取3人,求获得B等级的人数不少于2人的概率.
六.频率分布折线图、密度曲线(共2小题)
21.(2023•青羊区校级模拟)在统计中,月度同比是指本月和上一年同月相比较的增长率,月度环比是
指本月和上一个月相比较的增长率,如图是2022年1月至2022年12月我国居民消费价格月度涨跌幅度
统计图,则以下说法错误的是( )
A.在这12个月中,我国居民消费价格月度同比数据的中位数为2.1%
B.在这12个月中,月度环比数据为正数的个数比月度环比数据为负数的个数多3
C.在这12个月中,我国居民消费价格月度同比数据的均值为1.85%
D.在这12个月中,我国居民消费价格月度环比数据的众数为0.0%
22.(2023•定远县校级模拟)空气质量指数是评估空气质量状况的一组数字,空气质量指数划分为[0,
50)、[50,100)、[100,150)、[150,200)、[200,300)和[300,500]六档,分别对应“优”、
“良”、“轻度污染”、“中度污染”、“重度污染”和“严重污染”六个等级.如图是某市 2月1日
至14日连续14天的空气质量指数趋势图,则下面说法中正确的是( )
资料整理【淘宝店铺:向阳百分百】A.这14天中有5天空气质量为“中度污染”
B.从2日到5日空气质量越来越好
C.这14天中空气质量指数的中位数是214
D.连续三天中空气质量指数方差最小是5日到7日
七.茎叶图(共3小题)
23.(2023•兴国县模拟)某赛季甲、乙两名篮球运动员每场比赛的得分用如图所示的茎叶图表示,茎叶
图中甲运动员每场比赛得分的中位数为 18.5,若甲、乙两名篮球运动员每场比赛得分的平均数分别用
, 表示,标准差分别用S ,S 表示,则( )
1 2
A. ,S <S B. ,S <S
1 2 1 2
C. ,S >S D. ,S >S
1 2 1 2
24.(2023•毕节市模拟)某市质量检测部门从辖区内甲、乙两个地区的食品生产企业中分别随机抽取9家
企业,根据食品安全管理考核指标对抽到的企业进行考核,并将各企业考核得分整理成如下的茎叶图.
由茎叶图所给信息,可判断以下结论中正确是( )
A.若a=2,则甲地区考核得分的极差大于乙地区考核得分的极差
B.若a=4,则甲地区考核得分的平均数小于乙地区考核得分的平均数
C.若a=5,则甲地区考核得分的方差小于乙地区考核得分的方差
D.若a=6,则甲地区考核得分的中位数小于乙地区考核得分的中位数
25.(2023•河南模拟)某班男女生各10名最近一周平均每天的锻炼时间(单位:分钟)的茎叶图如图所
示.假设每名学生最近一周平均每天的锻炼时间是互相独立的.
①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大.
②从平均数分析,男生每天锻炼的时间比女生多.
资料整理【淘宝店铺:向阳百分百】③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差.
④从10个男生中任选一人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过
65分钟的概率大.
上述四个结论中符合茎叶图所给数据的结论是( )
A.①②③ B.②③④ C.①②④ D.①③④
八.散点图(共2小题)
26.(2023•泉州模拟)某兴趣小组研究光照时长x(h)和向日葵种子发芽数量y(颗)之间的关系,采集
5组数据,作如图所示的散点图.若去掉D(10,2)后,下列说法正确的是( )
A.相关系数r变小
B.决定系数R2变小
C.残差平方和变大
D.解释变量x与预报变量y的相关性变强
27.(2023•嘉定区模拟)如图是根据x,y的观测数据(x
i
,y
i
)(i=1,2,⋯,10)得到的散点图,可以
判断变量x,y具有线性相关关系的图是( )
A.①② B.③④ C.②③ D.①④
九.统计图表获取信息(共2小题)
资料整理【淘宝店铺:向阳百分百】28.(2023•遂宁模拟)如图是遂宁市2022年4月至2023年3月每月最低气温与最高气温(℃)的折线统
计图:已知每月最低气温与最高气温的线性相关系数r=0.88,则下列结论正确的是( )
A.月温差(月最高气温﹣月最低气温)的最大值出现在8月
B.每月最低气温与最高气温有较强的线性相关性,且二者为线性负相关
C.每月最高气温与最低气温的平均值在4﹣8月逐月增加
D.9﹣12月的月温差相对于5﹣8月,波动性更小
29.(2023•中卫一模)某保险公司为客户定制了A,B,C,D,E共5个险种,并对5个险种参保客户进
行抽样调查,得出如下的统计图:
用该样本估计总体,以下四个说法错误的是( )
A.57周岁以上参保人数最少
B.18~30周岁人群参保总费用最少
C.C险种更受参保人青睐
D.31周岁以上的人群约占参保人群80%
一十.众数、中位数、平均数(共7小题)
30.(多选)(2023•洪山区校级模拟)某产品售后服务中心选取了20个工作日,分别记录了每个工作日接
到的客户服务电话的数量(单位:次):
63 38 25 42 56 48 53 39 28 47
45 52 59 48 41 62 48 50 52 27
则这组数据的( )
A.众数是48 B.中位数是48
C.极差是37 D.5%分位数是25
资料整理【淘宝店铺:向阳百分百】31.(多选)(2023•湖北模拟)在一次党建活动中,甲、乙、丙、丁四个兴趣小组举行党史知识竞赛,每
个小组各派10名同学参赛,记录每名同学失分(均为整数)情况,若该组每名同学失分都不超过7分,
则该组为“优秀小组”,已知甲、乙、丙、丁四个小组成员失分数据信息如下,则一定为“优秀小组”
的是( )
A.甲组中位数为2,极差为5
B.乙组平均数为2,众数为2
C.丙组平均数为1,方差大于0
D.丁组平均数为2,方差为3
32.(多选)(2023•朝阳区校级模拟)已知互不相同的9个样本数据,若去掉其中最大和最小的数据,则
剩下的7个数据与原9个数据相比,下列数字特征中不变的是( )
A.中位数 B.平均数
C.方差 D.第40百分位数
33.(多选)(2023•花都区校级模拟)为了加强疫情防控,某中学要求学生在校时每天都要进行体温检测.
某班级体温检测员对一周内甲乙两名同学的体温进行了统计,其结果如图所示,则下列结论正确的是(
)
A.乙同学体温的极差为0.3°C
B.甲同学体温的中位数与平均数相等
C.乙同学体温的方差比甲同学体温的方差小
D.甲同学体温的第60百分位数为36.5°C
34.(多选)(2023•朝阳区校级模拟)现有甲、乙、丙三位篮球运动员连续5场篮球比赛得分情况的记录
数据,已知三位球员得分情况的数据满足以下条件:
甲球员:5个数据的中位数是26,众数是24;
乙球员;5个数据的中位数是29,平均数是26;
丙球员:5个数据有1个是32,平均数是26,方差是9.6;
根据以上统计数据,下列统计结论一定正确的是( )
A.甲球员连续5场比赛得分都不低于24分
B.乙球员连续5场比赛得分都不低于24分
C.丙球员连续5场比赛得分都不低于24分
D.丙球员连续5场比赛得分的第60百分位数大于24
资料整理【淘宝店铺:向阳百分百】一十一.极差、方差与标准差(共4小题)
35.(多选)(2023•锦州一模)甲、乙二人在相同条件下各射击10次,每次中靶环数情况如图所示:下列
说法正确的是( )
A.从环数的平均数看,甲、乙二人射击水平相当
B.从环数的方差看,甲的成绩比乙稳定
C.从平均数和命中9环及9环以上的频数看,乙的成绩更好
D.从二人命中环数的走势看,甲更有潜力
36.(多选)(2023•张家口三模)一组互不相等的样本数据x
1
,x
2
,⋯,x
n
,其平均数为 ,方差为s2,极
差为m,中位数为n,去掉其中的最小值和最大值后,余下数据的平均数为 ,方差为s′2,极差为
m′,中位数为n′,则下列选项一定正确的有( )
A.n=n′ B. C.s2>s′2 D.m>m′
37.(多选)(2023•嘉兴二模)已知一组样本数据x ,x ,…,x (x <x <…<x ),现有一组新的数据
1 2 n 1 2 n
, ,…, , ,则与原样本数据相比,新的样本数据( )
A.平均数不变 B.中位数不变 C.极差变小 D.方差变小
38.(多选)(2023•安徽模拟)甲、乙两位射击爱好者,各射击10次,甲的环数从小到大排列为4,5,
5,6,6,7,7,8,8,9,乙的环数从小到大排列为2,5,6,6,7,7,7,8,9,10.则( )
A.甲的环数的70%分位数是7
B.甲的平均环数比乙的平均环数小
C.这20个数据的平均值为6.6
D.若甲的方差为2.25,乙的方差为4.41,则这20个数据的方差为4.34
39.(多选)(2023•辽宁一模)给定数5,4,3,5,3,2,2,3,1,2,则这组数据的( )
A.中位数为3 B.方差为
C.众数为3 D.85%分位数为4.5
40.(多选)(2023•桃城区校级模拟)统计学是源自对国家的资料进行分析,也就是“研究国家的科学”.
一般认为其学理研究始于希腊的亚里士多德时代,迄今已有两千三百多年的历史.在两千多年的发展过
程中,将社会经济现象量化的方法是近代统计学的重要特征.为此,统计学有了自己研究问题的参数,
资料整理【淘宝店铺:向阳百分百】比如:均值、中位数、众数、标准差.一组数据:a
1
,a
2
,⋯,a
2023
(a
1
<a
2
<a
3
<⋯<a
2023
))记其均
值为m,中位数为k,标准差为s,则( )
A.k=a
1012
B.a <m<a
1011 1012
C.新数据:a
1
+2,a
2
+2,a
3
+2,⋯,a
2023
+2的标准差为s+2
D.新数据:2a
1
+1,2a
2
+1,2a
3
+1,⋯,2a
2023
+1的标准差为2s
一十二.用样本的数字特征估计总体的数字特征(共1小题)
41.(多选)(2023•泉州模拟)某学校为调查学生迷恋电子游戏情况,设计如下调查方案,每个被调查
者先投掷一枚骰子,若出现向上的点数为3的倍数,则如实回答问题“投掷点数是不是奇数?”,反之,
如实回答问题“你是不是迷恋电子游戏?”.已知被调查的150名学生中,共有30人回答“是”,则
下列结论正确的是( )
A.这150名学生中,约有50人回答问题“投掷点数是不是奇数?”
B.这150名学生中,必有5人迷恋电子游戏
C.该校约有5%的学生迷恋电子游戏
D.该校约有2%的学生迷恋电子游戏
一十三.百分位数(共2小题)
42.(多选)(2023•张家口二模)中央广播电视总台《2023年春节联欢晚会》以温暖人心的精品节目、亮
点满满的技术创新、美轮美奂的舞美效果为全球华人送上了一道红红火火的文化大䝳.某机构随机调查
了18位观众对2023年春晚节目的满意度评分情况,得到如下数据:a,60,70,70,72,73,74,
74,75,76,77,79,80,83,85,87,93,100.若a恰好是这组数据的上四分位数,则a的值可能
为( )
A.83 B.84 C.85 D.87
43.(多选)(2023•浙江模拟)已知某地区某周7天每天的最高气温分别为23,25,13,10,13,12,19
(单位℃).则( )
A.该组数据的平均数为
B.该组数据的中位数为13
C.该组数据的第70百分位数为16
D.该组数据的极差为15
44.(多选)(2023•茂名二模)小爱同学在一周内自测体温(单位:℃)依次为36.1,36.2,36.1,36.5,
36.3,36.6,36.3,则该组数据的( )
A.平均数为36.3 B.方差为0.04
C.中位数为36.3 D.第80百分位数为36.55
45.(多选)(2023•如皋市模拟)某班共有48人,小明在一次数学测验中的成绩是第5名,则小明成绩的
百分位数可能是( )
A.9 B.10 C.90 D.91
资料整理【淘宝店铺:向阳百分百】一十四.变量间的相关关系(共2小题)
46.(多选)(2023•鼓楼区校级模拟)下列说法中正确的是( )
A.若数据x ,x ,…,x 的方差s2为0,则此组数据的众数唯一
1 2 n
B.已知一组数据2,3,5,7,8,9,9,11,则该组数据的第40百分位数为6
C.若两个具有线性相关关系的变量的相关性越强,则线性相关系数r的值越大
D.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高
一十五.相关系数(共4小题)
47.(2023•锡山区校级一模)对两组变量进行回归分析,得到不同的两组样本数据,第一组对应的相关
系数,残差平方和,决定系数分别为r , , ,第二组对应的相关系数,残差平方和,决定系数分
1
别为r , , ,则( )
2
A.若r >r ,则第一组变量比第二组的线性相关关系强
1 2
B.若 ,则第一组变量比第二组的线性相关关系强
C.若 ,则第一组变量比第二组变量拟合的效果好
D.若 ,则第二组变量比第一组变量拟合的效果好
48.(2023•黄州区校级二模)在一组样本数据(x
1
,y
1
),(x
2
,y
2
),⋯,(x
n
,y
n
),(n≥2,x
1
,
x
2
,⋯,x
n
互不相等)的散点图中,若所有样本点(x
i
,y
i
)(i=1,2,⋅⋅⋅,n)都在直线 上,
则这组样本数据的样本相关系数为( )
A. B. C.﹣1 D.1
49.(2023•汉滨区校级模拟)某食品加工厂新研制出一种袋装食品(规格:500g/袋),下面是近六个月
每袋出厂价格(单位:元)与销售量(单位:万袋)的对应关系表:
月份序号 1 2 3 4 5 6
每袋出厂价 10.5 10.9 11 11.5 12 12.5
格x
i
月销售量y 2.2 2 1.9 1.8 1.5 1.4
i
并计算得 , , .
(1)计算该食品加工厂这六个月内这种袋装食品的平均每袋出厂价格、平均月销售量和平均月销售收
入;
资料整理【淘宝店铺:向阳百分百】(2)求每袋出厂价格与月销售量的样本相关系数(精确到0.01);
(3)若样本相关系数|r|≥0.75,则认为相关性很强;否则没有较强的相关性.你认为该食品加工厂制定
的每袋食品的出厂价格与月销售量是否有较强的相关性.
附:样本相关系数 , .
一十六.线性回归方程(共5小题)
50.(2023•江西模拟)近年来,我国无人机产业发展迅猛,在全球具有领先优势,已经成为“中国制
造”一张靓丽的新名片,其中民用无人机市场也异常火爆,销售量逐年上升.现某无人机专卖店统计了
5月份前5天每天无人机的实际销量,结果如下表所示.
日期编号x 1 2 3 4 5
销量y/部 9 a 17 b 27
经分析知,y 与 x 有较强的线性相关关系,且求得线性回归方程为 ,则 a+b 的值为
( )
A.28 B.30 C.33 D.35
51.(2023•金安区校级模拟)某学校一同学研究温差x(℃)与本校当天新增感冒人数y(人)的关系,
该同学记录了5天的数据:
x 5 6 8 9 12
y 17 20 25 28 35
经过拟合,发现基本符合经验回归方程 ,则下列结论错误的是( )
A.样本中心点为(8,25)
B.
C.x=5时,残差为﹣0.2
资料整理【淘宝店铺:向阳百分百】D.若去掉样本点(8,25),则样本的相关系数r增大
52.(2023•乌鲁木齐模拟)5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某手机
商城统计了最近5个月手机的实际销量,如表所示:
时间x 1 2 3 4 5
销售量y(千 0.5 0.8 1.0 1.2 1.5
只)
若y与x线性相关,且线性回归方程为 ,则下列说法不正确的是( )
A.由题中数据可知,变量y与x正相关,且相关系数r<1
B.线性回归方程 中
C.残差 的最大值与最小值之和为0
D.可以预测x=6时该商场5G手机销量约为1.72(千只)
53.(2023•鞍山模拟)2020年,是人类首次成功从北坡登顶珠峰60周年,也是中国首次精确测定并公布
珠峰高程的45周年.华为帮助中国移动开通珠峰峰顶5G,有助于测量信号的实时开通,为珠峰高程测
量提供通信保障,也验证了超高海拔地区5G信号覆盖的可能性,在持续高风速下5G信号的稳定性,
在条件恶劣地区通过简易设备传输视频信号的可能性.正如任总在一次采访中所说:“华为公司价值体
系的理想是为人类服务.”有人曾问,在珠峰开通5G的意义在哪里?“我认为它是科学技术的一次珠
峰登顶,告诉全世界,华为5G、中国5G的底气来自哪里.现在,5G的到来给人们的生活带来更加颠
覆性的变革,某IT公司基于领先技术的支持,5G经济收入在短期内逐月攀升,该IT公司在1月份至6
月份的5G经济收入y(单位:百万元)关于月份x的数据如下表所示,并根据数据绘制了如图所示的散
点图.
月份x 1 2 3 4 5 6
收入y(百 6.6 8.6 16.1 21.6 33.0 41.0
万元)
(1)根据散点图判断,y=ax+b与y=c•edx(a,b,c,d均为常数)哪一个更适宜作为5G经济收入y
关于月份x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的结果及表中的数据,求出y关于x的回归方程,并预测该公司7月份的5G经济收入.
(结果保留小数点后两位)
(3)从前6个月的收入中抽取2个,记收入超过20百万元的个数为X,求X的分布列和数学期望.参
考数据:
e1.52 e2.66
3.50 21.15 2.85 17.70 125.35 6.73 4.57 14.30
其中,设u=lny,u=lny(i=1,2,3,4,5,6).
i i
资料整理【淘宝店铺:向阳百分百】参考公式:对于一组具有线性相关关系的数据(x
i
,v
i
)(i=1,2,3,⋯,n),其回归直线
的斜率和截距的最小二乘估计公式分别为 , .
54.(2023•道里区校级二模)中国共产党第二十次全国代表大会上的报告中提到,新时代十年我国经济
实力实现历史性跃升,国内生产总值从54万亿元增长到114万亿元,我国经济总量稳居世界第二位.
建立年份编号为解释变量,地区生产总值为响应变量的一元线性回归模型,现就 2012﹣2016某市的地
区生产总值统计如下:
年份 2012 2013 2014 2015 2016
年份编号 1 2 3 4 5
地区生产总值 2.8 3.1 3.9 4.6 5.6
(亿元)
(1)求出回归方程,并计算2016年地区生产总值的残差;
(2)随着我国打赢了人类历史上规模最大的脱贫攻坚战,该市2017﹣2022的地区生产总值持续增长,
资料整理【淘宝店铺:向阳百分百】现对这 11 年的数据有三种经验回归模型 =1.017x+1.200、 ﹣1.645、
+2.365,它们的R2分别为0.976、0.880和0.985,请根据R2的数值选择最好的回归模型预测一下2023年
该市的地区生产总值;
(3)若2012﹣2022该市的人口数(单位:百万)与年份编号的回归模型为 =0.2x+1.2,结合(2)问
中的最佳模型,预测一下在2023年以后,该市人均地区生产总值的变化趋势.
参考公式: , .
一十七.回归分析(共2小题)
55.(2023•石家庄三模)观察下列四幅残差图,满足一元线性回归模型中对随机误差的假定的是
( )
A. B.
资料整理【淘宝店铺:向阳百分百】C. D.
56.(多选)下列命题中为真命题的是( )
A.用最小二乘法求得的一元线性回归模型的残差和一定是0
B.一组数按照从小到大排列后为:x ,x ,…,x ,计算得:n×25%=17,则这组数的25%分位数是
1 2 n
x
17
C.在分层抽样时,如果知道各层的样本量、各层的样本均值及各层的样本方差,可以计算得出所有数
据的样本均值和方差
D.从统计量中得知有97%的把握认为吸烟与患肺病有关系,是指推断有3%的可能性出现错误
一十八.独立性检验(共4小题)
57.(2023•道里区校级模拟)下列说法不正确的是( )
A.甲、乙、丙三种个体按3:1:2的比例分层抽样调查,若抽取的甲种个体数为9,则样本容量为18
B.设一组样本数据x ,x ,…,x 的方差为2,则数据4x ,4x ,…,4x 的方差为32
1 2 n 1 2 n
C.在一个2×2列联表中,计算得到|χ2的值,则χ2的值越接近1,可以判断两个变量相关的把握性越大
D.已知随机变量 ~N(2,σ2),且P( <4)=0.8,则P(0< <4)=0.6
58.(2023•菏泽二模)足球是一项大众喜爱的运动,为了解喜爱足球是否与性别有关,随机抽取了若干
ξ ξ ξ
人进行调查,抽取女性人数是男性的2倍,男性喜爱足球的人数占男性人数的 ,女性喜爱足球的人数
占女性人数的 ,若本次调查得出“在犯错误的概率不超过 0.005的前提下认为喜爱足球与性别有关”
的结论,则被调查的男性至少有( )人.
a 0.10 0.05 0.01 0.005 0.001
x 2.706 3.841 5.635 7.879 10.828
a
A.10 B.11 C.12 D.13
59.(2023•四川模拟)为调查学生近视情况,某地区从不同地域环境的甲、乙两所学校各抽取500名学生
参与调查,调查结果分为“近视”与“非近视”两类,结果统计如下表:
近视人数 非近视人数 合计
甲校 250 250 500
乙校 300 200 500
合计 550 450 1000
资料整理【淘宝店铺:向阳百分百】(1)估计甲、乙两所学校学生近视的频率分别是多少?
(2)根据调查数据,能否有99%的把握认为近视人数与不同地域环境的学校有关?
附: ,其中n=a+b+c+d.
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
60.(2023•湖南模拟)民族要复兴,乡村要振兴,合作社助力乡村产业振兴,农民专业合作社已成为新
型农业经营主体和现代农业建设的中坚力量,为实施乡村振兴战略作出了巨大的贡献.已知某主要从事
手工编织品的农民专业合作社共有100名编织工人,该农民专业合作社为了鼓励工人,决定对“编织巧
手”进行奖励,为研究“编织巧手”是否与年龄有关,现从所有编织工人中抽取 40周岁以上(含40周
岁)的工人24名,40周岁以下的工人16名,得到的数据如表所示.
“编织巧手” 非“编织巧手” 总计
年龄≥40岁 19 _____ _____
年龄<40岁 _____ 10 _____
总计 _____ _____ 40
(1)请完成答题卡上的2×2列联表,并根据小概率值 =0.010的独立性检验,分析“编织巧手”与
“年龄”是否有关;
α
(2)为进一步提高编织效率,培养更多的“编织巧手”,该农民专业合作社决定从上表中的非“编织
巧手”的工人中采用分层抽样的方法抽取6人参加技能培训,再从这6人中随机抽取2人分享心得,求
资料整理【淘宝店铺:向阳百分百】这2人中恰有1人的年龄在40周岁以下的概率.
参考公式: ,其中n=a+b+c+d.
参考数据:
0.100 0.050 0.010 0.005
xα 2.706 3.841 6.635 7.879
α
1.线性回归方程:
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
x , y ,x , y ,⋯,x , y
(2)回归方程:两个具有线性相关关系的变量的一组数据: 1 1 2 2 n n ,其回归方
n
x y nxy
i i
b i1 ,
n
x2 nx 2
i
i1
ybxa a ybx. x, y
程为 ,则 注意:线性回归直线经过定点 .
n n
x xy y x y nxy
i i i i
r i1 i1
n n n n
x x2y y2 x2 nx2 y2 ny2
i i i i
(3)相关系数: i1 i1 i1 i1 .
【方法归纳】
资料整理【淘宝店铺:向阳百分百】(1)利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函
数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关
关系.若点散布在从左下角到右上角的区域,则正相关.
r
(2)利用相关系数判定,当
越趋近于1相关性越强.当残差平方和越小,相关指数R2
越大,相关性越
强.
(3)在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相
关关系,也可计算相关系数r进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的
值.
b ,a
(4)正确运用计算 的公式和准确的计算,是求线性回归方程的关键.并充分利用回归直线
y bxa x, y
过样本点的中心 进行求值.
2、回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。
建立回归模型的基本步骤是:
(1)确定研究对象,明确两个变量即解释变量和预报变量;
(2)画出散点图,观察它们之间的关系;
(3)由经验确定回归方程类型(若呈线性关系,选用线性回归方程);
(4)按一定规则估计回归方程中的参数(如最小二乘法);
(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差出现不随机的规律性,等等),
若存在异常,则检查数据是否有误,或模型是否合适等。
3.独立性检验的一般步骤
(1)根据样本数据列出 列联表;
(2)计算随机变量 的观测值k,查下表确定临界值k:
0
(3)如果 ,就推断“X与Y有关系”,这种推断犯错误的概率不超过 ;否则,就认为在
犯错误的概率不超过 的前提下不能推断“X与Y有关系”.
资料整理【淘宝店铺:向阳百分百】