文档内容
专题 16 统计
目录一览
2023真题展现
考向一 样本的数字特征
考向二 频率分布直方图
真题考查解读
近年真题对比
考向一 样本的数字特征
考向二 频率分布直方图
考向三 独立性检验
命题规律解密
名校模拟探源
易错易混速记/二级结论速记
考向一 样本的数字特征
1.(多选)(2023•新高考Ⅰ•第9题)有一组样本数据x ,x ,⋯,x ,其中x 是最小值,x 是最大值,
1 2 6 1 6
则( )
A.x,x,x,x 的平均数等于x,x,⋯,x 的平均数
2 3 4 5 1 2 6
B.x,x,x,x 的中位数等于x,x,⋯,x 的中位数
2 3 4 5 1 2 6
C.x,x,x,x 的标准差不小于x,x,⋯,x 的标准差
2 3 4 5 1 2 6
D.x,x,x,x 的极差不大于x,x,⋯,x 的极差
2 3 4 5 1 2 6
【答案】BD
解:A选项,x,x,x,x 的平均数不一定等于x,x,⋯,x 的平均数,A错误;
2 3 4 5 1 2 6
x +x x +x
B选项,x,x,x,x 的中位数等于 3 4,x,x,⋯,x 的中位数等于 3 4,B正确;
2 3 4 5 2 1 2 6 2
C选项,设样本数据x ,x ,⋯,x 为0,1,2,8,9,10,可知x ,x ,⋯,x 的平均数是5,x ,x ,
1 2 6 1 2 6 2 3
x,x 的平均数是5,
4 5
1 50
x ,x ,⋯,x 的方差s 2= ×[(0﹣5)2+(1﹣5)2+(2﹣5)2+(8﹣5)2+(9﹣5)2+(10﹣5)2]=
1 2 6 1 6 3
,
1 25
x,x,x,x 的方差s 2= ×[(1﹣5)2+(2﹣5)2+(8﹣5)2+(9﹣5)2]= ,
2 3 4 5 2 4 2
资料整理【淘宝店铺:向阳百分百】s 2>s 2 ,∴s>s,C错误.
1 2 1 2
D选项,x>x,x>x,∴x﹣x>x﹣x,D正确.
6 5 2 1 6 1 5 2
考向二 频率分布直方图
2.(2023•新高考Ⅱ•第19题)某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有
明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:
利用该指标制定一个检测标准,需要确定临界值 c,将该指标大于c的人判定为阳性,小于或等于c的
人判定为阴性,此检测标准的漏诊率是将患病者判定为阴性的概率,记为 p(c);误诊率是将未患病
者判定为阳性的概率,记为q(c).假设数据在组内均匀分布,以事件发生的频率作为相应事件发生
的概率.
(1)当漏诊率p(c)=0.5%时,求临界值c和误诊率q(c);
(2)设函数f(c)=p(c)+q(c).当c [95,105],求f(c)的解析式,并求f(c)在区间[95,
105]的最小值.
∈
解:(1)当漏诊率p(c)=0.5%时,
则(c﹣95)•0.002=0.5%,解得c=97.5;
q(c)=0.01×2.5+5×0.002=0.035=3.5%;
(2)当c [95,100]时,
f(c)=p(c)+q(c)=(c﹣95)•0.002+(100﹣c)•0.01+5×0.002=﹣0.008c+0.82≥0.02,
∈
当c (100,105]时,f(c)=p(c)+q(c)=5×0.002+(c﹣100)•0.012+(105﹣c)•0.002=0.01c﹣
0.98>0.02,
∈
{-0.008c+0.82,95≤c≤100
故f(c)= ,
0.01c-0.98,100<c≤105
所以f(c)的最小值为0.02.
【命题意图】
考查样本的数字特征、频率分布直方图、相关性、独立性检验.
资料整理【淘宝店铺:向阳百分百】【考查要点】
考查相关性、频率分布直方图、样本的数字特征、独立性检验、回归分析等.考查学生读取数据、分
析数据、处理数据的能力.
【得分要点】
1.众数、中位数、平均数
(1)众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.
(2)中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平
均数)叫做这组数据的中位数.
1
(3)平均数:一组数据的算术平均数,即x= (x +x +⋯+x ).
n 1 2 n
2.频率分布直方图
(1)频率分布直方图:在直角坐标系中,横轴表示样本数据,纵轴表示频率与组距的比值,将频率分
布表中的各组频率的大小用相应矩形面积的大小来表示,由此画成的统计图叫做频率分布直方图.
(2)频率分布直方图的特征
①各长方形面积等于相应各组的频率的数值,所有小矩形面积和为1.
②从频率分布直方图可以清楚地看出数据分布的总体趋势.
③从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息被抹
掉.
(3)频率分布直方图求数据
①众数:频率分布直方图中最高矩形的底边中点的横坐标.
②平均数:频率分布直方图各小矩形的面积乘底边中点的横坐标之和.
③中位数:把频率分布直方图分成两个面积相等部分的平行于y轴的直线横坐标.
3.极差、方差与标准差
(1)①用一组数据中最大数据减去最小数据的差来反映这组数据的变化范围,这个数据就叫极差.
②一组数据中各数据与平均数差的平方和的平均数叫做方差.
③方差的算术平方根就为标准差.
(2)方差和标准差都是反映这组数据波动的大小,方差越大,数据的波动越大.
4.独立性检验
(1)分类变量: 如果某种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
资料整理【淘宝店铺:向阳百分百】(2)原理:假设性检验.
一般情况下:假设分类变量X和Y之间没有关系,通过计算K2值,然后查表对照相应的概率P,发现
这种假设正确的概率P很小,从而推翻假设,最后得出X和Y之间有关系的可能性为(1﹣P),也就是
“X和Y有关系”.(表中的k就是K2的观测值,即k=K2).
利用随机变量 (也可表示为 ) (其中 为样本容量)来
判断“两个变量有关系”的方法称为独立性检验.
(3)2×2列联表:
设 , 为两个变量,它们的取值分别为 和 ,其样本频数列联表( 列联表)如
下:
总计
总计
(4)范围:K2 (0,+∞);性质:K2越大,说明变量间越有关系.
(5)解题步骤:
∈
①认真读题,取出相关数据,作出2×2列联表;
②根据2×2列联表中的数据,计算K2的观测值k;
③通过观测值k与临界值k 比较,得出事件有关的可能性大小.
0
考查相关性、频率分布直方图、样本的数字特征、独立性检验、回归分析等.考查形式以多选题和解
答题为主。
考向一 样本的数字特征
3.(多选)(2021•新高考Ⅱ)下列统计量中,能度量样本x ,x ,…,x 的离散程度的有( )
1 2 n
A.样本x ,x ,…,x 的标准差
1 2 n
B.样本x ,x ,…,x 的中位数
1 2 n
C.样本x ,x ,…,x 的极差
1 2 n
D.样本x ,x ,…,x 的平均数
1 2 n
【解答】解:中位数是反应数据的变化,
方差是反应数据与均值之间的偏离程度,
极差是用来表示统计资料中的变异量数,反映的是最大值与最小值之间的差距,
平均数是反应数据的平均水平,
资料整理【淘宝店铺:向阳百分百】故能反应一组数据离散程度的是标准差,极差.
故选:AC.
4.(多选)(2021•新高考Ⅰ)有一组样本数据x ,x ,…,x ,由这组数据得到新样本数据y ,y ,…,
1 2 n 1 2
y ,其中y=x+c(i=1,2,…,n),c为非零常数,则( )
n i i
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
【解答】解:对于A,两组数据的平均数的差为c,故A错误;
对于B,两组样本数据的样本中位数的差是c,故B错误;
对于C,∵标准差D(y)=D(x+c)=D(x),
i i i
∴两组样本数据的样本标准差相同,故C正确;
对于D,∵y=x+c(i=1,2,…,n),c为非零常数,
i i
x的极差为x ﹣x ,y的极差为(x +c)﹣(x +c)=x ﹣x ,
max min max min max min
∴两组样本数据的样本极差相同,故D正确.
故选:CD.
考向二 频率分布直方图
5.(2022•新高考Ⅱ)在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下的
样本数据的频率分布直方图:
(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);
(2)估计该地区一位这种疾病患者的年龄位于区间[20,70)的概率;
(3)已知该地区这种疾病患者的患病率为0.1%,该地区年龄位于区间[40,50)的人口占该地区总人口
的16%.从该地区中任选一人,若此人的年龄位于区间[40,50),求此人患这种疾病的概率(以样本
数据中患者的年龄位于各区间的频率作为患者的年龄位于该区间的概率,精确到0.0001 ).
【解答】解:(1)由频率分布直方图得该地区这种疾病患者的平均年龄为:
=
5×0.001×10+15×0.002×10+25×0.012×10+35×0.017×10+45×0.023×10+55×0.020×10+65×0.017×10+75×0.006
×10+85×0.002×10=47.9岁.
(2)该地区一位这种疾病患者的年龄位于区间[20,70)的频率为:
资料整理【淘宝店铺:向阳百分百】(0.012+0.017+0.023+0.020+0.017)×10=0.89,
∴估计该地区一位这种疾病患者的年龄位于区间[20,70)的概率为0.89.
(3)设从该地区中任选一人,此人的年龄位于区间[40,50)为事件B,此人患这种疾病为事件C,
则P(C|B)= = ≈0.0014.
考向三 独立性检验
6.(2022•新高考Ⅰ)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良
好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该
疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好 良好
病例组 40 60
对照组 10 90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患
有该疾病”, 与 的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,
记该指标为R.
(ⅰ)证明:R= • ;
(ⅱ)利用该调查数据,给出P(A|B),P(A| )的估计值,并利用(ⅰ)的结果给出R的估计值.
附:K2= .
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
【解答】解:(1)补充列联表为:
不够良好 良好 合计
病例组 40 60 100
对照组 10 90 100
合计 50 150 200
计算K2= =24>6.635,
所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
资料整理【淘宝店铺:向阳百分百】( 2 ) ( i ) 证 明 : R = : = • = • =
= • = ;
(ⅱ)利用调查数据,P(A|B)= = , = = ,P( |B)=1﹣P(A|B)= ,P
( | )=1﹣P(A| )= ,
所以R= × =6.
一.简单随机抽样(共3小题)
1.(2023•湖南模拟)已知某班共有学生46人,该班语文老师为了了解学生每天阅读课外书籍的时长情况,
决定利用随机数表法从全班学生中抽取10人进行调查.将46名学生按01,02,…,46进行编号.现
提供随机数表的第7行至第9行:
84 42 17 53 31 57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76
63 01 63 78 59 16 95 56 57 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 79
33 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 99 66 02 79 54
若从表中第7行第41列开始向右依次读取2个数据,每行结束后,下一行依然向右读数,则得到的第8
个样本编号是( )
A.07 B.12 C.39 D.44
【解答】解:由题意可知得到的样本编号依次为12,06,01,16,19,10,07,44,39,38,
则得到的第8个样本编号是44.
故选:D.
2.(2023•赤峰模拟)某商场推出一种抽奖活动:盒子中装有有奖券和无奖券共10张券,客户从中任意抽
取2张,若至少抽中1张有奖券,则该客户中奖,否则不中奖.客户甲每天都参加1次抽奖活动,一个
月(30天)下来,发现自己共中奖11次,根据这个结果,估计盒子中的有奖券有( )
A.1张 B.2张 C.3张 D.4张
【解答】解:设盒子中的有奖券x张,则无奖券(10﹣x)张,
所以客户不中奖的概率为 =1﹣ ,
资料整理【淘宝店铺:向阳百分百】即 = ,化简得x2﹣19x+33=0,解得x= ,
因为x (0,10),所以x的近似值为2,即估计盒子中的有奖券有2张.
故选:B.
∈
3.(2023•宜春模拟)福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个两位号
码中选取,小明利用如下所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列的数字开
始,从左到右依次读取数据,则第四个被选中的红色球号码为( )
第1行:2 9 7 6 3 4 1 3 2 8 4 1 4 2 4 1
第2行:8 3 0 3 9 8 2 2 5 8 8 8 2 4 1 0
第3行:5 5 5 6 8 5 2 6 6 1 6 6 8 2 3 1
A.10 B.22 C.24 D.26
【解答】解:被选中的红色球号码依次为28,03,22,24,10,26,
所以第四个被选中的红色球号码为24.
故选:C.
二.分层抽样方法(共2小题)
4.(2023•江西模拟)目前,甲型流感病毒在国内传播,据某市卫健委通报,该市流行的甲型流感病毒,
以甲型H1N1亚型病毒为主,假如该市某小区共有100名感染者,其中有10名年轻人,60名老年人,
30名儿童,现用分层抽样的方法从中随机抽取20人进行检测,则做检测的老年人人数为( )
A.6 B.10 C.12 D.16
【解答】解:老年人做检测的人数为 .
故选:C.
5.(2023•西山区校级模拟)为庆祝中国共产党成立100周年,某市举办“红歌大传唱”主题活动,以传
承红色革命精神,践行社会主义路线,某高中有高一、高二、高三分别600人、500人、700人,欲采
用分层抽样法组建一个18人的高一、高二、高三的红歌传唱队,则应抽取高三( )
A.5人 B.6人 C.7人 D.8人
【解答】解:依题意得:
某高中有高一、高二、高三分别600人、500人、700人,
欲采用分层抽样法组建一个18人的高一、高二、高三的红歌传唱队,
则应抽取高三的人数为: .
故选:C.
三.系统抽样方法(共2小题)
6.(2023•凯里市校级二模)某工厂要对生产流水线上的600个零件(编号为001,002,…,599,600)
进行抽检,若采用系统抽样的方法抽检50个零件,且编号为015的零件被抽检,则被抽检的零件的最
小编号为 .
资料整理【淘宝店铺:向阳百分百】【解答】解:因为 ,即抽取的组距为12,
又因为编号为015的零件被抽检,所以被抽检的零件的最小编号为003.
故答案为:003.
7.(2023•武汉模拟)2022年8月16日,航天员的出舱主通道——问天实验舱气闸舱首次亮相,为了解
学生对这一新闻的关注度,某班主任在开学初收集了50份学生的答题问卷,并抽取10份问卷进行了解,
现采用系统抽样的方法,将这50份答题问卷从01到50进行编号,分成10组,已知第一组中被抽到的
号码为03,则第8组中被抽到的号码为 .
【解答】解:将这50份答题问卷从01到50进行编号,分成10组,
则每组为5份,
第一组中被抽到的号码为03,
则第8组中被抽到的号码为3+(8﹣1)×5=38.
故答案为:38.
四.分布和频率分布表(共2小题)
8.(2023•青羊区校级模拟)一个果园培养了一种少籽苹果,现随机抽样一些苹果调查苹果的平均果籽数
量,得到下列频率分布表:
果籽数目 1 2 3 4
苹果数 12 5 2 1
则根据表格,这批样本的平均果籽数量为( )
A.1 B.1.6 C.2.5 D.3.2
【解答】解:苹果总数为12+5+2+1=20,
则这批样本的平均果籽数量为 .
故选:B.
9.(2023•安宁市校级模拟)某人发现人们在邮箱名称里喜欢用数字,于是他做了调查,结果如下表:
邮箱数 60 130 265 306 1233 2130 4700 6897
名称里 36 78 165 187 728 1300 2820 4131
有数字
的邮箱
数
频率
(1)填写上表中的频率(结果保留到小数点后两位);
(2)人们在邮箱名称里使用数字的概率约是多少?
【解答】解:(1)由频率公式可算出表格中的频率从左向右依次为:
0.60,0.60,0.62,0.61,0.59,0.61,0.60,0.60.
(2)由(1)知,虽然计算出的频率不全相同,但都在常数0.60左右摆动,
因此,中国人在邮箱名称里使用数字的概率约为0.60.
资料整理【淘宝店铺:向阳百分百】五.频率分布直方图(共11小题)
10.(2023•四川模拟)某学校在高三年级中抽取200名学生,调查他们课后完成作业的时间,并根据调查
结果绘制了如下频率分布直方图.根据此直方图得出了下列结论,其中不正确的是( )
A.所抽取的学生中有40人在2.5小时至3小时之间完成作业
B.该校高三年级全体学生中,估计完成作业的时间超过4小时的学生概率为0.1
C.估计该校高三年级学生的平均做作业的时间超过3小时
D.估计该校高三年级有一半的学生做作业的时间在2.5小时至4.5小时之间
【解答】解:对于A,在2.5小时至3小时之间的人数为0.4×0.5×200=40人,故A正确;
对于B,该校高三年级全体学生中,估计完成作业的时间超过4小时的学生概率为(0.1+0.1)×0.5=
0.1,故B正确;
对 于 C , 该 校 高 三 年 级 学 生 的 平 均 做 作 业 的 时 间 为
(0.1×1.25+0.3×1.75+0.5×2.25+0.4×2.75+0.3×3.25+0.2×3.75+0.1×4.25+0.1×4.75)×0.5=2.75,故C错误;
对于 D,由图可估计该校高三年级学生做作业的时间在 2.5 小时至 4.5 小时之间的概率为
(0.4+0.3+0.2+0.1)×0.5=0.5,故D正确.
故选:C.
11.(2023•碑林区校级模拟)为弘扬奥林匹克精神,普及冰雪运动知识,助力 2022年冬奥会和冬残奥会,
某校组织全体学生参与“激情冰雪﹣相约冬奥”冰雪运动知识竞赛.从参加竞赛的学生中,随机抽取若
干名学生的竞赛成绩,均在 50到100之间,将样本数据分组为[50,60),[60,70),[70,80),
[80,90),[90,100],并将成绩绘制得到如图所示的频率分布直方图.已知成绩在区间70到90的有
60人.
(1)求样本容量,并估计该校本㳄竞赛成绩的中位数及平均数 (同一组中的数据用该组区间的中点
值为代表);
(2)全校学生有1000人,抽取学生的竞赛成绩的标准差为11,用频率估计概率,记全校学生的竞赛成
绩的标准差为σ,估计全校学生中竞赛成绩在 内的人数.
资料整理【淘宝店铺:向阳百分百】【解答】解:(1)设样本容量为n,则 ,
得n=100,样本容量为100,
设本次竞赛成绩的中位数为x,
则0.08+0.2+(x﹣70)×0.032=0.5,得x=76.875,
抽 取 的 学 生 竞 赛 成 绩 的 平 均 数
;
(2) , ,
则抽取学生在 内的频率为(70﹣65.6)×0.02+0.32+(87.6﹣80)×0.028=0.6208,
全校学生有1000人,竞赛成绩在 内的人数1000×0.6208=620.8≈621.
12.(2023•商丘三模)某学校参加全国数学竞赛初赛(满分100分).该学校从全体参赛学生中随机抽取
了200名学生的初赛成绩绘制成频率分布直方图如图所示:
(1)根据频率分布直方图给出的数据估计此次初赛成绩的中位数和平均分数;
(2)从抽取的成绩在90~100的学生中抽取3人组成特训组,求学生A被选的概率.
【解答】解:(1)由图可知,前三组的频率之和为(0.0075+0,0200+0.0300)×10=0.575,
故初赛成绩的中位数在第三组[60,70)内,设为x,
则有0.075+0.2+0.03×(x﹣60)=0.5,解得x=67.5,
即初赛成绩的中位数为67.5;
由频率分布直方图可知,初赛成绩的平均数为:
资料整理【淘宝店铺:向阳百分百】=0.075×45+0.2×55+0.3×65+0.25×75+0.15×85+0.025×95=67.75;
(2)由图可知,抽取的200名学生中,成绩在90~100的有200×0.025=5人,
从这5人中抽取3人,共有 =10种取法,
其中,学生A被选中,则有 =6种取法,
故学生A被选中的概率为 .
13.(2023•葫芦岛一模)某校进行了物理学业质量监测考试,将考试成绩进行统计并制成如下频率分布
直方图,a的值为 ;考试成绩的中位数为 .
【解答】解:由频率分布直方图可知:(0.005+0.010+0.015×2+0.020+a)×10=1,
解得a=0.035,
设中位数为x,则 .
故答案为:0.035, .
14.(2023•泉州模拟)随着老年人消费需求从“生存型”向“发展型”转变,消费层次不断提升,“银
发经济”成为社会热门话题之一,被各企业持续关注.某企业为了解该地老年人消费能力情况,对该地
年龄在[60,80)的老年人的年收入按年龄[60,70),[70,80)分成两组进行分层抽样调查,已知抽取
了年龄在[60,70)的老年人500人.年龄在[70,80)的老年人300人.现作出年龄在[60,70)的老年
人年收入的频率分布直方图(如下图所示).
资料整理【淘宝店铺:向阳百分百】(1)根据频率分布直方图,估计该地年龄在[60,70)的老年人年收入的平均数及第95百分位数;
(2)已知年龄在[60,70)的老年人年收入的方差为3,年龄在[70,80)的老年人年收入的平均数和方
差分别为3.75和1.4,试估计年龄在[60,80)的老年人年收入的方差.
【解答】解:(1)频率分布直方图中,该地年龄在[60,70)的老年人年收入的平均数约为:
0.04×2+0.08×3+0.18×4+0.26×5+0.20×6+0.15×7+0.05×8+0.04×9=5.35,
由频率分布直方图,年收入在8.5万元以下的老年人所占比例为1﹣0.04×1=0.96,
年收入在7.5万元以下的老年人所占比例为1﹣(0.05×1+0.04×1)=0.91,
因此,第95百分位数一定位于[7.5,8.5)内,
由 ,
可以估计该地年龄在[60,70)的老年人年收入的第95百分位数为8.3.
(2)设年龄在[60,70)的老年人样本的平均数记为 ,方差记为 ;
年龄在[70,80)的老年人样本的平均数记为 ,方差记为 ;
年龄在[60,80)的老年人样本的平均数记为 ,方差记为s2.
由(1)得 ,由题意得, , , ,
则 ,
由 ,
可得 ,
即估计该地年龄在[60,80)的老年人的年收入方差为3.
15.(2023•贾汪区校级模拟)在某地区进行流行病调查,随机调查了100名某种疾病患者的年龄,得到如
图的样本数据频率分布直方图.
(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值作代表);
(2)估计该地区一人患这种疾病年龄在区间[20,70)的概率;
(3)已知该地区这种疾病的患病率为0.1%,该地区年龄位于区间[40,50)的人口占该地区总人口的
资料整理【淘宝店铺:向阳百分百】16%,从该地区任选一人,若此人年龄位于区间[40,50),求此人患该种疾病的概率.(样本数据中
的患者年龄位于各区间的频率作为患者年龄位于该区间的概率,精确到0.0001)
【解答】解:(1)由频率分布直方图得平均年龄为:
=(5×0.001+15×0.002+25×0.012+35×0.017+45×0.023+55×0.020+65×0.017+75×0.006+85×0.002)×10=
47.9(岁).
(2)设A={一人患这种疾病的年龄在区间[20,70)},
∴P(A)=1﹣P( )=1﹣(0.001+0.002+0.006+0.002)×10=1﹣0.11=0.89.
(3)设B=“任选一人年龄位于区间[40,50)”,C=“从该地区中任选一人患这种疾病“,
则由已知得:
P(B)=16%=0.16,
P(C)=0.1%=0.001,
P(B|C)=0.023×10=0.23,
则由条件概率公式可得:
从该地区中任选一人,若此人的年龄位于区间[40,50),此人患这种疾病的概率为:
P(C|B)= = = =0.0014375≈0.0014.
16.(2023•郑州模拟)2023U.I.M.F1摩托艇世界锦标赛中国郑州大奖赛于2023年4月29日~30日
在郑东新区龙湖水域举办.这场世界瞩目的国际体育赛事在风光迤逦的龙湖上演绎了速度与激情,全面
展示了郑州现代化国家中心城市的活力与魅力.为让更多的人了解体育运动项目和体育精神,某大学社
团举办了相关项目的知识竞赛,并从中随机抽取了100名学生的成绩,绘制成如图所示的频率分布直方
图.
(1)求频率分布直方图中成绩的平均数和中位数(同一组数据用该组区间的中点值代替);
(2)若先采用分层抽样的方法从成绩在[80,90),[90,100]的学生中共抽取6人,再从这6人中随机
抽取2人为赛事志愿者,求这2名志愿者中恰好有一人的成绩在[90,100]的概率.
资料整理【淘宝店铺:向阳百分百】【解答】解:(1)由频率分布直方图可知:
平均成绩 ,
因为0.02+0.16+0.22=0.4<0.5,0.02+0.16+0.22+0.3=0.7>0.5,
所以中位数落在[70,80)内,设中位数为x,
则0.4+0.030×(x﹣70)=0.5,
解得 ;
(2)因为成绩在[80,90),[90,100]的学生人数所占比例为0.020:0.010=2:1,
所以从成绩在[80,90),[90,100]的学生中应分别抽取4人,2人,
记抽取成绩在[80,90)的4人为:a,b,c,d,抽取成绩在[90,100]的2人为:E,F,
从这6人中随机抽取2人的所有可能为:(a,b),(a,c),(a,d),(a,E),(a,F),
(b,c),(b,d),(b,E),(b,F),(c,d),(c,E),(c,F),(d,E),(d,
F),(E,F),共15种,
抽取的2名学生中恰好有一人的成绩在[90,100]的是(a,E),(a,F),(b,E),(b,F),
(c,E),(c,F),(d,E),(d,F)只有8种,
故做培训的这2名学生中恰好有一人的成绩在[90,100]的概率 .
17.(2023•四川模拟)某市为了解全市环境治理情况,对本市的200家中小型企业的污染情况进行了摸排,
并把污染情况各类指标的得分综合折算成准分(最高为100分),统计并制成如图所示的直方图,则这
次摸排中标准分不低于75分的企业数为( )
A.30 B.60 C.70 D.130
资料整理【淘宝店铺:向阳百分百】【解答】解:根据频率分布直方图,标准分不低于75分的企业的频率为:
1﹣(0.01+0.02+0.04+0.06+0.04)×5=1﹣0.65=0.35,
∴标准分不低于75分的企业数为0.35×200=70(家).
故选:C.
18.(2023•甘肃模拟)为提升本地景点的知名度、美誉度,各地文旅局长纷纷出圈,作为西北自然风光
与丝路人文历史大集合的青甘大环线再次引发热议.为了更好的提升服务,某地文旅局对到该地的
5000名旅行者进行满意度调查,将其分成以下 6组:[40,50),[50,60),[60,70),[70,80),
[80,90),[90,100],整理得到如图所示的频率分布直方图.
(1)求频率分布直方图中a的值;
(2)在这些旅行者中,满意度得分在60分及以上的有多少人?
(3)为了打造更加舒适的旅行体验,文旅局决定在这 5000名旅行者中用分层抽样的方法从得分在
[80,100]内抽取6名旅行者进一步做调查问卷和奖励.再从这6名旅行者中抽取一等奖两名,求中奖的
2人得分都在[80,90)内的概率.
【解答】解:(1)由题意,得(0.006+0.010+a+0.018+0.020+0.032)×10=1,解得a=0.014.
(2)由频率分布直方图,得满意度得分在60分及以上的频率是1﹣(0.006+0.014)×10=0.8,
所以满意度得分在60分及以上的人数约为5000×0.8=4000.
(3)用分层抽样的方法抽取的6名旅行者中,得分在[80,90)内的有4人,设为A,B,C,D;
得分在[90,100]内的有2人,设为E,F,
因此从6人中任取2人的试验有 ={AB,AC,AD,AE,AF,BC,BD,BE,BF,CD,CE,CF,
DE,DF,EF},共15个基本事件,
Ω
设2人得分都在[80,90)内为事件M,则M={AB,AC,AD,BC,BD,CD},共6个基本事件,
所以中奖的2人得分都在[80,90)内的概率 .
19.(2023•日喀则市模拟)我市某校为了解高一新生对物理科与历史科方向的选择意向,对 1000名高一
新生发放意向选择调查表,统计知,有600名学生选择物理科,400名学生选择历史科.分别从选择物
理科和历史科的学生中随机各抽取20名学生的数学成绩得如下累计表(如表):
分数段 物理人数 历史人数
[40,50) 0 2
[50,60) 1 4
资料整理【淘宝店铺:向阳百分百】[60,70) 3 4
[70,80) 6 5
[80,90) 6 3
[90,100] 4 2
(1)利用表中数据,试分析数学成绩对学生选择物理科或历史科的影响,并绘制选择物理科的学生的
数学成绩的频率分布直方图,并求出选择物理科的学生的数学成绩的平均数(如图);
(2)从数学成绩低于80分的选择物理科和历史科的学生中按照分层抽样的方法抽取5个成绩,再从这
5个成绩中抽2个成绩,求至少有一个选择物理科学生的概率.
【解答】解:(1)由表格数据知,随着数学成绩分数的提升,选择物理方向学生的占比有明显的提升,
所以数学成绩越好,其选择物理科方向的概率越大,
频率分布直方图如下:
选 择 物 理 科 的 学 生 的 数 学 成 绩 的 平 均 数 为
;
(2)由题可知,数学成绩低于80分的选择物理学科的成绩有10个,选择历史学科的成绩有15个,一
共有25个,
则按照分层抽样的方法在选择物理学科的数学成绩应抽取 个,设为A,B,
资料整理【淘宝店铺:向阳百分百】在选择历史学科的数学成绩应抽取 个,设为a,b,c,
基本事件列举如下:AB,Aa,Ab,Ac,Ba,Bb,Bc,Ab,ac,bc,
所以一共有10个基本事件,满足条件的有7个:AB,Aa,Ab,Ac,Ba,Bb,Bc,
所以至少有一个选择物理科学生的概率为 .
20.(2023•博白县模拟)某地区期末进行了统一考试,为做好本次考试的评价工作,现从中随机抽取了
50名学生的成绩,经统计,这批学生的成绩全部介于 40至100之间,将数据按照[40,50),[50,
60),[60,70),
[70,80),[80,90),[90,100]分成6组,制成了如图所示的频率分布直方图.
(1)求频率分布直方图中 m的值;在这50名学生中用分层抽样的方法从成绩在[70,80),[80,
90),
[90,100]的三组中抽取了11人,再从这11人中随机抽取3人,记X为3人中成绩在[80,90)的人数,
求P(X=1);
(2)规定成绩在[90,100]的为A等级,成绩在[70,90)的为B等级,其它为C等级.以样本估计总体,
用频率代替概率.从所有参加考试的同学中随机抽取3人,求获得B等级的人数不少于2人的概率.
【解答】(1)根据频率分布直方图可得:2×0.004×10+0.022×10+0.03×10+0.028×10+10m=1,
解得m=0.012,
又成绩在[70,80),[80,90),[90,100]的三组人数比为7:3:1,
∴根据分层抽样抽取的成绩在[70,80),[80,90),[90,100]的三组人数为7,3,1,
∴ ;
(2)根据题意可知成绩为B等级的频率为 ,
设从所有参加考试的同学中随机抽取3人,获得B等级的人数为Y,
则Y服从二项分布 ,
∴ , ,
∴获得B等级的人数不少于2人的概率为 .
资料整理【淘宝店铺:向阳百分百】六.频率分布折线图、密度曲线(共2小题)
21.(2023•青羊区校级模拟)在统计中,月度同比是指本月和上一年同月相比较的增长率,月度环比是
指本月和上一个月相比较的增长率,如图是2022年1月至2022年12月我国居民消费价格月度涨跌幅度
统计图,则以下说法错误的是( )
A.在这12个月中,我国居民消费价格月度同比数据的中位数为2.1%
B.在这12个月中,月度环比数据为正数的个数比月度环比数据为负数的个数多3
C.在这12个月中,我国居民消费价格月度同比数据的均值为1.85%
D.在这12个月中,我国居民消费价格月度环比数据的众数为0.0%
【解答】解:在这12个月中,我国居民消费价格月度同比数据由小到大依次为0.9%,0.9%,1.5%,
1.6%,
1.8%,2.1%,2.1%,2.1%,2.5%,2.5%,2.7%,2.8%,
中位数为 ,
平均数为
,
由数据可知我国居民消费价格月度环比的数据中,
有6个月的数据为正数,3个月的数据为0.0%,3个月的数据为负数,
所以月度环比数据为正数的个数比月度环比数据为负数的个数多3,
且0.0%出现次数最多,故众数为0.0%,
故选项A,B,D正确,C错误,
故选:C.
22.(2023•定远县校级模拟)空气质量指数是评估空气质量状况的一组数字,空气质量指数划分为[0,
50)、[50,100)、[100,150)、[150,200)、[200,300)和[300,500]六档,分别对应“优”、
“良”、“轻度污染”、“中度污染”、“重度污染”和“严重污染”六个等级.如图是某市 2月1日
至14日连续14天的空气质量指数趋势图,则下面说法中正确的是( )
资料整理【淘宝店铺:向阳百分百】A.这14天中有5天空气质量为“中度污染”
B.从2日到5日空气质量越来越好
C.这14天中空气质量指数的中位数是214
D.连续三天中空气质量指数方差最小是5日到7日
【解答】解:根据题意,依次分析选项:
对于A,这14天中有4天空气质量指数在[150,200)之间,则有4天为“中度污染”,A错误;
对于B,从2日到5日空气质量逐渐下降,即空气质量越来越好,B正确;
对于C,将14组数据从小到大排列:80,83,138,155,157,165,179,214,214,221,243,
260,263,275,其中位数为 (179+214)=196.5,C错误;
对于D,5日到7日的三天,数据相差比较大,则连续三天中空气质量指数方差最小不是5日到7日,D
错误.
故选:B.
七.茎叶图(共3小题)
23.(2023•兴国县模拟)某赛季甲、乙两名篮球运动员每场比赛的得分用如图所示的茎叶图表示,茎叶
图中甲运动员每场比赛得分的中位数为 18.5,若甲、乙两名篮球运动员每场比赛得分的平均数分别用
, 表示,标准差分别用S ,S 表示,则( )
1 2
A. ,S <S B. ,S <S
1 2 1 2
C. ,S >S D. ,S >S
1 2 1 2
【解答】解:甲运动员得分为:5,11,15,10+x,20,22,22,24,
因为甲运动员每场比赛得分的中位数为18.5,
所以 =18.5,
解得x=7,
所以甲运动员得分为:5,11,15,17,20,22,22,24,
资料整理【淘宝店铺:向阳百分百】所以 ,
= ,
乙运动员得分为:8,11,12,16,18,20,21,22,
,
= ,
所以 ,S >S .
1 2
故选:D.
24.(2023•毕节市模拟)某市质量检测部门从辖区内甲、乙两个地区的食品生产企业中分别随机抽取9家
企业,根据食品安全管理考核指标对抽到的企业进行考核,并将各企业考核得分整理成如下的茎叶图.
由茎叶图所给信息,可判断以下结论中正确是( )
A.若a=2,则甲地区考核得分的极差大于乙地区考核得分的极差
B.若a=4,则甲地区考核得分的平均数小于乙地区考核得分的平均数
C.若a=5,则甲地区考核得分的方差小于乙地区考核得分的方差
D.若a=6,则甲地区考核得分的中位数小于乙地区考核得分的中位数
【解答】解:对于选项A:甲地区考核得分的极差为94﹣75=19,乙地区考核得分的极差为99﹣74=
25,
即甲地区考核得分的极差小于乙地区考核得分的极差,故选项A错误;
对于选项B:甲地区考核得分的平均数为 ,
乙地区考核得分的平均数为 ,
即甲地区考核得分的平均数大于乙地区考核得分的平均数,故选项B错误;
对于选项C:甲地区考核得分从小到大排列为:75,78,81,84,85,88,92,93,94,
乙地区考核得分从小到大排列为:74,77,80,83,84,87,91,95,99,
由以上数据可知,乙地区考核得分的波动程度比甲地区考核得分的波动程度大,即甲地区考核得分的方
资料整理【淘宝店铺:向阳百分百】差小于乙地区考核得分的方差,故选项C正确;
对于选项D:由茎叶图可知,甲地区考核得分的中位数为85,乙地区考核得分的中位数为84,即甲地
区考核得分的中位数大于乙地区考核得分的中位数,故选项D错误;
故选:C.
25.(2023•河南模拟)某班男女生各10名最近一周平均每天的锻炼时间(单位:分钟)的茎叶图如图所
示.假设每名学生最近一周平均每天的锻炼时间是互相独立的.
①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大.
②从平均数分析,男生每天锻炼的时间比女生多.
③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差.
④从10个男生中任选一人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过
65分钟的概率大.
上述四个结论中符合茎叶图所给数据的结论是( )
A.①②③ B.②③④ C.①②④ D.①③④
【解答】解:由茎叶图可知,男生每天锻炼时间差别小,女生差别大,故①正确,
男生平均每天锻炼时间超过65分钟的概率为 ,女生平均每天锻炼时间超过65分钟的概率为
,故④正确,
设男生、女生两组数据的平均数分别是 、 ,标准差分别为S甲 、S乙 ,易得 , ,
则 > ,故②正确,
又根据茎叶图可知,男生锻炼时间较集中,女生锻炼时间较分散,故S甲 <S乙 ,故③错误,
故选:C.
八.散点图(共2小题)
26.(2023•泉州模拟)某兴趣小组研究光照时长x(h)和向日葵种子发芽数量y(颗)之间的关系,采集
5组数据,作如图所示的散点图.若去掉D(10,2)后,下列说法正确的是( )
资料整理【淘宝店铺:向阳百分百】A.相关系数r变小
B.决定系数R2变小
C.残差平方和变大
D.解释变量x与预报变量y的相关性变强
【解答】解:由散点图知,去掉点D(10,2)后,y与x的线性相关性加强,
则相关系数r变大,∴A错误,
决定系数R2变大,∴B错误,
残差平方和变小,∴C错误,
解释变量x与预报变量y的相关性变强,∴D正确.
故选:D.
27.(2023•嘉定区模拟)如图是根据x,y的观测数据(x
i
,y
i
)(i=1,2,⋯,10)得到的散点图,可以
判断变量x,y具有线性相关关系的图是( )
A.①② B.③④ C.②③ D.①④
【解答】解:由题图知,①②的点呈片状分布,没有明显的线性相关关系,
③中y随x的增大而减小,各点整体呈下降趋势,x与y负相关,
④中y随x的增大而增大,各点整体呈上升趋势,y与x正相关,
故选:B.
九.统计图表获取信息(共2小题)
28.(2023•遂宁模拟)如图是遂宁市2022年4月至2023年3月每月最低气温与最高气温(℃)的折线统
计图:已知每月最低气温与最高气温的线性相关系数r=0.88,则下列结论正确的是( )
资料整理【淘宝店铺:向阳百分百】A.月温差(月最高气温﹣月最低气温)的最大值出现在8月
B.每月最低气温与最高气温有较强的线性相关性,且二者为线性负相关
C.每月最高气温与最低气温的平均值在4﹣8月逐月增加
D.9﹣12月的月温差相对于5﹣8月,波动性更小
【解答】解:对于A,8月温差为38﹣22=16,10月温差为36﹣5=31,故最大温差在10月,故A错,
对于B,已知每月最低气温与最高气温的线性相关系数r=0.88,则二者为线性正相关,故B错,
对于C,由图表可得,4﹣8月最低气温与最高气温都呈上升趋势,则4﹣8月最高气温与最低气温的平
均值逐月增加,故C对,
对于D,5﹣8月最高气温为38,最低气温为14,极差为24,9﹣12月最高气温为37,最低气温0,极
差为37,故9﹣12月温差波动更大,故D错,
故选:C.
29.(2023•中卫一模)某保险公司为客户定制了A,B,C,D,E共5个险种,并对5个险种参保客户进
行抽样调查,得出如下的统计图:
用该样本估计总体,以下四个说法错误的是( )
A.57周岁以上参保人数最少
B.18~30周岁人群参保总费用最少
C.C险种更受参保人青睐
D.31周岁以上的人群约占参保人群80%
【解答】解:A选项,57周岁以上参保人数所占比例是10%,是最少的,A选项正确;
B选项,“18~30周岁人群参保平均费用”比“57周岁以上人群参保平均费用”的一半还多,
而18~30周岁人群参保人数所占比例是57周岁以上参保人数所占比例的两倍,
资料整理【淘宝店铺:向阳百分百】所以57周岁以上参保人群参保总费用最少,B选项错误;
C选项,C险种参保比例0.358,是最多的,所以C选项正确;
D选项,31周岁以上的人群约占参保人群30%+40%+10%=80%,D选项正确.
故选:B.
一十.众数、中位数、平均数(共7小题)
30.(多选)(2023•洪山区校级模拟)某产品售后服务中心选取了20个工作日,分别记录了每个工作日接
到的客户服务电话的数量(单位:次):
63 38 25 42 56 48 53 39 28 47
45 52 59 48 41 62 48 50 52 27
则这组数据的( )
A.众数是48 B.中位数是48
C.极差是37 D.5%分位数是25
【解答】解:这组数据中48出现了3次,出现次数最多,所以众数是48,选项A正确;
从小到大排列数据,第10位和第11位均为48,所以中位数是 ×(48+48)=48,选项B正确;
最大值是63,最小值是25,所以极差是63﹣25=38,选项C错误;
因为20×5%=1是整数,5%分位数应取第1位与第2位的平均值,即 ×(25+27)=26,选项D错误.
故选:AB.
31.(多选)(2023•湖北模拟)在一次党建活动中,甲、乙、丙、丁四个兴趣小组举行党史知识竞赛,每
个小组各派10名同学参赛,记录每名同学失分(均为整数)情况,若该组每名同学失分都不超过7分,
则该组为“优秀小组”,已知甲、乙、丙、丁四个小组成员失分数据信息如下,则一定为“优秀小组”
的是( )
A.甲组中位数为2,极差为5
B.乙组平均数为2,众数为2
C.丙组平均数为1,方差大于0
D.丁组平均数为2,方差为3
【解答】解;对A,因为中位数为2,极差为5,故最大值小于等于7,故A正确;
对B,如失分数据分别为0,0,0,2,2,2,2,2,2,8,则满足平均数为2,众数为2,但不满足每
名同学失分都不超过7分,故B错误;
对C,如失分数据分别为0,0,0,0,0,0,0,0,1,9,则满足平均数为1,方差大于0,但不满足
每名同学失分都不超过7分,故C错误;
对D,利用反证法,假设有一同学失分超过7分,则方差大于 ,与题设矛盾,
故每名同学失分都不超过7分.故D正确.
故选:AD.
32.(多选)(2023•朝阳区校级模拟)已知互不相同的9个样本数据,若去掉其中最大和最小的数据,则
资料整理【淘宝店铺:向阳百分百】剩下的7个数据与原9个数据相比,下列数字特征中不变的是( )
A.中位数 B.平均数
C.方差 D.第40百分位数
【解答】解:设这9个数分别为x ,x ,x ,x ,x ,x ,x ,x ,x ,
1 2 3 4 5 6 7 8 9
且x <x <x <x <x <x <x <x <x ,
1 2 3 4 5 6 7 8 9
则中位数为x ,
5
去掉最大和最小的数据,得x ,x ,x ,x ,x ,x ,x ,中位数为x ,
2 3 4 5 6 7 8 5
故中位数一定不变;故A正确,
由40%×9=3.6,得x ,x ,x ,x ,x ,x ,x ,x ,x 的第40百分位数为x ,
1 2 3 4 5 6 7 8 9 4
由40%×7=2.8,得x ,x ,x ,x ,x ,x ,x 的第40百分位数为x ,
2 3 4 5 6 7 8 4
故第40百分位数不变,故D正确,
设这9个数分别1,2,3,4,5,6,7,8,9,
则平均数为 ,
方差为
,
去掉最大和最小的数据为2,3,4,5,6,7,8,
则平均数为 ,
方差为 ,
所以此时方差都改变了,故C错,
设这9个数分别﹣1,2,3,4,5,6,7,9,10,
则平均数为 ,
去掉最大和最小的数据为2,3,4,5,6,7,9,
此时平均数为 ,所以此时平均数改变了,故B错.
故选:AD.
33.(多选)(2023•花都区校级模拟)为了加强疫情防控,某中学要求学生在校时每天都要进行体温检测.
某班级体温检测员对一周内甲乙两名同学的体温进行了统计,其结果如图所示,则下列结论正确的是(
)
资料整理【淘宝店铺:向阳百分百】A.乙同学体温的极差为0.3°C
B.甲同学体温的中位数与平均数相等
C.乙同学体温的方差比甲同学体温的方差小
D.甲同学体温的第60百分位数为36.5°C
【解答】解:对于A,乙同学体温的极差为36.5﹣36.3=0.2°C,故A错误;
对于B,甲同学体温从小到大为:
36.2,36.2,36.4,36.4,36.5,36.5,36.6,
甲同学体温的中位数是36.4,平均数是 (36.2+36.2+36.4+36.4+36.5+36.5+36.6)=36.4,
∴甲同学体温的中位数与平均数相等,故B正确;
对于C,从折线图上得到甲同学体温波动比乙同学体温波动大,
∴乙同学体温的方差比甲同学体温的方差小,故C正确;
对于D,甲同学体温从小到大为:
36.2,36.2,36.4,36.4,36.5,36.5,36.6,
7×60%=4.2,
∴甲同学体温的第60百分位数为36.5°C,故D正确.
故选:BCD.
34.(多选)(2023•朝阳区校级模拟)现有甲、乙、丙三位篮球运动员连续5场篮球比赛得分情况的记录
数据,已知三位球员得分情况的数据满足以下条件:
甲球员:5个数据的中位数是26,众数是24;
乙球员;5个数据的中位数是29,平均数是26;
丙球员:5个数据有1个是32,平均数是26,方差是9.6;
根据以上统计数据,下列统计结论一定正确的是( )
A.甲球员连续5场比赛得分都不低于24分
B.乙球员连续5场比赛得分都不低于24分
C.丙球员连续5场比赛得分都不低于24分
D.丙球员连续5场比赛得分的第60百分位数大于24
【解答】解:对于A,设甲球员的5场篮球比赛得分按从小到大排列为x ,x ,x ,x ,x ,
1 2 3 4 5
则x ≤x ≤x ≤x ≤x ,x =26,且24至少出现2次,
1 2 3 4 5 3
资料整理【淘宝店铺:向阳百分百】故x =x =24,故A正确;
1 2
对于B,设乙球员的5场篮球比赛得分按从小到大排列为y ,y ,y ,y ,y ,
1 2 3 4 5
则y ≤y ≤y ≤y ≤y ,y =29,
1 2 3 4 5 3
取y =20,y =23,y =29,y =29,可得其满足条件,但有2场得分低于24,故B错误;
1 2 4 5
对于C,设丙球员的5场篮球比赛得分按从小到大排列为z ,z ,z ,z ,z ,
1 2 3 4 5
由已知 ,
所以 ,
若z ≥32,则z ≥32,
4 5
所以 ,矛盾,
所以z =32, ,
5
因为z ,z ,z ,z ,z 的平均数为26,所以z +z +z +z =98,
1 2 3 4 5 1 2 3 4
取z =23,z =25,z =25,z =25,满足要求,但有一场得分低于2(4分),故C错误;
1 2 3 4
对于D,因为5×60%=3,所以丙球员连续5场比赛得分的第60百分位数为 ,
若 ,则 ,故z +z +z +z <98,矛盾,
1 2 3 4
所以 ,所以丙球员连续5场比赛得分的第60百分位数大于24,故D正确.
故选:AD.
一十一.极差、方差与标准差(共4小题)
35.(多选)(2023•锦州一模)甲、乙二人在相同条件下各射击10次,每次中靶环数情况如图所示:下列
说法正确的是( )
A.从环数的平均数看,甲、乙二人射击水平相当
B.从环数的方差看,甲的成绩比乙稳定
C.从平均数和命中9环及9环以上的频数看,乙的成绩更好
D.从二人命中环数的走势看,甲更有潜力
资料整理【淘宝店铺:向阳百分百】【解答】解:由题意及图得,
甲射击 10 次中靶环数由小到大排列为5,6,6,7,7,7,7,8,8,9.
乙射击 10 次中靶环数由小到大排列为2,4,6,7,7,8,8,9,9,10.
甲平均值: (环),
乙平均值: (环),
甲方差:
乙方差:
A项,甲平均值等于乙平均值,故A正确;
B项, ,甲的成绩比乙稳定,B正确;
C项,甲乙平均数均为7,甲命中9环及9环以上的频数为1,乙命中9环及9环以上的频数为3,故乙
的成绩更好,C正确;
D项,从二人命中环数的走势看,甲成绩逐渐平稳,乙成绩仍有上升趋势,故乙更有潜力,D错误.
故选:ABC.
36.(多选)(2023•张家口三模)一组互不相等的样本数据x
1
,x
2
,⋯,x
n
,其平均数为 ,方差为s2,极
差为m,中位数为n,去掉其中的最小值和最大值后,余下数据的平均数为 ,方差为s′2,极差为
m′,中位数为n′,则下列选项一定正确的有( )
A.n=n′ B. C.s2>s′2 D.m>m′
【解答】解:对于选项A:易知中位数是把数据从小到大依次排列后,排在中间位置的数或中间位置的
两个数的平均数,
若去掉其中的最小值和最大值后,
此时中间位置的数相对位置保持不变,
所以新数据的中位数保持不变,
此时n=n′,故选项A正确;
对于选项B:平均数受样本中每个数据的影响,
若去掉最小值和最大值后,余下数据的平均数可能会改变,故选项B错误;
对于选项C:方差反映数据的离散程度,
若去掉数据中的最小值和最大值后,数据相对更加集中,方差变小,
此时s2>s′2,故选项C正确;
对于选项D:因为极差是最大值与最小值之差,
若去掉最小值和最大值后,新数据的极差必然小于原数据的极差,
此时m>m′,故选项D正确.
资料整理【淘宝店铺:向阳百分百】故选:ACD.
37.(多选)(2023•嘉兴二模)已知一组样本数据x ,x ,…,x (x <x <…<x ),现有一组新的数据
1 2 n 1 2 n
, ,…, , ,则与原样本数据相比,新的样本数据( )
A.平均数不变 B.中位数不变 C.极差变小 D.方差变小
【解答】解:对于A项,新数据的总数为: ,故平
均数不变,A正确;
对于B项,不妨设原数据为:1,2.5,3,则新数据为:1.75,2.75,2,显然中位数变了,故B错误;
对 于 C 项 , 原 数 据 极 差 为 : x ﹣ x , 新 数 据 极 差 为 : ,
n 1
,极差变小了,故C正确;
对于D项,由于两组数据的平均数不变,而极差变小,说明新数据相对原数据更集中于平均数,故方差
变小,即D项正确.
故选:ACD.
38.(多选)(2023•安徽模拟)甲、乙两位射击爱好者,各射击10次,甲的环数从小到大排列为4,5,
5,6,6,7,7,8,8,9,乙的环数从小到大排列为2,5,6,6,7,7,7,8,9,10.则( )
A.甲的环数的70%分位数是7
B.甲的平均环数比乙的平均环数小
C.这20个数据的平均值为6.6
D.若甲的方差为2.25,乙的方差为4.41,则这20个数据的方差为4.34
【解答】解:对于A,因为10×70%=7,所以甲的环数的70%分位数是 ,故A错误;
对于B, ,
,
所以 ,故B正确;
对于C,这20个数据的平均值 ,故C正确;
对 于 D , 这 20 个 数 据 的 方 差 为
,故D错误.
故选:BC.
39.(多选)(2023•辽宁一模)给定数5,4,3,5,3,2,2,3,1,2,则这组数据的( )
资料整理【淘宝店铺:向阳百分百】A.中位数为3 B.方差为
C.众数为3 D.85%分位数为4.5
【解答】解:将数5,4,3,5,3,2,2,3,1,2,按小到大的顺序排列为:1,2,2,2,3,3,3,
4,5,5,
则这组数据的中位数为 ,故A正确;
数据中2,3,出现的次数最多,所以众数为2和3,故C错误;
平均数为: ,
则方差为 ,故B正确;
第85%分位数是数据中至少有85%的数据小于或等于该数,因此,从小到大第9个数字为5,故D错误,
故选:AB.
40.(多选)(2023•桃城区校级模拟)统计学是源自对国家的资料进行分析,也就是“研究国家的科学”.
一般认为其学理研究始于希腊的亚里士多德时代,迄今已有两千三百多年的历史.在两千多年的发展过
程中,将社会经济现象量化的方法是近代统计学的重要特征.为此,统计学有了自己研究问题的参数,
比如:均值、中位数、众数、标准差.一组数据:a
1
,a
2
,⋯,a
2023
(a
1
<a
2
<a
3
<⋯<a
2023
))记其均
值为m,中位数为k,标准差为s,则( )
A.k=a
1012
B.a <m<a
1011 1012
C.新数据:a
1
+2,a
2
+2,a
3
+2,⋯,a
2023
+2的标准差为s+2
D.新数据:2a
1
+1,2a
2
+1,2a
3
+1,⋯,2a
2023
+1的标准差为2s
【解答】解:对于A选项,因为a
1
<a
2
<a
3
<⋯<a
2023
,样本数据最中间的项为a
1012
,
由中位数的定义可知k=a ,A对;
1012
对于B选项,不妨令a
n
=n(n=1,2,⋯,2023),则m=1012=a
1012
,B错;
对于C选项,数据a
1
+2,a
2
+2,a
3
+2,⋯,a
2023
+2的均值为 ,
方差为 ,
所以,数据a
1
+2,a
2
+2,a
3
+2,⋯,a
2023
+2的标准差为s,C错;
对于D选项,数据2a
1
+1,2a
2
+1,2a
3
+1,⋯,2a
2023
+1的均值为 ,
资料整理【淘宝店铺:向阳百分百】其方差为 ,
所以,新数据:2a
1
+1,2a
2
+1,2a
3
+1,⋯,2a
2023
+1的标准差为2s,D对.
故选:AD.
一十二.用样本的数字特征估计总体的数字特征(共1小题)
41.(多选)(2023•泉州模拟)某学校为调查学生迷恋电子游戏情况,设计如下调查方案,每个被调查
者先投掷一枚骰子,若出现向上的点数为3的倍数,则如实回答问题“投掷点数是不是奇数?”,反之,
如实回答问题“你是不是迷恋电子游戏?”.已知被调查的150名学生中,共有30人回答“是”,则
下列结论正确的是( )
A.这150名学生中,约有50人回答问题“投掷点数是不是奇数?”
B.这150名学生中,必有5人迷恋电子游戏
C.该校约有5%的学生迷恋电子游戏
D.该校约有2%的学生迷恋电子游戏
【解答】解:由题意可知掷出点数为3的倍数的情况为3,6,
故掷出点数为3的倍数的概率为 ,
故理论上回答问题一的人数为 人.
掷出点数为奇数的概率为 ,理论上回答问题一的50人中有25人回答“是”,
故回答问题二的学生中回答“是”的人数为30﹣25=5人.
对于A,抽样调查的这150名学生中,约有50人回答问题一,故A正确.
对于B,抽样调查的这150名学生中,约有5人迷恋电子游戏,“必有”过于绝对,故B错.
对于C,抽样调查的150名学生中,50名学生回答问题一,故有100名学生回答问题二,有5名学生回
答“是”,故该校迷恋电子游戏的学生约为 ,故C正确.
对于D,由C可知该校迷恋电子游戏的学生约为 ,故D错.
故选:AC.
一十三.百分位数(共2小题)
42.(多选)(2023•张家口二模)中央广播电视总台《2023年春节联欢晚会》以温暖人心的精品节目、亮
点满满的技术创新、美轮美奂的舞美效果为全球华人送上了一道红红火火的文化大䝳.某机构随机调查
了18位观众对2023年春晚节目的满意度评分情况,得到如下数据:a,60,70,70,72,73,74,
74,75,76,77,79,80,83,85,87,93,100.若a恰好是这组数据的上四分位数,则a的值可能
为( )
A.83 B.84 C.85 D.87
资料整理【淘宝店铺:向阳百分百】【解答】解:由于上四分位数即第75百分位数,于是18×75%=13.5,
将这些数据按照从小到大排列后,第14个数为上四分位数,
所以a应该是18个数据从小到大排列后的第14个数,显然a不是最小的数.
而除去a后,从小到大排列得到的第13个数为83,第14个数为85,
所以83≤a≤85.
故选:ABC.
43.(多选)(2023•浙江模拟)已知某地区某周7天每天的最高气温分别为23,25,13,10,13,12,19
(单位℃).则( )
A.该组数据的平均数为
B.该组数据的中位数为13
C.该组数据的第70百分位数为16
D.该组数据的极差为15
【解答】解:将23,25,13,10,13,12,19从小到大排列为10,12,13,13,19,23,25,
对于A,该组数据的中位数为 ,故A正确;
对于B,该组数据的中位数为13,故B正确;
对于C,由7×70%=4.9,则该组数据的第70百分位数为从小到大排列的第5个数,是19,故C错误;
对于D,该组数据的极差为25﹣10=15,故D 正确.
故选:ABD.
44.(多选)(2023•茂名二模)小爱同学在一周内自测体温(单位:℃)依次为36.1,36.2,36.1,36.5,
36.3,36.6,36.3,则该组数据的( )
A.平均数为36.3 B.方差为0.04
C.中位数为36.3 D.第80百分位数为36.55
【解答】解:根据题意,将7个数据从小到大排列:36.1,36.1,36.2,36.3,36.3,36.5,36.6,
由此分析选项:
对于A,其平均数 = (36.1+36.1+36.2+36.3+36.3+36.5+36.6)=36.3,A正确;
对于B,其方差S2= (0.04+0.04+0.01+0+0+0.04+0.09)= ,B错误;
对于C,其中位数为第4个数据,即36.3,C正确;
对于D,7×80%=5.6,则该组数据的第80百分位数为36.5,D错误.
故选:AC.
45.(多选)(2023•如皋市模拟)某班共有48人,小明在一次数学测验中的成绩是第5名,则小明成绩的
百分位数可能是( )
A.9 B.10 C.90 D.91
【解答】解:将全班数学成绩由低到高排列,则小明成绩排在第44位,显然AB错误;
资料整理【淘宝店铺:向阳百分百】因为48×90%=43.2,48×91%=43.68,
所以第90百分位数和第91百分位数均为小明成绩.
故选:CD.
一十四.变量间的相关关系(共2小题)
46.(多选)(2023•鼓楼区校级模拟)下列说法中正确的是( )
A.若数据x ,x ,…,x 的方差s2为0,则此组数据的众数唯一
1 2 n
B.已知一组数据2,3,5,7,8,9,9,11,则该组数据的第40百分位数为6
C.若两个具有线性相关关系的变量的相关性越强,则线性相关系数r的值越大
D.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高
【解答】解:对于A,数据x ,x ,…,x 的方差s2为0时,则此组数据与平均数相同,所以众数唯一,
1 2 n
选项A正确;
对于B,数据2,3,5,7,8,9,9,11,且8×40%=3.2,所以该组数据的第40百分位数为第4个数,
是7,选项B错误;
对于C,若两个具有线性相关关系的变量的相关性越强,则线性相关系数 r的绝对值越接近1,所以选
项C错误;
对于D,残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高,选项D正确.
故选:AD.
一十五.相关系数(共4小题)
47.(2023•锡山区校级一模)对两组变量进行回归分析,得到不同的两组样本数据,第一组对应的相关
系数,残差平方和,决定系数分别为r , , ,第二组对应的相关系数,残差平方和,决定系数分
1
别为r , , ,则( )
2
A.若r >r ,则第一组变量比第二组的线性相关关系强
1 2
B.若 ,则第一组变量比第二组的线性相关关系强
C.若 ,则第一组变量比第二组变量拟合的效果好
D.若 ,则第二组变量比第一组变量拟合的效果好
【解答】解:根据题意,依次分析选项:
对于A,若|r |>|r |,则第一组变量比第二组的线性相关关系强,A错误;
1 2
对于B,若 ,必有|r |>|r |,则第一组变量比第二组的线性相关关系强,B正确;
1 2
对于C,若 ,则第二组变量比第一组变量拟合的效果好,C错误;
对于D,若 ,则第一组变量比第二组变量拟合的效果好,D错误.
故选:B.
48.(2023•黄州区校级二模)在一组样本数据(x
1
,y
1
),(x
2
,y
2
),⋯,(x
n
,y
n
),(n≥2,x
1
,
资料整理【淘宝店铺:向阳百分百】x
2
,⋯,x
n
互不相等)的散点图中,若所有样本点(x
i
,y
i
)(i=1,2,⋅⋅⋅,n)都在直线 上,
则这组样本数据的样本相关系数为( )
A. B. C.﹣1 D.1
【解答】解:根据回归直线方程y= ,可得这两个变量是正相关,
又因为所有样本点(x
i
,y
i
)(i=1,2,⋅⋅⋅,n)都在直线 上,
所以r=1,
故选:D.
49.(2023•汉滨区校级模拟)某食品加工厂新研制出一种袋装食品(规格:500g/袋),下面是近六个月
每袋出厂价格(单位:元)与销售量(单位:万袋)的对应关系表:
月份序号 1 2 3 4 5 6
每袋出厂价 10.5 10.9 11 11.5 12 12.5
格x
i
月销售量y 2.2 2 1.9 1.8 1.5 1.4
i
并计算得 , , .
(1)计算该食品加工厂这六个月内这种袋装食品的平均每袋出厂价格、平均月销售量和平均月销售收
入;
(2)求每袋出厂价格与月销售量的样本相关系数(精确到0.01);
(3)若样本相关系数|r|≥0.75,则认为相关性很强;否则没有较强的相关性.你认为该食品加工厂制定
的每袋食品的出厂价格与月销售量是否有较强的相关性.
附:样本相关系数 , .
【解答】解:(1)该食品加工厂这六个月内这种袋装食品的平均每袋出厂价格为:
(元),
平均月销售量为 (万袋),
平均月销售收入为 (万元);
(2)由已知,每袋出厂价格与月销售量的样本相关系数为:
资料整理【淘宝店铺:向阳百分百】=
= = =
;
(3)由于每袋出厂价格与月销售量的样本相关系数|r|≈0.98>0.75,
所以该食品加工厂制定的每袋食品的出厂价格与月销售量有较强的相关性.
一十六.线性回归方程(共5小题)
50.(2023•江西模拟)近年来,我国无人机产业发展迅猛,在全球具有领先优势,已经成为“中国制
造”一张靓丽的新名片,其中民用无人机市场也异常火爆,销售量逐年上升.现某无人机专卖店统计了
5月份前5天每天无人机的实际销量,结果如下表所示.
日期编号x 1 2 3 4 5
销量y/部 9 a 17 b 27
经分析知,y 与 x 有较强的线性相关关系,且求得线性回归方程为 ,则 a+b 的值为
( )
A.28 B.30 C.33 D.35
【解答】解:由已知可得 , ,
∴样本点的中心的坐标为(3, ),
代入回归直线方程 ,
得 ,解得a+b=33.
故选:C.
51.(2023•金安区校级模拟)某学校一同学研究温差x(℃)与本校当天新增感冒人数y(人)的关系,
该同学记录了5天的数据:
x 5 6 8 9 12
y 17 20 25 28 35
经过拟合,发现基本符合经验回归方程 ,则下列结论错误的是( )
A.样本中心点为(8,25)
B.
资料整理【淘宝店铺:向阳百分百】C.x=5时,残差为﹣0.2
D.若去掉样本点(8,25),则样本的相关系数r增大
【解答】解: , .
∴样本中心点为(8,25),故A正确;
把(8,25)代入 ,得25=2.6×8+ ,可得 ,故B正确;
x=5时, =17.2,则残差为17﹣17.2=﹣0.2,故C正确;
由相关系数公式可知,去掉样本点(8,25)后,x与y的样本相关系数r不变,故D错误.
故选:D.
52.(2023•乌鲁木齐模拟)5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某手机
商城统计了最近5个月手机的实际销量,如表所示:
时间x 1 2 3 4 5
销售量y(千 0.5 0.8 1.0 1.2 1.5
只)
若y与x线性相关,且线性回归方程为 ,则下列说法不正确的是( )
A.由题中数据可知,变量y与x正相关,且相关系数r<1
B.线性回归方程 中
C.残差 的最大值与最小值之和为0
D.可以预测x=6时该商场5G手机销量约为1.72(千只)
【解答】解:从数据看y随x的增加而增加,故变量y与x正相关,由于各增量并不相等,故相关系数r
<1,故A正确;
由已知数据易得 ,代入 中得到 ,故B错误;
, , ,
, , ,
, , , ,
,
残差 的最大值 与最小值 之和为0,故C正确;
资料整理【淘宝店铺:向阳百分百】x=6时该商场5G手机销量约为 ,故D正确.
故选:B.
53.(2023•鞍山模拟)2020年,是人类首次成功从北坡登顶珠峰60周年,也是中国首次精确测定并公布
珠峰高程的45周年.华为帮助中国移动开通珠峰峰顶5G,有助于测量信号的实时开通,为珠峰高程测
量提供通信保障,也验证了超高海拔地区5G信号覆盖的可能性,在持续高风速下5G信号的稳定性,
在条件恶劣地区通过简易设备传输视频信号的可能性.正如任总在一次采访中所说:“华为公司价值体
系的理想是为人类服务.”有人曾问,在珠峰开通5G的意义在哪里?“我认为它是科学技术的一次珠
峰登顶,告诉全世界,华为5G、中国5G的底气来自哪里.现在,5G的到来给人们的生活带来更加颠
覆性的变革,某IT公司基于领先技术的支持,5G经济收入在短期内逐月攀升,该IT公司在1月份至6
月份的5G经济收入y(单位:百万元)关于月份x的数据如下表所示,并根据数据绘制了如图所示的散
点图.
月份x 1 2 3 4 5 6
收入y(百 6.6 8.6 16.1 21.6 33.0 41.0
万元)
(1)根据散点图判断,y=ax+b与y=c•edx(a,b,c,d均为常数)哪一个更适宜作为5G经济收入y
关于月份x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的结果及表中的数据,求出y关于x的回归方程,并预测该公司7月份的5G经济收入.
(结果保留小数点后两位)
(3)从前6个月的收入中抽取2个,记收入超过20百万元的个数为X,求X的分布列和数学期望.参
考数据:
e1.52 e2.66
3.50 21.15 2.85 17.70 125.35 6.73 4.57 14.30
其中,设u=lny,u=lny(i=1,2,3,4,5,6).
i i
参考公式:对于一组具有线性相关关系的数据(x
i
,v
i
)(i=1,2,3,⋯,n),其回归直线
的斜率和截距的最小二乘估计公式分别为 , .
资料整理【淘宝店铺:向阳百分百】【解答】解:(1)根据散点图判断,y=cedx更适宜作为5G经济收入y关于月份x的回归方程类型;
(2)由(1)得y=cedx,则两边同时取常用对数得lny=lnc+dx,
设u=lny,则u=lnc+dx,
∵ ,∴ ,
∴ ,
∴ ,即 ,
∴ ,
令x=7,则 ,
故预测该公司7月份的5G经济收入大约为65.35百万元;
(3)前6个月的收入中,收入超过20百万元的有3个,
∴随机变量X的取值可能为0,1,2,
∴ ,
故X的分布列为:
X 0 1 2
P
∴ .
54.(2023•道里区校级二模)中国共产党第二十次全国代表大会上的报告中提到,新时代十年我国经济
实力实现历史性跃升,国内生产总值从54万亿元增长到114万亿元,我国经济总量稳居世界第二位.
建立年份编号为解释变量,地区生产总值为响应变量的一元线性回归模型,现就 2012﹣2016某市的地
区生产总值统计如下:
资料整理【淘宝店铺:向阳百分百】年份 2012 2013 2014 2015 2016
年份编号 1 2 3 4 5
地区生产总值 2.8 3.1 3.9 4.6 5.6
(亿元)
(1)求出回归方程,并计算2016年地区生产总值的残差;
(2)随着我国打赢了人类历史上规模最大的脱贫攻坚战,该市2017﹣2022的地区生产总值持续增长,
现对这 11 年的数据有三种经验回归模型 =1.017x+1.200、 ﹣1.645、
+2.365,它们的R2分别为0.976、0.880和0.985,请根据R2的数值选择最好的回归模型预测一下2023年
该市的地区生产总值;
(3)若2012﹣2022该市的人口数(单位:百万)与年份编号的回归模型为 =0.2x+1.2,结合(2)问
中的最佳模型,预测一下在2023年以后,该市人均地区生产总值的变化趋势.
参考公式: , .
【解答】解:(1)设年份编号为x,地区生产总值为y亿元,
则 = =3, = =4,
∴b= = = =0.71,
∴a= ﹣b =4﹣0.71×3=1.87,
∴回归方程为y=0.71x+1.87,
2016年对应x=5,y=0.71×5+1.87=5.42,
所以残差为5.6﹣5.42=0.18;
(2)R2用来衡量线性回归的拟合度,接近1表示变量间具有很强的正相关,R2越大,拟合效果越好,
∴最好的回归模型是0.985对应的y=0.107x2+2.365,
2023年对应编号是x=12,所以y=0.107×122+2.365=17.773,
∴预测2023年该市的地区生产总值为17.773亿元;
(3)设人均地区生产总值为t亿元,
则t(x)= = ,
令m=x+6,则x=m﹣6,由x>0可得m>6,
资料整理【淘宝店铺:向阳百分百】∴t(m)= = =0.535m+ ﹣6.42,
∴t'(m)=0.535﹣ ,
令t'(m)=0得,m≈7.6,
∴当m (6,7.6)时,t'(m)<0,t(m)单调递减;当m (7.6,+∞)时,t'(m)>0,t(m)单调
递增,
∈ ∈
2023年对应的x=12,m=12+6=18,
∴在2023年以后,该市人均地区生产总值的变化趋势为递增.
一十七.回归分析(共2小题)
55.(2023•石家庄三模)观察下列四幅残差图,满足一元线性回归模型中对随机误差的假定的是
( )
A. B.
C. D.
【解答】解:对于A,残差与观测时间有线性关系,故A错;
对于B,残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,故B正确;
对于C,残差与观测时间有非线性关系,故C错;
对于D,残差的方差不是一个常数,随着观测时间变大而变大,故D错.
故选:B.
56.(多选)下列命题中为真命题的是( )
A.用最小二乘法求得的一元线性回归模型的残差和一定是0
B.一组数按照从小到大排列后为:x ,x ,…,x ,计算得:n×25%=17,则这组数的25%分位数是
1 2 n
x
17
C.在分层抽样时,如果知道各层的样本量、各层的样本均值及各层的样本方差,可以计算得出所有数
据的样本均值和方差
D.从统计量中得知有97%的把握认为吸烟与患肺病有关系,是指推断有3%的可能性出现错误
资料整理【淘宝店铺:向阳百分百】【解答】解:对于A,根据残差定义及最小二乘法
,故A
正确;
对于B,由百分位数定义,结果应为 ,故B错误;
对于C,在分层抽样时,如果知道各层的样本量、各层的样本均值及各层的样本方差,可以计算得出所
有数据的样本均值和方差,故C正确;
对于D,从统计量中得知有97%的把握认为吸烟与患肺病有关系,是指推断有3%的可能性出现错误,
故D正确.
故选:ACD.
一十八.独立性检验(共4小题)
57.(2023•道里区校级模拟)下列说法不正确的是( )
A.甲、乙、丙三种个体按3:1:2的比例分层抽样调查,若抽取的甲种个体数为9,则样本容量为18
B.设一组样本数据x ,x ,…,x 的方差为2,则数据4x ,4x ,…,4x 的方差为32
1 2 n 1 2 n
C.在一个2×2列联表中,计算得到|χ2的值,则χ2的值越接近1,可以判断两个变量相关的把握性越大
D.已知随机变量 ~N(2,σ2),且P( <4)=0.8,则P(0< <4)=0.6
ξ ξ ξ
【解答】解:对于A:设样本容量为n,则 ,故n=18,故A正确;
对于B:设样本数据x ,x ,…,x 的均值为 ,
1 2 n
则数据4x ,4x ,…,4x 的均值为4 ,
1 2 n
故数据4x ,4x ,…,4x 的方差为:16×2=32,故B正确;
1 2 n
对于C:χ2越大,可以判断两个变量相关的把握性越大,越小则把握性越小,故C错误;
对于D:由正态分布的对称性可得:P(0< <4)=2[P( <4)﹣0.5]=0.6,故D正确.
故选:C.
ξ ξ
58.(2023•菏泽二模)足球是一项大众喜爱的运动,为了解喜爱足球是否与性别有关,随机抽取了若干
人进行调查,抽取女性人数是男性的2倍,男性喜爱足球的人数占男性人数的 ,女性喜爱足球的人数
占女性人数的 ,若本次调查得出“在犯错误的概率不超过 0.005的前提下认为喜爱足球与性别有关”
的结论,则被调查的男性至少有( )人.
a 0.10 0.05 0.01 0.005 0.001
x 2.706 3.841 5.635 7.879 10.828
a
A.10 B.11 C.12 D.13
【解答】解:设被调查的男性为x人,则女性为2x人,依据题意可得列联表如下表:
资料整理【淘宝店铺:向阳百分百】男性 女性 合计
喜爱足球
不喜爱足球
合计 x 2x 3x
,
因为本次调查得出“在犯错误的概率不超过0.005的前提下认为喜爱足球与性别有关”的结论,
所以有χ2≥7.879,即 ,
解得x≥11.8185,又因为上述列联表中的所有数字均为整数,
故x的最小值为12.
故选:C.
59.(2023•四川模拟)为调查学生近视情况,某地区从不同地域环境的甲、乙两所学校各抽取500名学生
参与调查,调查结果分为“近视”与“非近视”两类,结果统计如下表:
近视人数 非近视人数 合计
甲校 250 250 500
乙校 300 200 500
合计 550 450 1000
(1)估计甲、乙两所学校学生近视的频率分别是多少?
(2)根据调查数据,能否有99%的把握认为近视人数与不同地域环境的学校有关?
附: ,其中n=a+b+c+d.
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
【解答】解:(1)由表中数据可得,甲校学生近视的频率是 ,
乙校学生近视的频率是 .
(2)∵ = ≈10.101>6.635,
∴有99%的把握认为近视人数与不同地域环境的学校有关.
60.(2023•湖南模拟)民族要复兴,乡村要振兴,合作社助力乡村产业振兴,农民专业合作社已成为新
型农业经营主体和现代农业建设的中坚力量,为实施乡村振兴战略作出了巨大的贡献.已知某主要从事
资料整理【淘宝店铺:向阳百分百】手工编织品的农民专业合作社共有100名编织工人,该农民专业合作社为了鼓励工人,决定对“编织巧
手”进行奖励,为研究“编织巧手”是否与年龄有关,现从所有编织工人中抽取 40周岁以上(含40周
岁)的工人24名,40周岁以下的工人16名,得到的数据如表所示.
“编织巧手” 非“编织巧手” 总计
年龄≥40岁 19 _____ _____
年龄<40岁 _____ 10 _____
总计 _____ _____ 40
(1)请完成答题卡上的2×2列联表,并根据小概率值 =0.010的独立性检验,分析“编织巧手”与
“年龄”是否有关;
α
(2)为进一步提高编织效率,培养更多的“编织巧手”,该农民专业合作社决定从上表中的非“编织
巧手”的工人中采用分层抽样的方法抽取6人参加技能培训,再从这6人中随机抽取2人分享心得,求
这2人中恰有1人的年龄在40周岁以下的概率.
参考公式: ,其中n=a+b+c+d.
参考数据:
0.100 0.050 0.010 0.005
xα 2.706 3.841 6.635 7.879
【解答】α解:(1)年龄在40周岁以上(含40周岁)的非“编织巧手”有5人,年龄在40周岁以下的
“编织巧手”有6人.列联表如下:
“编织巧手” 非“编织巧手” 总计
年龄≥40岁 19 5 24
年龄<40岁 6 10 16
总计 25 15 40
零假设为H :“编织巧手”与“年龄”无关联.
0
根据列联表中的数据,经计算得到 ,
根据小概率值 =0.010的独立性检验,我们推断H 不成立,即认为“编织巧手”与“年龄”有关,此
0
推断犯错的概率不大于0.010;
α
(2)由题意可得这6人中年龄在40周岁以上(含40周岁)的人数是2;年龄在40周岁以下的人数是
4.
从这6人中随机抽取2人的情况有 种,
其中符合条件的情况有 种,
故所求概率 .
资料整理【淘宝店铺:向阳百分百】1.线性回归方程:
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
x , y ,x , y ,⋯,x , y
(2)回归方程:两个具有线性相关关系的变量的一组数据: 1 1 2 2 n n ,其回归方
n
x y nxy
i i
b i1 ,
n
x2 nx 2
i
i1
ybxa a ybx. x, y
程为 ,则 注意:线性回归直线经过定点 .
n n
x xy y x y nxy
i i i i
r i1 i1
n n n n
x x2y y2 x2 nx2 y2 ny2
i i i i
(3)相关系数: i1 i1 i1 i1 .
【方法归纳】
(1)利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函
数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关
关系.若点散布在从左下角到右上角的区域,则正相关.
r
(2)利用相关系数判定,当
越趋近于1相关性越强.当残差平方和越小,相关指数R2
越大,相关性越
强.
(3)在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相
关关系,也可计算相关系数r进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的
值.
b ,a
(4)正确运用计算 的公式和准确的计算,是求线性回归方程的关键.并充分利用回归直线
y bxa x, y
过样本点的中心 进行求值.
2、回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。
建立回归模型的基本步骤是:
(1)确定研究对象,明确两个变量即解释变量和预报变量;
(2)画出散点图,观察它们之间的关系;
(3)由经验确定回归方程类型(若呈线性关系,选用线性回归方程);
(4)按一定规则估计回归方程中的参数(如最小二乘法);
(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差出现不随机的规律性,等等),
若存在异常,则检查数据是否有误,或模型是否合适等。
3.独立性检验的一般步骤
(1)根据样本数据列出 列联表;
(2)计算随机变量 的观测值k,查下表确定临界值k:
0
资料整理【淘宝店铺:向阳百分百】(3)如果 ,就推断“X与Y有关系”,这种推断犯错误的概率不超过 ;否则,就认为在
犯错误的概率不超过 的前提下不能推断“X与Y有关系”.
资料整理【淘宝店铺:向阳百分百】