文档内容
2025版新教材高考数学第二轮复习
9.5 统计与成对数据的统计分析
五年高考
高考新风向
1.(2024新课标Ⅱ,4,5分,易)某农业研究部门在面积相等的100块稻田上种植一种新型水
稻,得到各块稻田的亩产量(单位:kg)并整理得下表:
[950,
[900, [1 000, [1 050, [1 100, [1 150,
亩产
1
量
950) 1 050) 1 100) 1 150) 1 200)
000)
频数 6 12 18 30 24 10
根据表中数据,下列结论中正确的是 ( )
A.100块稻田亩产量的中位数小于1 050 kg
B.100块稻田中亩产量低于1 100 kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200 kg至300 kg之间
D.100块稻田亩产量的平均值介于900 kg至1 000 kg之间
2.(2024全国甲理,17,12分,易)某工厂进行生产线智能化升级改造.升级改造后,从该工厂甲、
乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1)填写如下列联表:
优级品 非优级品
甲车间
乙车间
能否有95%的把握认为甲、乙两车间产品的优级品率存在差异?能否有99%的把握认为
甲、乙两车间产品的优级品率存在差异?
(2)已知升级改造前该工厂产品的优级品率p=0.5.设p为升级改造后抽取的n件产品的优
√ p(1−p)
级品率,如果p>p+1.65 ,则认为该工厂产品的优级品率提高了.根据抽取的150件
n
产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?(√150
≈12.247)n(ad−bc) 2
附:K2= ,
(a+b)(c+d)(a+c)(b+d)
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
.
考点1 抽样方法与总体分布的估计
1.(2022全国甲,文2,理2,5分,易)某社区通过公益讲座以普及社区居民的垃圾分类知识.为
了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知
识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如下图:
则 ( )
A.讲座前问卷答题的正确率的中位数小于70%
B.讲座后问卷答题的正确率的平均数大于85%
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
2.(2021全国甲,文2,理2,5分,易)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是 ( )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
3.(多选)(2021新高考Ⅰ,9,5分,易)有一组样本数据x ,x ,…,x ,由这组数据得到新样本数据
1 2 n
y ,y ,…,y ,其中y=x+c(i=1,2,…,n),c为非零常数,则 ( )
1 2 n i i
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
4.(多选)(2021新高考Ⅱ,9,5分,易)下列统计量中可用于度量样本x ,x ,…,x 离散程度的有
1 2 n
( )
A.x ,x ,…,x 的标准差
1 2 n
B.x ,x ,…,x 的中位数
1 2 n
C.x ,x ,…,x 的极差
1 2 n
D.x ,x ,…,x 的平均数
1 2 n
5.(多选)(2023新课标Ⅰ,9,5分,中)有一组样本数据x ,x ,…,x ,其中x 是最小值,x 是最大值,
1 2 6 1 6
则 ( )
A.x ,x ,x ,x 的平均数等于x ,x ,…,x 的平均数
2 3 4 5 1 2 6
B.x ,x ,x ,x 的中位数等于x ,x ,…,x 的中位数
2 3 4 5 1 2 6
C.x ,x ,x ,x 的标准差不小于x ,x ,…,x 的标准差
2 3 4 5 1 2 6
D.x ,x ,x ,x 的极差不大于x ,x ,…,x 的极差
2 3 4 5 1 2 6
6.(2021全国乙,文17,理17,12分,中)某厂研制了一种生产高精产品的设备,为检验新设备
生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了 10件产品,得到各件产品该项指标数据如下:
旧设 10. 10.
9.8 10.010.2 9.9 9.8 10.010.1 9.7
备 3 2
新设 10. 10. 10.
10.1 10.110.0 10.310.610.5 10.5
备 4 1 4
旧设备和新设备生产产品的该项指标的样本平均数分别记为 x和y,样本方差分别记为s2
1
和s2
.
2
(1)求x,y,s2,s2;
1 2
√s2+s2
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高 如果y-x≥2 1 2,
10
则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高 .
7.(2023新课标Ⅱ,19,12分,中)某研究小组经过研究发现某种疾病的患病者与未患病者的
某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分
布直方图:利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳性,小于
或等于c的人判定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概率,记为p(c);
误诊率是将未患病者判定为阳性的概率,记为q(c).假设数据在组内均匀分布.以事件发生
的频率作为相应事件发生的概率.
(1)当漏诊率p(c)=0.5%时,求临界值c和误诊率q(c);
(2)设函数f(c)=p(c)+q(c).当c∈[95,105]时,求f(c)的解析式,并求f(c)在区间[95,105]的最小值.考点2 变量间的相关关系
1.(2023天津,7,5分,易)鸢是鹰科的一种鸟,《诗经·大雅·旱麓》曰“鸢飞戾天,鱼跃于渊”.
鸢尾花因花瓣形如鸢尾而得名(图1),寓意鹏程万里、前途无量.通过随机抽样,收集了若干
朵某品种鸢尾花的花萼长度和花瓣长度(单位:cm),绘制对应散点图(图2).
^
计算得样本相关系数为 0.864 2,利用最小二乘法求得相应的经验回归方程为 =0.750
y
1x+0.610 5.根据以上信息,如下判断正确的为( )
A.花萼长度与花瓣长度不存在相关关系
B.花萼长度与花瓣长度负相关
C.花萼长度为7 cm的该品种鸢尾花的花瓣长度的平均值约为5.861 2 cm
D.若选取其他品种鸢尾花进行抽样,所得花萼长度与花瓣长度的样本相关系数一定为
0.864 2
2.(2020课标Ⅱ,文18,理18,12分,中)某沙漠地区经过治理,生态系统得到很大改善,野生动
物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从
这些地块中用简单随机抽样的方法抽取 20 个作为样区,调查得到样本数据(x,y)
i i
(i=1,2,…,20),其中x 和y 分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物
i i
20 20 20 20
的数量,并计算得∑❑x=60, ∑❑y=1
200,
∑❑(x-x)2=80, ∑❑(y-y)2=
i i i i
i=1 i=1 i=1 i=1
20
9 000,∑❑(x-x)(y-y)=800.
i i
i=1
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生
动物数量的平均数乘地块数);
(2)求样本(x,y)(i=1,2,…,20)的相关系数(精确到0.01);
i i(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地
区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
n n
∑❑(x −x)(y −y) ∑❑(x −x)(y −y)
i i i i
i=1 i=1
附:相关系数 r =,√2≈1.414.
√ n n √ n n
∑❑(x −x) 2∑❑(y −y) 2 ∑❑(x −x) 2∑❑(y −y) 2
i i i i
i=1 i=1 i=1 i=1
考点3 独立性检验
1.(2020新高考Ⅰ,19,12分,易)为加强环境保护,治理空气污染,环境监测部门对某市空气质
量进行调研,随机抽查了100天空气中的PM 和SO 浓度(单位:μg/m3),得下表:
2.5 2
SO
2
PM
2.5
[0,50] (50,150] (150,475]
[0,35] 32 18 4
(35,75] 6 8 12
(75,115] 3 7 10
(1)估计事件“该市一天空气中PM 浓度不超过75,且SO 浓度不超过150”的概率;
2.5 2
(2)根据所给数据,完成下面的2×2列联表:
SO
2
PM
2.5
[0,150] (150,475]
[0,75](75,115]
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM 浓度与SO 浓度
2.5 2
有关.
n(ad−bc) 2
附:K2= ,
(a+b)(c+d)(a+c)(b+d)
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
.
2.(2020课标Ⅲ,文18,理18,12分,中)某学生兴趣小组随机调查了某市100天中每天的空气
质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次
空气质量等级 (200, (400,
[0,200]
400] 600]
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为
代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3
或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判
断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
人次≤400 人次>400
空气质量好
空气质量不好
n(ad−bc) 2
附:K2= ,
(a+b)(c+d)(a+c)(b+d)
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
.
三年模拟
练速度
1.(2024河南郑州二模,2)数据6.0,7.4,8.0,8.4,8.6,8.7,8.9,9.1的第75百分位数为 ( )
A.8.5 B.8.6 C.8.7 D.8.8
2.(2024江西重点中学盟校联考,3)下图是我国2018—2023年纯电动汽车销量统计情况,下
列说法中错误的是 ( )A.我国纯电动汽车销量呈现逐年增长趋势
B.这六年销量的第60百分位数为536.5万辆
C.这六年增长率最大的为2019年至2020年
D.2020年销量高于这六年销量的平均值
1
3.(2024湖南长沙雅礼中学月考,4)已知一组数据x ,x ,x ,x ,x 的平均数为2,方差为 ,则另
1 2 3 4 5 2
一组数据3x -2,3x -2,3x -2,3x -2,3x -2的平均数、标准差分别为 ( )
1 2 3 4 5
1
A.2, B.2,1
2
3√2 9
C.4, D.4,
2 2
4.(2024福建适应性训练,4)某单位共有A、B两部门,1月份进行服务满意度问卷调查,得到
两部门服务满意度得分的频率分布条形图如图.设A、B两部门的服务满意度得分的第75
百分位数分别为n ,n ,方差分别为s2,s2,则( )
1 2 1 2
A.n >n ,s2>s2 B.n >n ,s2s2
1 2 1 2 1 2 1 2
5.(2024福建宁德质检,5)2024海峡两岸各民族欢度“三月三”暨福籽同心爱中华·福建省
第十一届“三月三”畲族文化节活动在宁德福安隆重开幕.海峡两岸各民族同胞齐聚于
此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客
人流量,从上午10点开始第一次向指挥中心反馈入口人流量,之后每过一个小时反馈一次.指挥中心统计了前5次的数据(i,y),其中i=1,2,3,4,5,y 为第i次入口人流量数据(单位:百人),
i i
^ ^
由此得到 y 关于 i 的回归方程 = log (i+1)+5.已知 y=9,根据回归方程(参考数
y b 2
据:log 3≈1.6,log 5≈2.3),可预测下午4点时入口游客的人流量为 ( )
2 2
A.9.6 B.11.0 C.11.4 D.12.0
6.(2024广东揭阳二模,8)在研究变量x与y之间的关系时,进行试验后得到了一组样本数
^ 10 166
据(x ,y ),(x ,y ),…,(x ,y ),(6,28),(0,28).利用此样本数据求得的经验回归方程为 = x+ ,
1 1 2 2 5 5 y 7 7
^
现发现数据(6,28)和(0,28)误差较大,剔除这两对数据后,求得的经验回归方程为 =4x+m,且
y
5
∑❑y=140,则m=
( )
i
i=1
A.8 B.12 C.16 D.20
7.(多选)(2024山东潍坊一模,9)某科技攻关青年团队有6人,他们年龄分布的茎叶图如图所
示,已知这6人年龄的极差为14,则 ( )
A.a=8
B.6人年龄的平均数为35
C.6人年龄的75%分位数为36
64
D.6人年龄的方差为
3
8.(多选)(2024湘豫名校第二次模拟,9)人均可支配收入和人均消费支出是两个非常重要的
经济和民生指标,常被用于衡量一个地区经济发展水平和群众生活水平.2018—2023年前
三季度全国城镇居民人均可支配收入及人均消费支出统计图如图,据此进行分析,则 (
)A.2018—2023年前三季度全国城镇居民人均可支配收入逐年递增
B.2018—2023年前三季度全国城镇居民人均消费支出逐年递增
C.2018—2023年前三季度全国城镇居民人均可支配收入的极差比人均消费支出的极差大
D.2018—2023年前三季度全国城镇居民人均消费支出的中位数为21 180元
9.(多选)(2024山东省实验中学一模,9)下列命题正确的是 ( )
A.若样本数据x ,x ,…,x 的方差为2,则数据2x -1,2x -1,…,2x -1的方差为8
1 2 6 1 2 6
B.已知互不相同的 30 个样本数据,若去掉其中最大和最小的数据,则剩下 28 个数据的
20%分位数不等于原样本数据的20%分位数
C.若A,B两组成对数据的样本相关系数分别为 r =0.97,r =-0.99,则A组数据比B组数据的
A B
线性相关程度更强
D.若决定系数R2的值越接近于1,则表示回归模型的拟合效果越好
10.(2024江苏苏锡常镇调研,12)已知变量x,y的统计数据如下表,对表中数据作分析,发现y
^ ^
与x之间具有线性相关关系,利用最小二乘法,计算得到经验回归直线方程为 =0.8x+ ,据
y a
^
此模型预测当x=10时 的值为 .
y
x 5 6 7 8 9
y 3.5 4 5 6 6.5
练思维
1.(2024浙江全国名校协作体二模,4)为了解某中学学生假期中每天自主学习的时间,采用
样本量按比例分配的分层随机抽样,现抽取高一学生40人,其每天学习时间均值为8小时,
方差为0.5,抽取高二学生60人,其每天学习时间均值为9小时,方差为0.8,抽取高三学生
100人,其每天学习时间均值为10小时,方差为1,则估计该校学生每天学习时间的方差为
( )
A.1.4 B.1.45 C.1.5 D.1.552.(2024河北石家庄一模,6)某校为了解本校高一男生身高和体重的相关关系,在该校高一
年级随机抽取了7名男生,测量了他们的身高和体重,制作成表格.
身高x(单位:cm) 167 173 175 177 178 180 181
体重y(单位:kg) 90 54 59 64 67 72 76
由表格制作成如图所示的散点图,
^ ^ ^
由最小二乘法计算得到经验回归直线l
1
的方程为
y
=b x+a ,其相关系数为r
1
;经过残差分析,
1 1
点(167,90)对应残差过大,把它去掉后,再用剩下的6组数据计算得到经验回归直线l 的方
2
^ ^ ^
程为
y
=b x+a ,相关系数为r
2
.则下列选项正确的是 ( )
2 2
^ ^ ^ ^ ^ ^ ^ ^
A.b a ,r
1
r
2
1 2 1 2 1 2 1 2
^ ^ ^ ^ ^ ^ ^ ^
C.b >b ,a r
2
D.b >b ,a >a ,r
1
p+1.65 ,则认为该工厂产品的优级品率提高了.根据抽取的150件
n
产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?(√150
≈12.247)
n(ad−bc) 2
附:K2= ,
(a+b)(c+d)(a+c)(b+d)
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
.
解析 (1)列联表如下:
优级品 非优级品
甲车间 26 24
乙车间 70 30
150×(26×30−24×70) 2
K2= =4.687 5,
96×54×100×50
∵3.841<4.687 5<6.635,
∴有95%的把握认为甲、乙两车间产品的优级品率存在差异,没有99%的把握认为甲、乙两车间产品的优级品率存在差异.
96
(2)由题知p= =0.64,
150
√ p(1−p) √0.5×(1−0.5)
∵p=0.5,∴p+1.65 =0.5+1.65×
n 150
1.65×0.5 1.65×0.5
=0.5+ ≈0.5+ ≈0.567,
√150 12.247
√ p(1−p)
∵p>p+1.65 ,∴可以认为生产线智能化升级改造后,该工厂产品的优级品率提高
n
了.
考点1 抽样方法与总体分布的估计
1.(2022全国甲,文2,理2,5分,易)某社区通过公益讲座以普及社区居民的垃圾分类知识.为
了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知
识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如下图:
则 ( B )
A.讲座前问卷答题的正确率的中位数小于70%
B.讲座后问卷答题的正确率的平均数大于85%
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
2.(2021全国甲,文2,理2,5分,易)为了解某地农村经济情况,对该地农户家庭年收入进行抽
样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:根据此频率分布直方图,下面结论中不正确的是 ( C )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
3.(多选)(2021新高考Ⅰ,9,5分,易)有一组样本数据x ,x ,…,x ,由这组数据得到新样本数据
1 2 n
y ,y ,…,y ,其中y=x+c(i=1,2,…,n),c为非零常数,则 ( CD )
1 2 n i i
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
4.(多选)(2021新高考Ⅱ,9,5分,易)下列统计量中可用于度量样本x ,x ,…,x 离散程度的有
1 2 n
( AC )
A.x ,x ,…,x 的标准差
1 2 n
B.x ,x ,…,x 的中位数
1 2 n
C.x ,x ,…,x 的极差
1 2 n
D.x ,x ,…,x 的平均数
1 2 n
5.(多选)(2023新课标Ⅰ,9,5分,中)有一组样本数据x ,x ,…,x ,其中x 是最小值,x 是最大值,
1 2 6 1 6
则 ( BD )
A.x ,x ,x ,x 的平均数等于x ,x ,…,x 的平均数
2 3 4 5 1 2 6
B.x ,x ,x ,x 的中位数等于x ,x ,…,x 的中位数
2 3 4 5 1 2 6
C.x ,x ,x ,x 的标准差不小于x ,x ,…,x 的标准差
2 3 4 5 1 2 6
D.x ,x ,x ,x 的极差不大于x ,x ,…,x 的极差
2 3 4 5 1 2 6
6.(2021全国乙,文17,理17,12分,中)某厂研制了一种生产高精产品的设备,为检验新设备
生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了 10件产品,得到各件
产品该项指标数据如下:旧设 10. 10.
9.8 10.010.2 9.9 9.8 10.010.1 9.7
备 3 2
新设 10. 10. 10.
10.1 10.110.0 10.310.610.5 10.5
备 4 1 4
旧设备和新设备生产产品的该项指标的样本平均数分别记为 x和y,样本方差分别记为s2
1
和s2
.
2
(1)求x,y,s2,s2;
1 2
√s2+s2
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高 如果y-x≥2 1 2,
10
则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高 .
1
解析 (1)x= (9.8+10.3+10.0+10.2+9.9+9.8+10.0+10.1+10.2+9.7)=10.0.
10
1
y= (10.1+10.4+10.1+10.0+10.1+10.3+10.6+10.5+10.4+10.5)=10.3.
10
1
s2= [(9.8-10.0)2+(10.3-10.0)2+(10.0-10.0)2+(10.2-10.0)2+(9.9-10.0)2+(9.8-10.0)2+(10.0-
1 10
10.0)2+(10.1-10.0)2+(10.2-10.0)2+(9.7-10.0)2]=0.036.
1
s2= [(10.1-10.3)2+(10.4-10.3)2+(10.1-10.3)2+(10.0-10.3)2+(10.1-10.3)2+(10.3-10.3)2+(10.6-
2 10
10.3)2+(10.5-10.3)2+(10.4-10.3)2+(10.5-10.3)2]=0.04.
(2)由(1)得y-x=0.3,s2+s2=0.076,
1 2
2
( √s2+s2) 2
从而(y-x)2=0.09, 2 1 2 = (s2+s2)=0.030 4.
5 1 2
10
2
( √s2+s2) √s2+s2
所以(y-x)2> 2 1 2 ,又y>x,故y-x>2 1 2,
10 10
因此新设备生产产品的该项指标的均值较旧设备有显著提高.
7.(2023新课标Ⅱ,19,12分,中)某研究小组经过研究发现某种疾病的患病者与未患病者的
某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分
布直方图:利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳性,小于
或等于c的人判定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概率,记为p(c);
误诊率是将未患病者判定为阳性的概率,记为q(c).假设数据在组内均匀分布.以事件发生
的频率作为相应事件发生的概率.
(1)当漏诊率p(c)=0.5%时,求临界值c和误诊率q(c);
(2)设函数f(c)=p(c)+q(c).当c∈[95,105]时,求f(c)的解析式,并求f(c)在区间[95,105]的最小值.
解析 (1)由题意知(c-95)×0.002=0.5%, (1分)
得c=97.5, (2分)
q(c)=0.01×2.5+5×0.002=0.035=3.5%. (4分)
(2)当c∈[95,100]时,
f(c)=p(c)+q(c)=(c-95)×0.002+(100-c)×0.01+5×0.002=-0.008c+0.82≥0.02.(7分)
当c∈(100,105]时,
f(c)=p(c)+q(c)=5×0.002+(c-100)×0.012+(105-c)×0.002=0.01c-0.98>0.02.
{−0.008c+0.82,95≤c≤100,
∴f(c)= (9分)
0.01c−0.98,1006.635,故有99%的把握认为该市一天空气中PM 浓度与SO 浓度有关. (12
2.5 2
分)
2.(2020课标Ⅲ,文18,理18,12分,中)某学生兴趣小组随机调查了某市100天中每天的空气
质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次 [0,200] (200, (400,空气质量等级
400] 600]
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为
代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3
或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判
断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
人次≤400 人次>400
空气质量好
空气质量不好
n(ad−bc) 2
附:K2= ,
(a+b)(c+d)(a+c)(b+d)
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
.
解析 (1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:
空气质量等
1 2 3 4
级
概率的估计
0.43 0.27 0.21 0.09
值
1
(2)一天中到该公园锻炼的平均人次的估计值为 ×(100×20+300×35+500×45)=350.
100
(3)根据所给数据,可得2×2列联表:
人次≤400 人次>400
空气质量好 33 37
空气质量不好 22 8100×(33×8−22×37) 2
根据列联表得K2= ≈5.820.
55×45×70×30
由于5.820>3.841,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质
量有关.三年模拟
练速度
1.(2024河南郑州二模,2)数据6.0,7.4,8.0,8.4,8.6,8.7,8.9,9.1的第75百分位数为 ( D
)
A.8.5 B.8.6 C.8.7 D.8.8
2.(2024江西重点中学盟校联考,3)下图是我国2018—2023年纯电动汽车销量统计情况,下
列说法中错误的是 ( D )
A.我国纯电动汽车销量呈现逐年增长趋势
B.这六年销量的第60百分位数为536.5万辆
C.这六年增长率最大的为2019年至2020年
D.2020年销量高于这六年销量的平均值
1
3.(2024湖南长沙雅礼中学月考,4)已知一组数据x ,x ,x ,x ,x 的平均数为2,方差为 ,则另
1 2 3 4 5 2
一组数据3x -2,3x -2,3x -2,3x -2,3x -2的平均数、标准差分别为 ( C )
1 2 3 4 5
1
A.2, B.2,1
2
3√2 9
C.4, D.4,
2 2
4.(2024福建适应性训练,4)某单位共有A、B两部门,1月份进行服务满意度问卷调查,得到
两部门服务满意度得分的频率分布条形图如图.设A、B两部门的服务满意度得分的第75
百分位数分别为n ,n ,方差分别为s2,s2,则( C )
1 2 1 2A.n >n ,s2>s2 B.n >n ,s2s2
1 2 1 2 1 2 1 2
5.(2024福建宁德质检,5)2024海峡两岸各民族欢度“三月三”暨福籽同心爱中华·福建省
第十一届“三月三”畲族文化节活动在宁德福安隆重开幕.海峡两岸各民族同胞齐聚于
此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客
人流量,从上午10点开始第一次向指挥中心反馈入口人流量,之后每过一个小时反馈一次.
指挥中心统计了前5次的数据(i,y),其中i=1,2,3,4,5,y 为第i次入口人流量数据(单位:百人),
i i
^ ^
由此得到 y 关于 i 的回归方程 = log (i+1)+5.已知 y=9,根据回归方程(参考数
y b 2
据:log 3≈1.6,log 5≈2.3),可预测下午4点时入口游客的人流量为 ( B )
2 2
A.9.6 B.11.0 C.11.4 D.12.0
6.(2024广东揭阳二模,8)在研究变量x与y之间的关系时,进行试验后得到了一组样本数
^ 10 166
据(x ,y ),(x ,y ),…,(x ,y ),(6,28),(0,28).利用此样本数据求得的经验回归方程为 = x+ ,
1 1 2 2 5 5 y 7 7
^
现发现数据(6,28)和(0,28)误差较大,剔除这两对数据后,求得的经验回归方程为 =4x+m,且
y
5
∑❑y=140,则m=
( C )
i
i=1
A.8 B.12 C.16 D.20
7.(多选)(2024山东潍坊一模,9)某科技攻关青年团队有6人,他们年龄分布的茎叶图如图所
示,已知这6人年龄的极差为14,则 ( ACD )
A.a=8
B.6人年龄的平均数为35
C.6人年龄的75%分位数为36
64
D.6人年龄的方差为
3
8.(多选)(2024湘豫名校第二次模拟,9)人均可支配收入和人均消费支出是两个非常重要的
经济和民生指标,常被用于衡量一个地区经济发展水平和群众生活水平.2018—2023年前
三季度全国城镇居民人均可支配收入及人均消费支出统计图如图,据此进行分析,则 (ACD )
A.2018—2023年前三季度全国城镇居民人均可支配收入逐年递增
B.2018—2023年前三季度全国城镇居民人均消费支出逐年递增
C.2018—2023年前三季度全国城镇居民人均可支配收入的极差比人均消费支出的极差大
D.2018—2023年前三季度全国城镇居民人均消费支出的中位数为21 180元
9.(多选)(2024山东省实验中学一模,9)下列命题正确的是 ( ABD )
A.若样本数据x ,x ,…,x 的方差为2,则数据2x -1,2x -1,…,2x -1的方差为8
1 2 6 1 2 6
B.已知互不相同的 30 个样本数据,若去掉其中最大和最小的数据,则剩下 28 个数据的
20%分位数不等于原样本数据的20%分位数
C.若A,B两组成对数据的样本相关系数分别为 r =0.97,r =-0.99,则A组数据比B组数据的
A B
线性相关程度更强
D.若决定系数R2的值越接近于1,则表示回归模型的拟合效果越好
10.(2024江苏苏锡常镇调研,12)已知变量x,y的统计数据如下表,对表中数据作分析,发现y
^ ^
与x之间具有线性相关关系,利用最小二乘法,计算得到经验回归直线方程为 =0.8x+ ,据
y a
^
此模型预测当x=10时 的值为 7 . 4 .
y
x 5 6 7 8 9
y 3.5 4 5 6 6.5
练思维
1.(2024浙江全国名校协作体二模,4)为了解某中学学生假期中每天自主学习的时间,采用
样本量按比例分配的分层随机抽样,现抽取高一学生40人,其每天学习时间均值为8小时,
方差为0.5,抽取高二学生60人,其每天学习时间均值为9小时,方差为0.8,抽取高三学生
100人,其每天学习时间均值为10小时,方差为1,则估计该校学生每天学习时间的方差为
( B )A.1.4 B.1.45 C.1.5 D.1.55
2.(2024河北石家庄一模,6)某校为了解本校高一男生身高和体重的相关关系,在该校高一
年级随机抽取了7名男生,测量了他们的身高和体重,制作成表格.
身高x(单位:cm) 167 173 175 177 178 180 181
体重y(单位:kg) 90 54 59 64 67 72 76
由表格制作成如图所示的散点图,
^ ^ ^
由最小二乘法计算得到经验回归直线l
1
的方程为
y
=b x+a ,其相关系数为r
1
;经过残差分析,
1 1
点(167,90)对应残差过大,把它去掉后,再用剩下的6组数据计算得到经验回归直线l 的方
2
^ ^ ^
程为
y
=b x+a ,相关系数为r
2
.则下列选项正确的是 ( A )
2 2
^ ^ ^ ^ ^ ^ ^ ^
A.b a ,r
1
r
2
1 2 1 2 1 2 1 2
^ ^ ^ ^ ^ ^ ^ ^
C.b >b ,a r
2
D.b >b ,a >a ,r
1
6.635.
300×300×150×450 9
根据小概率值α=0.01的独立性检验,推断H 不成立,即认为体育锻炼达标与性别有关联,
0
该推断犯错误的概率不超过0.01.
(2)设事件A=“随机抽取一人体育锻炼达标”,事件B=“随机抽取一人体能测试合格”,
3 1 4 2
则P(A)= ,P(A)= ,P(B|A)= ,P(B|A)= .
4 4 5 5
7
所以P(B)=P(A)P(B|A)+P(A)P(B|A)= ,
10
X的可能取值为0,1,2,3,
( 3 ) 3 27
P(X=0)= = ,
10 1000
P(X=1)=C1( 3 ) 2 7
=
189
,
3 10 10 1000P(X=2)=C2 3 ( 7 ) 2
=
441
,
310 10 1000
( 7 ) 3 343
P(X=3)= = .
10 1000
所以X的分布列为
X 0 1 2 3
27 189 441 343
P
1000 1000 1000 1000
27 189 441 343
所以E(X)=0× +1× +2× +3× =2.1.
1000 1000 1000 1000
8.(2024黑龙江哈尔滨六中四模,18)2024年初,冰城哈尔滨充分利用得天独厚的冰雪资源,
成为2024年第一个“火出圈”的网红城市,冰城通过创新营销展示了丰富的文化活动,成
功提升了吸引力和知名度,为其他旅游城市提供了宝贵经验,从2024年1月1日至5日,哈
尔滨太平国际机场接待外地游客数量如下:
x(日) 1 2 3 4 5
y(万人) 45 50 60 65 80
(1)计算x,y的相关系数r(计算结果精确到0.01),并判断是否可以认为日期与游客人数的相
关性很强;
(2)请根据表中提供的数据,用最小二乘法求出y关于x的经验回归方程;
(3)为了吸引游客,在冰雪大世界售票处针对各个旅游团进行了现场抽奖的活动,具体抽奖
规则为从该旅游团中随机同时抽取两名游客,两名游客性别不同,则为中奖.已知某个旅游
团中有5个男游客和k(k≥5)个女游客,设重复进行三次抽奖中恰有一次中奖的概率为 p,当
k取多少时,p最大?
n n
∑❑(x −x)(y −y) ∑❑x y −nx y
i i i i
参 考 公 式 : ^ =i=1 =i=1 , ^ =y- ^ ,r=
b a bx
n n
∑❑(x −x) 2 ∑❑x2−nx2
i i
i=1 i=1n
∑❑(x −x)(y −y)
i i ,参考数据: ≈1.732.
i=1
√3
√ n n
∑❑(x −x) 2∑❑(y −y) 2
i i
i=1 i=1
1+2+3+4+5 45+50+60+65+80
解析 (1)因为x= =3,y= =60,
5 5
5 5
所以∑❑(x-x)(y-y)=85, ∑❑(x −x) 2 =10,
i i i
i=1 i=1
5
∑❑(y −y) 2 =750,
i
i=1
5
∑❑(x −x)(y −y)
5 5 i i 85
所 以 ∑❑(x −x) 2∑❑(y −y) 2 =7 500, 所 以 r= i=1 = ≈
i i
i=1 i=1 √ ∑❑ 5 (x −x) 2∑❑ 5 (y −y) 2 50√3
i i
i=1 i=1
85 85
= ≈0.98,
50×1.732 86.6
由此可以认为日期与游客人数的相关性很强.
5 5
(2)由(1)知∑❑(x-x)(y-y)=85, ∑❑(x −x) 2 =10,
i i i
i=1 i=1
5
∑❑(x −x)(y −y)
i i
所以 ^ = i=1 = 85 =8.5,
b
5 10
∑❑(x −x) 2
i
i=1
^ ^
因为 a=y-bx=60-8.5×3=34.5,
所以回归方程为y=8.5x+34.5.
C1·C1
10k
(3)记p(k)=t= 5 k = (k≥5,k∈N),
C2 (k+5)(k+4)
k+5
10(k+1) 10k 10(4−k)
∵p(k+1)-p(k)= - = <0,
(k+6)(k+5) (k+5)(k+4) (k+4)(k+5)(k+6)
5 5
∴0