第3讲 概率统计中的数学建模与数据分析
概率统计中的创新性问题是高考的命题重点,不仅注重模块知识内的综合,也
注重模块知识间的综合,更多地体现对数学建模与数据分析核心素养的考查.命
题的重点有:
(1)考查数学建模核心素养,以实际生活中的环保、民生、科技等为背景,考查
函数、数列等模型的建立,其中求解这些实际问题的最优化是近年高考命题的热
点.
(2)考查数据分析核心素养,常考查对数据的搜集与归类,并利用不同的特征
值对研究对象做出理性的判断.
图表与概率交汇
(2020·合肥一中最后一卷)某公司为了增强职工的健身意识,鼓励大家加
入健步运动,要求200名职工每天晚上9:30上传手机的计步截图,对于步数超过
10 000的给予奖励.图(1)为甲、乙两名职工在某一星期内的运动步数折线统计图,
图(2)为根据这星期内某一天全体职工的运动步数作出的频率分布直方图.
(1)在这一周内任选两天,求甲、乙两人这两天全部获奖的概率;
(2)请根据频率分布直方图,求出该天运动步数不少于15 000 的人数,并估计
全体职工在该天的平均步数;
(3)如果图(2)中的频率分布直方图所记录的那天甲的排名为第130名,乙的排
名为第40名,试判断作出的是星期几的频率分布直方图.
【解】 (1)由图(1)可知甲、乙两人步数均超过10 000的有星期一、星期二、星期五、星期日,共4天.
设事件A为甲、乙两人这两天全部获奖,
则P(A)==.
(2)由题图(2)可知(0.02+0.03+0.04+0.06+m)×5=1,
解得m=0.05,
所以该天运动步数不小于15 000的人数为(0.05+0.03)×5×200=80.
2.5×0.1+ 7.5×0.2+12.5×0.3+17.5×0.25+22.5×0.15=13.25(千步),
13.25千步=13 250步,
所以估计全体职工在该天的平均步数为13 250步.
(3)130÷200=0.65,40÷200=0.2,
假设甲当天的步数为x千步,乙当天的步数为y千步.
方法一:由频率分布直方图可得
解得所以可判断作出的是星期二的频率分布直方图.
方法二:由频率分布直方图可得
解得所以可判断作出的是星期二的频率分布直方图.
统计与概率“搭台”,方案选择“唱戏”
破解此类频率分布直方图、分层抽样与概率相交汇的开放性问题的关键:一是
活用性质,即利用频率分布直方图中各小矩形面积和为1,得含参数的方程,从而
达到求参数的目的;二是不混淆,即利用频率分布直方图求中位数与平均数时,注
意区分其本质的不同,中位数左边和右边的直方图的面积相等,平均数等于频率
分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
某校学生参与一项社会实践活动,受生产厂家委托采取随机抽
样方法,调查我市市民对某新开发品牌洗发水的满意度,同学们模仿电视问政的
打分制,由被调查者在0分到100分的整数分中给出自己的认可分数,现将收集到
的100位市民的认可分数分为6组:[40,50),[50,60),[60,70),[70,80),[80,90),
[90,100],绘制出如图所示的频率分布直方图.(1)求这100位市民认可分数的中位数(精确到0.1),平均数(同一组中的数据用
该组区间的中点值作代表);
(2)生产厂家根据同学们收集到的数据,拟随机在认可分数为80及其以上的市
民中选出2位市民当产品宣传员,求这2位宣传员都来自认可分数为[90,100]的
概率.
解:(1)由于[40,50),[50,60),[60,70)的频率分别有0.1,0.2,0.3.
故中位数位于[60,70)中,其值为60+10×≈66.7.
平均数为 10×(45×0.01+55×0.02+65×0.03+75×0.025+85×0.01+
95×0.005)=67.
(2)认可分数位于[80,90)的人数为10,认可分数位于[90,100]的人数为5,从认
可分数位于[90,100]的5人中随机选择2人的基本事件数为1+2+3+4=10,从
认可分数位于[80,90)和[90,100]的15人中随机选择2人的基本事件数为1+2+3
+…+14=105.
故这2位宣传员都来自认可分数为[90,100]的概率为=.
图表与独立性检验相交汇
(2020·河南6月适应性练习)人类非物质文化遗产是指经联合国教科文
组织评选确定而列入《人类非物质文化遗产代表作名录》的遗产项目.它记录着人
类社会生产生活方式、风俗人情、文化理念等,蕴藏着世界各民族的文化基因、精
神特质、价值观念、心理结构、气质情感等核心因素,是全人类共同的宝贵财富.中
国作为东方文明大国,截至2018年12月,中国列入联合国教科文组织非物质文化
遗产名录(名册)项目共计40项,总数位居世界第一.现已知某地有多项世界级非
物质文化遗产,每年都有大批的游客前来参观学习,这也带动了当地旅游经济的
发展.某土特产超市对某节日期间的90位游客购买情况进行了统计,得到如下频
数分布表:购买金
[0,15) [15,30) [30,45) [45,60) [60,75) [75,90]
额/元
购买人数 10 15 20 15 20 10
(1)根据以上数据完成2×2列联表,并判断能否在犯错误的概率不超过0.05的
情况下认为购买金额是否少于60元与年龄是否大于50岁有关;
不少于60元 少于60元 总计
年龄大于50岁 40
年龄不大于50岁 18
总计
(2)为吸引游客,该超市推出购买一定数额以上土特产即可抽奖赢取非物质文
化遗产体验机会及返现的活动,凡是购买金额不少于60元的顾客可抽奖三次,每
次中奖概率为p(0
3.841,
因此能在犯错误的概率不超过 0.05的情况下认为购买金额是否少于 60元与
年龄是否大于50岁有关.
(2)X的所有可能取值为65,70,75,80,且p==.
所以P(X=65)=C=,
P(X=70)=C=,
P(X=75)=C=,
P(X=80)=C=.
X的分布列为X 65 70 75 80
P
所以E(X)=65×+70×+75×+80×=75.
破解频数分布表、独立性检验、离散型随机变量的分布列与期望相交汇题的易
错点有三处:一是忽视关键字眼,导致所得的数据出错,从而补全2×2列联表时
出错,如本题,若把“不少于60元”误以为“少于60元”,则会导致求解出错;二
是计算K2的观测值时不会利用分子、分母先约分再计算的技巧,导致计算结果出
错,从而推断出错;三是二项分布与超几何分布搞混,或把非二项分布误以为二项
分布,导致求期望值出错,如本题,误以为是二项分布,导致误得E(X)=3×=1.
(2020·百校联盟4月质量监测(全国卷Ⅰ))双十一购物狂欢节,是
指每年11月11日的网络促销日,源于淘宝商城(天猫)2009年11月11日举办的网
络促销活动,已成为中国电子商务行业的年度盛事.某生产商为了了解其生产的
产品在不同电商平台的销售情况,统计了A,B两个电商平台各十个网络销售店铺
的销售数据:
A电商平台 64 71 81 70 79 69 82 73 75 60
B电商平台 60 80 97 77 96 87 76 83 94 96
(1)填写下面关于店铺个数的2×2列联表,并根据列联表判断是否有95%的把
握认为销售量与电商平台有关;
销售量>80 销售量≤80 总计
A电商平台
B电商平台
总计
(2)生产商要从这20个网络销售店铺销售量前五名的店铺中,随机抽取三个店
铺进行销售返利,其中恰好有两个店铺的销售量在95以上的概率是多少?
附:K2=,其中n=a+b+c+d.
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
解:(1)由题中数据可得2×2列联表如下:
销售量>80 销售量≤80 总计
A电商平台 2 8 10
B电商平台 6 4 10总计 8 12 20
所以K2的观测值k=≈3.333<3.841,
所以没有95%的把握认为销售量与电商平台有关.
(2)由已知数据,得销售量前五名的店铺,销售量分别为97,96,96,94,87.
设对应的店铺分别为a ,a ,a ,b ,b ,
1 2 3 1 2
从中选取三个店铺共有10种情况,如下:
(a ,a ,a ),(a ,a ,b ),(a ,a ,b ),(a ,a ,b ),(a ,a ,b ),(a ,b ,b ),(a ,a ,
1 2 3 1 2 1 1 2 2 1 3 1 1 3 2 1 1 2 2 3
b ),(a ,a ,b ),(a ,b ,b ),(a ,b ,b ).
1 2 3 2 2 1 2 3 1 2
其中恰好有两个店铺的销售量在95以上的情况有6种:
(a ,a ,b ),(a ,a ,b ),(a ,a ,b ),(a ,a ,b ),(a ,a ,b ),(a ,a ,b ).
1 2 1 1 2 2 1 3 1 1 3 2 2 3 1 2 3 2
所以其中恰好有两个店铺的销售量在95以上的概率P==0.6.
图表与线性回归分析相交汇
某商店为迎接端午节,推出花生粽与肉粽两款粽子.为调查这两款粽子
的受欢迎程度,店员连续10天记录了这两款粽子的销售量,用1,2,…,10分别表
示第1,2,…,10天,记录结果得到频数分布表如图所示(其中销售量单位:个).
(1)根据表中数据完成所示的茎叶图;
(2)根据统计学知识,请判断哪款粽子更受欢迎;
(3)求肉粽销售量y关于序号t的线性回归方程,并预估第15天肉粽的销售量.
(回归方程的系数精确到0.01)
参数数据:∑ (t-t)(y-y)=156.
i i参考公式:回归方程y=a+bt中斜率和截距的最小二乘估计分别为b=,a=y
-bt.
【解】 (1)根据所给数据完成茎叶图如图所示.
(2)方法一:由(1)中茎叶图可知,肉粽的销售量均值比花生粽高,两款粽子的销
售量波动情况相当,所以可以认为肉粽更受欢迎.
方法二:由题意得花生粽的销售量的均值y =95+×(8-2+3-2+11-9-8
1
-11-4+4)=94,
肉粽的销售量的均值y =100+×(-12-3-2-5+1-2+3+6+2+12)=
2
100.
因为94<100,所以y 0,g(p)在上单调递增;
当p∈时,g′(p)<0,g(p)在上单调递减.
所以g(p)的最大值为g=.
所以该次评审费用期望的最大值为3 000×(900+1 800×)=3 500 000(元).
对应p=.
与函数方程不等式有关的综合问题的解法
(1)与函数有关的问题,结合概率、方差、均值的公式列出函数表达式,再利用
函数的性质(单调性、最值等)求解.
(2)与方程不等式有关的问题,结合均值、方差公式列出方程或不等式,解方程或不等式即可.
某情报站有A,B,C,D四种互不相同的密码,每周都是从上周未
使用的三种密码中等可能地随机选用一种.设第一周使用A种密码,则第7周也
使用A种密码的概率为________.(用最简分数表示)
解析:用P 表示第k周用A种密码的概率,则第k周未用A种密码的概率为1
k
-P ,
k
所以P =(1-P ),k∈N*,
k+1 k
所以P -=-.
k+1
由P =1知,数列是首项为,公比为-的等比数列,所以P -=,
1 k
所以P =+,P =+=.
k 7
答案:
[A级 基础练]
1.(2020·六校联盟第二次联考)某市居民用水拟实行阶梯水价,每人月用水量
中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方
米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得
到如下频率分布直方图:
(1)如果w为整数,那么根据此次调查,为使80%以上的居民在该月的用水价
格为4元/立方米,w至少定为多少?
(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市
居民该月的人均水费.
解:(1)由用水量的频率分布直方图得,该市居民该月用水量在区间[0.5,1],
(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15,
所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居
民占45%.
依题意,w至少定为3.(2)由用水量的频率分布直方图及题意,得该市居民该月水费(单位:元)的数据
分组与频率分布为
(10, (12, (17, (22,
分组 [2,4] (4,6] (6,8] (8,10]
12] 17] 22] 27]
频率 0.1 0.15 0.2 0.25 0.15 0.05 0.05 0.05
所以估计该市居民该月的人均水费为
4×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+
27×0.05=10.5(元).
2.(2020·沈阳市教学质量监测(一))“学习强国”学习平台是由中宣部主管,
以习近平新时代中国特色社会主义思想和党的十九大精神为主要内容,立足全体
党员、面向全社会的优质平台.某单位共有党员200人(男女各100人),从2019年
1月1日起在“学习强国”学习平台学习.现统计他们的学习积分,得到如下男党
员的频数分布表和女党员的频率分布直方图.
男党员的频数分布表
积分/千分 [2,4) [4,6) [6,8) [8,10) [10,12]
人数 15 25 30 20 10
女党员的频率分布直方图
(1)已知女党员中积分不低于6千分的有72人,求图中a与b的值;
(2)估算男党员学习积分的平均数(同一组中的数据用该组区间的中点值作代
表)和女党员学习积分的中位数(精确到0.1千分);
(3)若将学习积分不低于8千分的党员视为学习带头人,完成下面2×2列联表
并判断能否有95%的把握认为该单位的学习带头人与性别有关?
男党员 女党员 总计
带头人
非带头人
总计 100 100 200相关公式及数据:K2=.
P(K2≥k) 0.100 0.050 0.010
k 2.706 3.841 6.635
解:(1)因为0.28=(0.075+a)×2,所以a=0.065.
因为0.72=(0.15+0.12+b)×2,所以b=0.09.
(2)男党员学习积分的平均数为
3×+5×+7×+9×+11×=6.7(千分).
因为(0.075+0.065)×2=0.28,0.5-0.28=0.22.
所以女党员学习积分的中位数为6+2×≈7.5(千分).
(3)2×2列联表为
男党员 女党员 总计
带头人 30 42 72
非带头人 70 58 128
总计 100 100 200
K2的观测值k==3.125<3.841,
所以没有95%的把握认为该单位的学习带头人与性别有关.
3.(2020·四省八校第二次质量检测)某烘焙店加工一个成本为60元的蛋糕,然
后以每个120元的价格出售,如果当天卖不完,剩下的这种蛋糕作厨余垃圾处理.
(1)若烘焙店一天加工16个这种蛋糕,求当天的利润y(单位:元)关于当天需求
量n(单位:个,n∈N)的函数解析式;
(2)烘焙店记录了100天这种蛋糕的日需求量(单位:个),整理得下表:
日需求量n 14 15 16 17 18 19 20
频数 10 20 16 16 15 13 10
以这100天记录的日需求量的频率作为日需求量发生的概率.
①若烘焙店一天加工16个这种蛋糕,X表示日利润(单位:元),求X的分布列、
数学期望及方差;
②若烘焙店一天加工16个或17个这种蛋糕,仅从获得利润大的角度考虑,你
认为应加工16个还是17个?请说明理由.
解:(1)y=
(2)①由题意可得,X的所有可能取值为720,840,960,对应的概率分别为0.1,
0.2,0.7,
所以X的分布列为X 720 840 960
P 0.1 0.2 0.7
E(X)=720×0.1+840×0.2+960×0.7=912(元);
D(X)=(720-912)2×0.1+(840-912)2×0.2+(960-912)2×0.7=6 336.
②当加工17个这种蛋糕时,Y表示日利润(单位:元),则Y的分布列为
Y 660 780 900 1 020
P 0.1 0.2 0.16 0.54
则 E(Y)=660×0.1+780×0.2+900×0.16+1 020×0.54=916.8(元),
916.8>912.
从数学期望来看,一天加工17个这种蛋糕的日利润高于一天加工16个这种
蛋糕的日利润,所以应加工17个.
4.下面给出了根据我国2014年~2020年水果人均占有量y(单位:kg)和年份
代码x绘制的散点图和线性回归方程的残差图(2014年~2020年的年份代码x分
别为1~7).
(1)根据散点图分析y与x之间的相关关系;
(2)根据散点图相应数据计算得∑y=1 074,∑xy=4 517,求y关于x的线性回
i i i
归方程;(精确到0.01)
(3)根据线性回归方程的残差图,分析线性回归方程的拟合效果.
附:回归方程y=a+bx中斜率和截距的最小二乘估计公式分别为:
b=,a=y-bx.
解:(1)根据散点图可知y与x呈正线性相关关系.
(2)由所给数据计算得
x=(1+2+…+7)=4,
∑ (x-x)2=28,
i
∑ (x-x)(y-y)=∑xy-x∑y=4 517-4×1 074=221,
i i i i i
b==≈7.89,a=y-bx=-7.89×4≈121.87,
所求线性回归方程为y=7.89x+121.87.
(3)由题中给出的残差图知历年数据的残差均在-2到2之间,说明线性回归
方程的拟合效果较好.
[B级 综合练]
5.(2020·郑州市第一次质量预测)水污染现状与工业废水排放密切相关,某工
厂深入贯彻科学发展观,努力提高污水收集处理水平,其污水处理程序如下:原始
污水必先经过A系统处理,处理后的污水(A级水)达到环保标准(简称达标)的概率
为p(0