文档内容
§10.7 概率与统计的综合问题
题型一 频率分布直方图与分布列的综合问题
例1 (2023·上饶模拟)为了解某高校学生每天的运动时间,随机抽取了100名学生进行调查.
下面是根据调查结果绘制的学生每天平均运动时间(单位:分钟)的频率分布直方图,将每天
平均运动时间不低于40分钟的学生称为“运动族”.
(1)用样本估计总体,已知某学生每天平均运动时间不低于20分钟,求该学生是“运动族”
的概率;
(2)从样本里的“运动族”学生中随机选取两位同学,用随机变量X表示每天平均运动时间
在40~50分钟之间的学生数,求X的分布列及期望.
解 (1)由频率分布直方图可知,
10×(0.01+0.018+0.022+0.025+0.020+a)=1,
解得a=0.005.
设“该学生每天平均运动时间不低于20分钟”为事件A,“该学生是‘运动族’”为事件
B,
则P(A)=0.72,P(AB)=0.25,
所以在该学生每天平均运动时间不低于20分钟的条件下是“运动族”的概率为
P(B|A)===.
(2)由题意可知,样本中共有“运动族”学生25人,运动时间在40~50分钟之间的学生有
20人,
所以X=0,1,2.
P(X=0)==,
P(X=1)==,
P(X=2)==,
X的分布列为
X 0 1 2
PE(X)=0×+1×+2×=.
思维升华 高考常将频率分布直方图与分布列等交汇在一起进行考查,解题时要正确理解频
率分布直方图,能利用频率分布直方图正确计算出各组数据.概率问题以计算为主,往往和
实际问题相结合,要注意理解实际问题的意义,使之和相应的概率计算对应起来.
跟踪训练1 (2023·呼和浩特模拟)某高校共有15 000人,其中男生10 500人,女生4 500人,
为调查该校学生每周平均体育运动时间的情况,采用按比例分配的分层随机抽样的方法,收
集300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少个女生样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),
其中样本数据分组的区间为[0,2),[2,4),[4,6),[6,8),[8,10),[10,12].请估计该校学生每周
平均体育运动时间不低于4个小时的概率;
(3)视样本数据的频率为概率,现从全校随机抽取4名学生,记X为这4名学生中运动时间不
低于4个小时的人数,求X的分布列以及数学期望.
解 (1)因为该校共有15 000人,其中女生有4 500人,
所以女生占总人数的比例为.
又因为采用按比例分配的分层随机抽样的方法收集300位学生的样本数据,
所以女生样本数据应收集×300=90(个).
(2)由频率分布直方图可知,
学生每周平均体育运动时间不低于 4个小时的频率为(0.15+0.125+0.075+0.025)×2=
0.75,
故估计该校学生每周平均体育运动时间不低于4个小时的概率为0.75.
(3)由(2)可知,运动时间不低于4个小时的概率为,则X~B,
所以P(X=0)=C×4×0=,
P(X=1)=C×3×1=,
P(X=2)=C×2×2=,
P(X=3)=C×1×3=,
P(X=4)=C×0×4=,则X的分布列为
X 0 1 2 3 4
P
E(X)=4×=3.
题型二 回归模型与分布列的综合问题
例2 (2023·韶关模拟)研究表明,如果温差大,且人们不注意保暖,可能会导致自身受到风
寒刺激,增加感冒患病概率,特别是对于儿童以及年老体弱的人群,要多加防范.某中学数
学建模社团成员研究了昼夜温差大小与某小学学生新增感冒就诊人数之间的关系,他们记录
了某六天的温差,并到校医室查阅了这六天中每天学生新增感冒就诊的人数,得到数据如下:
日期 第一天 第二天 第三天 第四天 第五天 第六天
昼夜温差x(℃) 4 7 8 9 14 12
新增感冒就诊
y y y y y y
1 2 3 4 5 6
人数y(位)
(1)已知第一天新增感冒就诊的学生中有4位男生,从第一天新增感冒就诊的学生中随机抽
取2位,其中男生人数记为X,若抽取的2人中至少有一位女生的概率为,求随机变量X的
分布列和数学期望;
(2)已知两个变量x与y之间的样本相关系数r=,请用最小二乘法求出y关于x的经验回归
方程y=bx+a,并据此估计昼夜温差为15 ℃时,该校新增感冒就诊的学生人数.
参考数据:=3 463,(y-)2=289.
i
参考公式: r=,b=,a=-b.
解 (1)因为1- =,所以=,
所以y(y-1)=4×3×6=9×8,解得y=9,
1 1 1
即第一天新增感冒就诊的学生有9位,其中男生4位,女生5位,
则随机变量X的所有可能取值为0,1,2,且X服从超几何分布,其中N=9,M=4,n=2,
P(X=0)==,P(X=1)==,
P(X=2)==,
X的分布列为
X 0 1 2
P
X的数学期望E(X)=0×+1×+2×=.(2)因为 =54,所以=9,所以(x-)2=64,
i i
由于r===,
所以(x-)(y-)=8×16,
i i
所以b===2,
因为=3 463,(y-)2=-2+62=-62=289,解得=23,
i i
所以a=-b=23-2×9=5,所以y=2x+5,
当x=15时,y=30+5=35,
据此估计昼夜温差为15°C时,该校新增感冒就诊的学生人数为35.
思维升华 高考常将回归模型与分布列等交汇在一起进行考查,求经验回归方程时要充分利
用已知数据,合理利用公式减少运算.求解概率问题时要注意概率模型的应用,明确所求问
题所属的事件类型是关键.
跟踪训练2 (2023·武汉模拟)某企业计划新购买100台设备,并将购买的设备分配给100名年
龄不同(视为技术水平不同)的技工加工一批模具,因技术水平不同而加工出的产品数量不同,
故产生的经济效益也不同.若用变量x表示不同技工的年龄,变量y为相应的效益值(元),
根据以往统计经验,他们的工作效益满足最小二乘法,且 y关于x的经验回归方程为y=1.2x
+40.6.
(1)试预测一名年龄为52岁的技工使用该设备所产生的经济效益;
(2)试根据样本相关系数r的值判断使用该批设备的技工人员所产生的效益与技工年龄的相关
程度(若0.75≤|r|≤1,则认为y与x的线性相关程度很强;若|r|<0.75,则认为y与x的线性
相关程度不强);
(3)若这批设备有 A,B两道独立运行的生产工序,且两道工序出现故障的概率依次是
0.02,0.03.若两道工序都没有出现故障,则生产成本不增加;若 A工序出现故障,则生产成
本增加2万元;若B工序出现故障,则生产成本增加3万元;若A,B两道工序都出现故障,
则生产成本增加5万元.求这批设备增加的生产成本的期望.
参考数据:(x-)2=121,(y-)2=225;
i i
参考公式:经验回归直线y=a+bx的斜率和截距的最小二乘估计分别为b=,a=-b,r=.
解 (1)当x=52时,y=1.2×52+40.6=103.
所以预测一名年龄为52岁的技工使用该设备所产生的经济效益为103元.
(2)由题意得b==1.2,
所以=1.2,
所以(x-)(y-)=121×1.2,
i i
所以r=
===0.88.
因为0.75<0.88<1,所以y与x的线性相关程度很强.所以使用该批设备的技工人员所产生的效益与技工年龄的相关程度很强.
(3)设增加的生产成本为ξ(万元),
则ξ的可能取值为0,2,3,5.
P(ξ=0)=(1-0.02)×(1-0.03)=0.950 6,
P(ξ=2)=0.02×(1-0.03)=0.019 4,
P(ξ=3)=(1-0.02)×0.03=0.029 4,
P(ξ=5)=0.02×0.03=0.000 6.
所以E(ξ)=0×0.950 6+2×0.019 4+3×0.029 4+5×0.000 6=0.13,
所以这批设备增加的生产成本的期望为0.13万元.
题型三 独立性检验与分布列的综合问题
例3 (2023·聊城模拟)某中学在高一学生选科时,要求每位学生先从物理和历史这两个科目
中选定一个科目,再从思想政治、地理、化学、生物这四个科目中任选两个科目.选科工作
完成后,为了解该校高一学生的选科情况,随机抽取了部分学生作为样本,对他们的选科情
况统计后得到下表:
思想政治 地理 化学 生物
物理类 100 120 200 180
历史类 120 140 60 80
(1)利用上述样本数据填写下列2×2列联表,并依据小概率值α=0.001的独立性检验,分析
以上两类学生对生物学科的选法是否存在差异;
生物学科选法
科类 合计
选 不选
物理类
历史类
合计
(2)假设该校高一所有学生中有的学生选择了物理类,其余的学生都选择了历史类,且在物
理类的学生中其余两科选择的是地理和化学的概率为,而在历史类的学生中其余两科选择的
是地理和化学的概率为.若从该校高一所有学生中随机抽取100名学生,用X表示这100名
学生中同时选择了地理和化学的人数,求随机变量X的均值E(X).
附:χ2=.
α 0.1 0.05 0.01 0.005 0.001
x 2.706 3.841 6.635 7.879 10.828
α
解 (1)由题意可得选择物理类的总人数为300,其中选择生物学科的人数为180,不选择生
物学科的人数为120;选择历史类的总人数为200,其中选择生物学科的人数为80,不选择生物学科的人数为120,据此完善2×2列联表如下:
生物学科选法
科类 合计
选 不选
物理类 180 120 300
历史类 80 120 200
合计 260 240 500
零假设为H:两类学生对生物学科的选法没有差异.
0
由表中数据可得χ2==≈19.231>10.828=x ,
0.001
根据小概率值α=0.001的独立性检验可知零假设不成立,即可以认为两类学生对生物学科
的选法存在差异,且此推断犯错误的概率不大于0.001.
(2)记“学生选择物理类”为事件M,“学生选择历史类”为事件N,“同时选择地理和化
学”为事件C,
则P(M)=,P(N)=1-P(M)=,
P(C|M)=,P(C|N)=,
故P(C)=P(M)P(C|M)+P(N)P(C|N)=×+×=,
由题意可得X~B,
则随机变量X的均值E(X)=100×=16.
思维升华 高考常将独立性检验与分布列等交汇在一起进行考查,解决独立性检验问题,要
注意过好“三关”:假设关、公式关、对比关.解决概率问题要准确地把握题中所涉及的事
件,明确所求问题所属的事件类型.
跟踪训练3 (2024·沈阳模拟)随着科技的进步和人民生活水平的提高,电脑已经走进了千家
万户,成为人们生活、学习、娱乐的常见物品,便携式电脑(俗称“笔记本”)也非常流行.
某公司为了研究“台式机”与“笔记本”的受欢迎程度是否与性别有关,在街头随机抽取了
50人做调查研究,调查数据如下表所示.
男性 女性 合计
喜欢“台式机” 20 5 25
喜欢“笔记本” 10 15 25
合计 30 20 50
(1)依据小概率值α=0.01的独立性检验,分析喜欢哪种机型与性别是否有关?
(2)该公司针对男性客户做了调查,某季度男性客户中有青年324人,中年216人,老年108
人,用按比例分配的分层随机抽样的方法选出12人,又随机抽出3人进行答谢,这3人中
的青年人数设为随机变量X,求X的分布列与数学期望.
附:χ2=,其中n=a+b+c+d.α 0.10 0.05 0.01 0.005
x 2.706 3.841 6.635 7.879
α
解 (1)零假设为H:喜欢哪种机型与性别无关.
0
由表中数据可得χ2=≈8.333>6.635=x ,根据小概率值α=0.01的独立性检验可知零假设不
0.01
成立,即可以认为喜欢哪种机型与性别有关,且此推断犯错误的概率不大于0.01.
(2)由题意,324∶216∶108=3∶2∶1,
所以12人中有青年人6人,中年人4人,老年人2人,则X的所有可能取值为0,1,2,3,
P(X=0)==,P(X=1)==,
P(X=2)==,P(X=3)==,
则分布列为
X 0 1 2 3
P
E(X)=0×+1×+2×+3×=.
课时精练
1.(2023·泰州模拟)第二十二届卡塔尔世界杯足球赛决赛中,阿根廷队通过扣人心弦的点球
大战战胜了法国队.某校为了丰富学生课余生活,组建了足球社团.足球社团为了解学生喜
欢足球是否与性别有关,随机抽取了男、女学生各100名进行调查,部分数据如表所示:
喜欢足球 不喜欢足球 合计
男生 40
女生 30
合计
(1)根据所给数据完成上表,并依据小概率值 α=0.001的独立性检验,分析该校学生喜欢足
球与性别是否有关?
(2)社团指导老师从喜欢足球的学生中抽取了2名男生和1名女生示范点球射门.已知男生进
球的概率为,女生进球的概率为,每人射门一次,假设各人射门相互独立,求3人进球总次
数的分布列和数学期望.
附:χ2=.
α 0.050 0.010 0.001
x 3.841 6.635 10.828
α解 (1)2×2列联表如下:
喜欢足球 不喜欢足球 合计
男生 60 40 100
女生 30 70 100
合计 90 110 200
零假设为H:该校学生喜欢足球与性别无关.
0
由表中数据得χ2=≈18.182>10.828=x ,
0.001
根据小概率值α=0.001的独立性检验可知零假设不成立,即该校学生喜欢足球与性别有关,
且此推断犯错误的概率不大于0.001.
(2)3人进球总次数ξ的所有可能取值为0,1,2,3,
P(ξ=0)=2×=,
P(ξ=1)=C×××+×2=,
P(ξ=2)=C×××+2×=,
P(ξ=3)=2×=,
∴ξ的分布列为
ξ 0 1 2 3
P
∴ξ的数学期望E(ξ)=0×+1×+2×+3×=.
2.某地区区域发展指数评价指标体系基于五大发展理念构建,包括创新发展、协调发展、
绿色发展、开放发展和共享发展5个一级指标.该地区区域发展指数测算方法以2015年作
为基期并设指数值为100,通过时序变化,观察创新发展、协调发展、绿色发展、开放发展
和共享发展5个分领域指数值的变动趋势.分别计算创新发展、协调发展、绿色发展、开放
发展和共享发展5个分指数,然后合成为该地区区域发展总指数,如下图所示.
若x(2015年记为x=1,2016年记为x=2,依此类推)与发展总指数y存在线性关系.
(1)求x与发展总指数y的经验回归方程;(2)若规定发展总指数大于115的年份为和谐发展年,和谐发展年中发展总指数低于130的视
为良好,记1分,发展总指数大于130的视为优秀,记2分,从和谐发展年中任取三年,用
X表示记分之和,求X的分布列和数学期望.
参考公式和数据:经验回归方程y=bx+a,其中a=-b,b=,(x-)(y-)=228.9,=
i i
119.05.
解 (1)由已知==4.5,
所以(x-)2=(-3.5)2+(-2.5)2+(-1.5)2+(-0.5)2+0.52+1.52+2.52+3.52=42,
i
又(x-)(y-)=228.9,
i i
所以b==5.45,
因为=119.05,所以a=-b=94.525,
所以y=5.45x+94.525.
(2)由题可知,和谐发展年有5个,其中计分为1分的年份有3个,计分为2分的年份有2个,
X的所有可能取值为3,4,5,
所以P(X=3)==,P(X=4)==,
P(X=5)==,
所以X的分布列为
X 3 4 5
P
E(X)=3×+4×+5×=.
3.(2023·南京模拟)渔船海上外出作业受天气限制,尤其浪高对渔船安全影响最大,二月份
是某海域风浪最平静的月份,浪高一般不超过3 m.某研究小组从前些年二月份各天的浪高
数据中,随机抽取50天数据作为样本,制成频率分布直方图(如图).
根据海浪高度将海浪划分为如下等级:
浪高(cm) (0,50) [50,100) [100,200) [200,300]
海浪等级 微浪 小浪 中浪 大浪
海事管理部门规定:海浪等级在“大浪”及以上禁止渔船出海作业.
(1)某渔船出海作业除受浪高限制外,还受其他因素影响,根据以往经验可知,“微浪”情况下出海作业的概率为0.9,“小浪”情况下出海作业的概率为0.8,“中浪”情况下出海作
业的概率为0.6,请根据上面频率分布直方图,估计二月份的某天各种海浪等级出现的概率
并求该渔船在这天出海作业的概率;
(2)气象预报预计未来三天内会持续“中浪”或“大浪”,根据以往经验可知,若某天是
“大浪”,则第二天是“大浪”的概率为,“中浪”的概率为;若某天是“中浪”,则第二
天是“大浪”的概率为,“中浪”的概率为.现已知某天为“中浪”,记该天的后三天出现
“大浪”的天数为X,求X的分布列和数学期望.
解 (1)记这天浪级是“微浪”为事件A ,浪级是“小浪”为事件A ,浪级是“中浪”为事
1 2
件A,浪级是“大浪”为事件A.该渔船当天出海作业为事件B,
3 4
则由题意可知,P(A)=50×0.004=0.2,
1
P(A)=50×0.006=0.3,
2
P(A)=50×0.004+50×0.002=0.3,
3
P(A)=50×0.002+50×0.002=0.2,
4
∴P(B)=P(BA)+P(BA)+P(BA)
1 2 3
=P(B|A)P(A)+P(B|A)P(A)+P(B|A)P(A)
1 1 2 2 3 3
=0.9×0.2+0.8×0.3+0.6×0.3=0.18+0.24+0.18=0.6.
(2)依题意可知,X的所有可能取值为0,1,2,3,
∴P(X=0)=3=,
P(X=1)=××+××+××=,
P(X=2)=××+××+××=,
P(X=3)=××=,
则X的分布列为
X 0 1 2 3
P
数学期望E(X)=0×+1×+2×+3×=.
4.(2024·葫芦岛模拟)某地相继爆发了甲型H1N1流感病毒(甲流)和诺如病毒感染潮,为了了
解感染病毒类型与年龄的关系,某市疾控中心随机抽取了部分感染者进行调查.据统计,甲
流患者数是诺如病毒感染者人数的2倍,在诺如病毒感染者中60岁以上患者占,在甲流患
者中60岁以上的人数是其他人数的一半.
(1)若根据小概率值α=0.005的独立性检验,能认为“感染病毒的类型与年龄有关”,则抽
取的诺如病毒感染者至少有多少人?(2)研究发现,针对以上两种病毒比较有效的药物是奥司他韦和抗病毒口服液,并且发现奥
司他韦治疗以上两种病毒有效的概率是抗病毒口服液的2倍.现对两种药物进行临床试验,
对抗病毒口服液共进行两轮试验,每轮试验中若连续2次有效或试验3次时,本轮试验结束;
对奥司他韦先进行3次试验,若至少2次有效,则试验结束,否则再进行3次试验后方可结
束,假定两种药物每次试验是否有效均相互独立,且两种药物的每次试验费用相同.请结合
以上针对两种药物的临床试验方案,估计哪种药物的试验费用较低?
附:χ2=(其中n=a+b+c+d).
α 0.10 0.05 0.010 0.005 0.001
x 2.706 3.841 6.635 7.879 10.828
α
解 (1)设感染诺如病毒的患者为x人,则感染甲流的患者为2x人,
感染两种病毒的60岁以上的患者人数均为x,
由题意必有χ2≥7.879,
即≥7.879,所以x≥26.26,又因为x为整数,故抽取的诺如病毒感染者至少有27人.
(2)设抗病毒口服液治疗有效的概率为p,每次试验花费为m,则奥司他韦治疗有效的概率为
2p<1,故0