文档内容
高考专题突破六 高考中的概率与统计问题
题型一 随机事件的概率
例1 某社区举办“环保我参与”有奖问答比赛活动,某场比赛中,甲、乙、丙三个家庭同
时回答一道有关环保知识的问题.已知甲家庭回答正确这道题的概率是,甲、丙两个家庭都
回答错误的概率是,乙、丙两个家庭都回答正确的概率是.若各家庭回答是否正确互不影响.
(1)求乙、丙两个家庭各自回答正确这道题的概率;
(2)求甲、乙、丙三个家庭中不少于2个家庭回答正确这道题的概率.
解 (1)记“甲家庭回答正确这道题”“乙家庭回答正确这道题”“丙家庭回答正确这道
题”分别为事件A,B,C,则P(A)=,且有
即
所以P(B)=,P(C)=.
(2)有0个家庭回答正确的概率为
P=P()=P()·P()·P()=××=,
0
有1个家庭回答正确的概率为
P=P(A∪B∪C)=P(A)+P(B)+P(C)
1
=P(A)·P()·P()+P()·P(B)·P()+P()·P()·P(C)
=××+××+××=,
所以不少于2个家庭回答正确这道题的概率为
P=1-P-P=1--=.
0 1
思维升华 随机事件的概率求解策略
(1)对复杂的随机事件表示成互斥事件的和,独立事件的积;
(2)利用概率的性质进行计算.
跟踪训练1 (1)(2020·上海市七宝中学模拟)通过手机验证码登录哈啰单车App,验证码由四
位数字随机组成,如某人收到的验证码(a ,a ,a ,a)满足a10.828,
故有99.9%的把握认为村民的性别与参与管理的意愿具有相关性.
思维升华 统计案例的综合应用常涉及相互独立事件同时发生的概率、独立重复实验、超几
何分布、二项分布、独立性检验、线性回归等知识,考查学生的阅读理解能力、数据处理能
力、运算求解能力及应用意识.
跟踪训练4 (2020·济宁模拟)下面给出了根据我国2012年~2018年水果人均占有量y (单位:
kg)和年份代码x绘制的散点图和线性回归方程的残差图(2012年~2018年的年份代码x分别
为1~7).(1)根据散点图分析y与x之间的相关关系;
(2)根据散点图相应数据计算得 =1 074,y=4 517,求y关于x的线性回归方程;
i i i
(3)根据线性回归方程的残差图,分析线性回归方程的拟合效果.(只写出结论)
附:线性回归方程y=a+bx中斜率和截距的最小二乘估计公式分别为
b= = ,a=-b.
解 (1)由散点图可以看出,点大致分布在某一直线的附近,且当 x由小变大时,y也由小变
大,从而y与x之间是正相关关系.
(2)由题中数据可得=(1+2+3+4+5+6+7)=4,
=×1 074=,
从而b= ==,
a=-b=-×4=,
从而所求y关于x的线性回归方程为y=x+.
(3)由残差图可以看出,残差对应的点均匀地落在水平带状区域内,且宽度较窄,说明拟合
效果较好.
课时精练
1.(2020·全国Ⅰ)某厂接受了一项加工业务,加工出来的产品(单位:件)按标准分为A,B,
C,D四个等级.加工业务约定:对于A级品、B级品、C级品,厂家每件分别收取加工费
90元,50元,20元;对于D级品,厂家每件要赔偿原料损失费50元.该厂有甲、乙两个
分厂可承接加工业务.甲分厂加工成本费为25元/件,乙分厂加工成本费为20元/件.厂家
为决定由哪个分厂承接加工业务,在两个分厂各试加工了100件这种产品,并统计了这些产
品的等级,整理如下:
甲分厂产品等级的频数分布表
等级 A B C D
频数 40 20 20 20
乙分厂产品等级的频数分布表等级 A B C D
频数 28 17 34 21
(1)分别估计甲、乙两分厂加工出来的一件产品为A级品的概率;
(2)分别求甲、乙两分厂加工出来的100件产品的平均利润,以平均利润为依据,厂家应选
哪个分厂承接加工业务?
解 (1)由表可知,甲分厂加工出来的一件产品为A级品的概率的估计值为=0.4,乙分厂加
工出来的一件产品为A级品的概率的估计值为=0.28.
(2)甲分厂加工100件产品的总利润为
40×(90-25)+20×(50-25)+20×(20-25)-20×(50+25)=1 500(元),
所以甲分厂加工100件产品的平均利润为15元;
乙分厂加工100件产品的总利润为
28×(90-20)+17×(50-20)+34×(20-20)-21×(50+20)=1 000(元),
所以乙分厂加工100件产品的平均利润为10元.
比较甲、乙两分厂加工的产品的平均利润,厂家应选择甲分厂承接加工业务.
2.从某企业生产的某种产品中抽取100件,测量这些产品的质量指标值,由测量结果得到
如图所示的频率分布直方图,质量指标值落在区间[55,65),[65,75),[75,85]内的频率之比为
4∶2∶1.
(1)求这些产品的质量指标值落在区间[75,85]内的频率;
(2)若将频率视为概率,从该企业生产的这种产品中随机抽取3件,记这3件产品中质量指标
值位于[45,75)内的产品件数为X,求X的分布列与均值.
解 (1)设落在区间[75,85]内的频率为x,则落在区间[55,65),[65,75)内的频率分别为4x和
2x,
依题意得(0.004+0.012+0.019+0.030)×10+4x+2x+x=1,
解得x=0.05.
所以质量指标值落在区间[75,85]内的频率为0.05.
(2)从该企业生产的该种产品中随机抽取3件,相当于进行了3次独立重复试验,所以X服从
二项分布X~B(n,p),其中n=3.由(1)得,落在区间[45,75)内的频率为0.3+0.2+0.1=0.6,将频率视为概率得p=0.6.
因为X的所有可能取值为0,1,2,3,
则P(X=0)=C×0.60×0.43=0.064,P(X=1)=C×0.61×0.42=0.288,
P(X=2)=C×0.62×0.41=0.432,P(X=3)=C×0.63×0.40=0.216,
所以X的分布列为
X 0 1 2 3
P 0.064 0.288 0.432 0.216
所以X的均值为E(X)=0×0.064+1×0.288+2×0.432+3×0.216=1.8.
(或直接根据二项分布的均值公式得到E(X)=np=3×0.6=1.8)
3.(2019·全国Ⅲ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾
客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意 不满意
男顾客 40 10
女顾客 30 20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:K2=.
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
解 (1)由调查数据,男顾客中对该商场服务满意的频率为=0.8,
因此男顾客对该商场服务满意的概率的估计值为0.8.
女顾客中对该商场服务满意的频率为=0.6,
因此女顾客对该商场服务满意的概率的估计值为0.6.
(2)K2的观测值k=≈4.762.
由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
4.(2021·四川省成都市第七中学模拟)某厂生产不同规格的一种产品,根据检测标准,其合
格产品的质量y(g)与尺寸x(mm)之间近似满足关系式y=c·xb(b,c为大于0的常数).按照某
指标测定,当产品质量与尺寸的比在区间(0.302,0.388)内时为优等品.现随机抽取6件合格
产品,测得数据如下:
尺寸x(mm) 38 48 58 68 78 88
质量y(g) 16.8 18.8 20.7 22.4 24 25.5
质量与尺寸的比 0.442 0.392 0.357 0.329 0.308 0.290(1)现从抽取的6件合格产品中再任选2件,求选中的2件均为优等品的概率;
(2)根据测得的数据作了初步处理,得相关统计量的值如下表:
(ln x·ln y) (ln x) (ln y) (ln x)2
i i i i i
75.3 24.6 18.3 101.4
根据所给统计量,求y关于x的非线性回归方程.
附:对于样本(v,u)(i=1,2,…,6),其回归直线u=b·v+a的斜率和截距的最小二乘估计
i i
公式分别为:
b= = ,a=-b.
解 (1)由已知,优等品的质量与尺寸的比∈(0.302,0.388),
则随机抽取的6件合格产品中,有3件为优等品,记为a,b,c,
有3件为非优等品,记为d,e,f,
现从抽取的6件合格产品中再任选2件,所有结果为(a,b),(a,c),(a,d),(a,e)(a,f),
(b,c),(b,d),(b,e),(b,f),(c,d),(c,e),(c,f),(d,e),(d,f),(e,f),
选中的两件均为优等品的所有结果为(a,b),(a,c),(b,c),
所以所求概率为=.
(2)对y=c·xb两边取自然对数得ln y=ln c+bln x,
令v=ln x,u=ln y,则u=b·v+a,且a=ln c,
i i i i
由所给统计量及最小二乘估计公式有
b====,
a=-b==1,
由a=ln c得c=e,
所以y关于x的非线性回归方程为y=ex0.5.
5.(2021·南阳模拟)2020年初,新型冠状病毒肆虐,全民开启防疫防控.冠状肺炎的感染主
要是人与人之间进行传播,可以通过飞沫以及粪便进行传染,冠状肺炎感染人群年龄大多数
是40岁以上的人群.该病毒进入人体后有潜伏期,潜伏期是指病原体侵入人体至最早出现
临床症状的这段时间.潜伏期越长,感染到他人的可能性越高,现对200个病例的潜伏期
(单位:天)进行调查,统计发现潜伏期中位数为5,平均数为7.1,方差为5.06.如果认为超
过8天的潜伏期属于“长潜伏期”,按照年龄统计样本,得到下面的列联表:
长潜伏期 非长潜伏期 总计
40岁以上 30 110 14040岁及40岁以下 20 40 60
总计 50 150 200
(1)是否有95%的把握认为“长潜伏期”与年龄有关?
(2)假设潜伏期Z服从正态分布N(μ,σ2),其中μ近似为样本平均数,σ2近似为样本方差s2.现
在很多省份对入境旅客一律要求隔离14天,请用概率的知识解释其合理性;
(3)以题目中的样本频率估计概率,设1 000个病例中恰有k(k∈N*)个属于“长潜伏期”的概
率是g(k),当k为何值时,g(k)取得最大值?
附:K2=.
P(K2≥k) 0.1 0.05 0.01
0
k 2.706 3.841 6.635
0
若随机变量Z服从正态分布N(μ,σ2),则P(μ-σ≤Z≤μ+σ)≈0.682 7,P(μ-2σ≤Z≤μ+
2σ)≈0.954 5,P(μ-3σ≤Z≤μ+3σ)≈0.997 3,≈2.25.
解 (1)k=≈3.17,
由于3.17<3.841,
故没有95%的把握认为“长潜伏期”与年龄有关.
(2)由题意知潜伏期Z~N(7.1,2.252),
由P(Z≥13.85)≈=0.001 35,
得知潜伏期超过14天的概率很低,因此隔离14天是合理的.
(3)由于200个病例中有50个属于长潜伏期,
若以样本频率估计概率,一个患者属于“长潜伏期”的概率是,
于是g(k)=C·k·1 000-k.
则===·=·.
当01;
当g(251)>…>g(1 000).
故当k=250时,g(k)取得最大值.