文档内容
第33讲 高考题中的解答题四 (概率统计)
微专题(一) 统计与成对数据的统计分析
(一) 用样本估计总体
[典例] 从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如
下频数分布表:
质量指标值分组 [75,85) [85,95) [95,105) [105,115) [115,125)
频数 6 26 38 22 8
(1)根据上表补全如图所示的频率分布直方图;
(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);
(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少
要占全部产品的80%”的规定?
方法技巧
利用样本的数字特征解决优化决策问题的依据
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、
方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
针对训练
为了比较两种复合材料制造的轴承(分别称为类型Ⅰ轴承和类型Ⅱ轴承)的使用寿命,检验了两种类型
轴承各30个,它们的使用寿命(单位:百万圈)如下表:
类型Ⅰ6.2 6.4 8.3 8.6 9.4 9.8 10.3 10.6 11.2 11.4 11.6 11.6 11.7 11.8 11.8
12.2 12.3 12.3 12.5 12.5 12.6 12.7 12.8 13.3 13.3 13.4 13.6 13.8 14.2 14.5
类型Ⅱ
8.4 8.5 8.7 9.2 9.2 9.5 9.7 9.7 9.8 9.8 10.1 10.2 10.3 10.3 10.4
10.6 10.8 10.9 11.2 11.2 11.3 11.5 11.5 11.6 11.8 12.3 12.4 12.7 13.1 13.4
根据上述表中的数据回答下列问题:
(1)对于类型Ⅰ轴承,应该用平均数还是中位数度量其寿命分布的中心?说明理由;
(2)若需要使用寿命尽可能大的轴承,从中位数或平均数的角度判断,应选哪种轴承?说明理由;
(二) 一元线性回归模型及其应用
[典例] 某公司对某产品作市场调查,获得了该产品的定价 x(单位:万元/吨)和一天的销量y(单位:
吨)的一组数据,根据这组数据制作了如下统计表和散点图.
y y
i i i i
0.33 10 3 0.164 100 68 350
表中t=.
(1)根据散点图判断,y=bx+a与y=cx-1+d哪一个更适合作为y关于x的经验回归方程;(给出判断即
可,不必说明理由)
(2)根据(1)的判断结果,建立y关于x的经验回归方程;
(3)若生产1吨该产品的成本为0.25万元,依据(2)的经验回归方程,预计每吨定价多少时,该产品一天
的销售利润最大?最大利润是多少?
附:经验回归方程y=bx+a中,b==,a=-b.
方法技巧
求经验回归方程的步骤针对训练
1.(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木
的总材积量,随机选取了10颗这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得
到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积x 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
i
材积量y 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
i
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.
已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
2.现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月
的物流成本和企业利润的数据(单位:万元)如下表所示:
月份 1 2 3 4 5 6 7 8
物流成本x 83 83.5 80 86.5 89 84.5 79 86.5
利润y 114 116 106 122 132 114 m 132
残差e=y-y 0.2 0.6 1.8 -3 -1 -4.6 -1
i i i
根据最小二乘法公式求得经验回归方程为y=3.2x-151.8.
(1)求m的值,并利用已知的经验回归方程求出8月份对应的残差值e;
8
(2)请先求出线性回归模型y=3.2x-151.8的决定系数 R2(精确到 0.000 1);若根据非线性模型 y=
267.76ln x-1 069.2求得解释变量(物流成本)对于响应变量(利润)决定系数R=0.905 7,请说明以上两种模
型哪种模型拟合效果更好?
(3)通过残差分析,怀疑残差绝对值最大的那组数据有误,经再次核实后发现其真正利润应该为116万
元.请重新根据最小二乘法的思想与公式,求出新的经验回归方程.附1(修正前的参考数据):y=78 880,=56 528,=84,(y-)2=904.
i i i
附2:R2=1-.
附3:b==,a=-b.
(三) 独立性检验
[典例] 2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北
京冬奥会签约了50家赞助企业,为了解这50家赞助企业每天的销售额与每天线上销售时间之间的相关关
系,某平台对这50家赞助企业进行跟踪调查,其中每天线上销售时间不少于 8小时的企业有20家,剩下
的企业中,每天的销售额不足30万元的企业占这剩下的企业数量的,统计后得到如下2×2列联表.
每天销售额
每天线上销售时间 不少于30万 合计
不足30万元
元
不少于8小时 18
不足8小时
合计
(1)完成列联表,并依据小概率值α=0.001的独立性检验,能否认为赞助企业每天的销售额与每天线上
销售时间有关?
(2)按每天线上销售时间进行分层随机抽样,在上述赞助企业中抽取5家企业,再从这5家企业中抽取
2家企业,求抽取的2家企业中至少有1家企业每天线上销售时间不少于8小时的概率.
参考公式及数据:χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
x 2.706 3.841 6.635 7.879 10.828
α
方法技巧独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式χ2=计算.
(3)比较χ2与临界值的大小关系,作统计推断.
针对训练
(2022·昌吉质检)某中学组织一支“邹鹰”志愿者服务队,带领同学们利用周末的时间深入居民小区开
展一些社会公益活动.现从参加了环境保护和社会援助这两项社会公益活动的志愿者中,随机抽取男生80
人,女生120人进行问卷调查(假设每人只参加环境保护和社会援助中的一项),整理数据后得到如下统计
表:
女生 男生 合计
环境保护 80 40 120
社会援助 40 40 80
合计 120 80 200
(1)能否有99%的把握认为学生参加社会公益活动所选取的项目与学生性别有关?
(2)从本校随机抽取的120名参与了问卷调查的女生中用分层随机抽样的方法,从参加环境保护和社会
援助的同学中抽取6人开座谈会,现从这6人(假设所有的人年龄不同)中随机抽取参加环境保护和社会援
助的同学各1人,试求抽取的6人中参加社会援助的年龄最大的学生被选中且参加环境保护的年龄最大的
学生未被选中的概率.
附:χ2=,其中n=a+b+c+d.
P(χ2≥k) 0.025 0.010 0.005 0.001
0
k 5.024 6.635 7.879 10.828
0
1.自中国进入工业化进程以来,个人的文化水平往往影响或在某种程度上决定了个人的薪酬高低.
将个人的文化水平用数字表示,记“没有接受过系统学习或自学的成年人”为最低分25分,“顶级尖端人
才”为最高分95分.为了分析A市居民的受教育程度,从A市居民中随机抽取1 000人的文化水平数据
X,将样本分成小学[25,35),初中[35,45),高中[45,55),专科[55,65),本科[65,75),硕士[75,85),博士
[85,95]七组,整理后得到如图所示的频率分布直方图.(1)求样本数据的众数和中位数(保留一位小数);
(2)同组中的每个数据用该组区间的中点值代替,请估计该市居民的平均文化水平.
2.(2022·晋中调研)在传染病学中,通常把从致病刺激物侵入机体或者对机体发生作用起,到机体出
现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期.一研究团队统计了某地区 1 000名
患者的相关信息,得到如下表格:
潜伏期(单位:天) [0,2] (2,4] (4,6] (6,8] (8,10] (10,12] (12,14]
人数 50 150 200 300 200 60 40
(1)求这1 000名患者的潜伏期的样本平均数值(同一组中的数据用该组区间的中点值作代表,结果四舍
五入为整数);
(2)该传染病的潜伏期受诸多因素的影响,为研究潜伏期与患者年龄的关系,以潜伏期是否超过 8天为
标准进行分层随机抽样,从上述1 000名患者中抽取200人,得到如下列联表,请将列联表补充完整,并
根据列联表判断,能否在犯错误的概率不超过5%的前提下,认为潜伏期与患者年龄有关.
潜伏期≤8天 潜伏期>8天 合计
50岁以上(含50岁) 100
50岁以下 65
合计 200
附:
P(χ2≥k) 0.10 0.05 0.025 0.010 0.005
k 2.706 3.841 5.024 6.635 7.8793.某地面工作站有甲、乙两个专门从事种子培育小组,为了比较他们的培育水平,现随机抽取了这
两个小组在过去一年里其中经过15次各自培育的种子结果如下:(x,y),(x,),(x,y),(,y),(,),(x,
y),(x,y),(x,),(,y),(x,),(,),(x,y),(x,),(,y),(x,y),其中x,分别表示甲组培育种子发芽
与不发芽,y,分别表示乙组培育种子发芽与不发芽.
(1)根据上面这组数据,计算至少有一组种子发芽的条件下,甲、乙两组同时都发芽的概率;
(2)若某组成功培育一种新品种种子,则该组可直接为本次培育实验创造经济效益 5万元,否则就亏损
1万元,试分别计算甲、乙两组种子培育的经济效益的平均数;
(3)若某组成功培育一种新品种种子,单位奖励给该组1千元,否则奖励0元,分别计算甲、乙两组的
奖金的方差,并且根据以上数据比较甲、乙两组的种子培育水平.
4.(2022·南京模拟)佩戴头盔是一项对家庭与社会负责的表现,某市对此不断进行安全教育.下表是
该市某主干路口连续4年监控设备抓拍到的驾驶员不戴头盔的统计数据:
年度 2019 2020 2021 2022
年度序号x 1 2 3 4
不戴头盔人数y 1 250 1 050 1 000 900
(1)请利用所给数据求不戴头盔人数y与年度序号x之间的经验回归方程y=bx+a,并估算该路口2023
年不戴头盔的人数;
(2)交警统计2019~2022年通过该路口的开电瓶车出事故的50人,分析不戴头盔行为与事故是否伤亡
的关系,得到下表,能否有95%的把握认为不戴头盔行为与事故伤亡有关?
不戴头盔 戴头盔
伤亡 7 3
不伤亡 13 275.某团队收集了10组某作物亩化肥施用量和亩产量的数据(x,y),i=1,2,3,…,10,其中x(单位:
i i i
公斤)表示亩化肥施用量,y(单位:百公斤)表示该作物亩产量.并对这些数据作了初步处理,得到了一些
i
统计量的值如下表所示:表中t=ln x,z=ln y,i=1,2,3,…,10.通过对这10组数据分析,发现当亩化
i i i i
肥施用量在合理范围内变化时,可用函数y=cxd模拟该作物亩产量y关于亩化肥施用量x的关系.
z
i i i i
38.5 15 17.5 47
(1)根据表中数据,求y关于x的经验回归方程;
(2)实际生产中,在其他生产条件相同的条件下,出现了亩施肥量为 30 kg时,该作物亩产量仅约为
510 kg的情况,请给出解释;
(3)合理施肥、科学管理,能有效提高该作物的投资效益(投资效益=产出与投入比).经试验统计可知,
该研究团队的投资效益ξ服从正态分布N(4,1),政府对该研究团队的奖励方案如下:若ξ≤3,则不予奖励;
若3<ξ≤6,则奖励10万元;若ξ>6,则奖励30万元.求政府对该研究团队的奖励金额的数学期望.
附:①ln 15≈2.7,ln 30≈3.4;②若随机变量X服从正态分布N(μ,σ2),则P(μ-σ≤X≤μ+σ)≈0.682
7,P(μ-2σ≤X≤μ+2σ)≈0.954 5,P(μ-3σ≤X≤μ+3σ)≈0.997 3.
(二) 概 率
(一) 古典概型的综合问题
[例1] 在二项式n的展开式,前三项的系数成等差数列,把展开式中所有的项重新排成一列,有理项
中恰有两项相邻的概率为( )
A. B. C. D.
[例2] 正2 022边形AA…A 内接于单位圆O,任取其两个不同顶点A,A,则|OAi+OAj|≤1的概
1 2 2 022 i j率是( )
A. B.
C. D.
[关键点拨]
切入点 由|OAi+OAj|≤1,得出cos∠AOA的范围
i j
障碍点 不能根据∠AOA的范围确定∠AOA的最小范围
i j i j j
方法技巧
(1)利用对立事件、加法公式求古典概型的概率.
(2)利用分析法求解古典概型.
①任一随机事件的概率都等于构成它的每一个基本事件概率的和.
②求试验的基本事件数及事件A包含的基本事件数的方法有列举法、列表法和树状图法.
针对训练
1.传说古希腊毕达哥拉斯学派的数学家在沙滩上面画点或用小石子表示数,他们将
1,3,6,10,15,…,,称为三角形数;将1,4,9,16,25,…,n2,称为正方形数.现从200以内的正方形数中任
取2个,则其中至少有1个也是三角形数的概率为( )
A. B.
C. D.
2.某地区拟建立一个艺术博物馆,采取竞标的方式从多家建筑公司中选取一家建筑公司,经过层层
筛选,甲、乙两家建筑公司进入最后的招标.现从建筑设计院聘请专家设计了一个招标方案:两家公司从
6个招标问题中各随机抽取3个问题回答,已知这6个招标问题中,甲公司可正确回答其中的4道题目,而
乙公司能正确回答每道题目的概率均为,甲、乙两家公司对每题的回答都是相互独立的,则甲、乙两家公司共答对2道题目的概率为( )
A. B.
C. D.
(二) 条件概率
[例1] (2022·沈阳一模)某次社会实践活动中,甲、乙两个班的同学共同在一社区进行民意调查.参加
活动的甲、乙两班的人数之比为5∶3,其中甲班中女生占,乙班中女生占.则该社区居民遇到一位进行民
意调查的同学恰好是女生的概率是__________.
[关键点拨]
切入点 用符号表示事件
隐藏点 P(B|A)=,P(B|A)=
1 2
迁移点 全概率公式
[例2] (2022·新高考Ⅰ卷)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯
分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好 良好
病例组 40 60
对照组 10 90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患
有该疾病”,与的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.
①证明:R=·;
②利用该调查数据,给出P(A|B),P(A|)的估计值,并利用①的结果给出R的估计值.
附:χ2=,其中n=a+b+c+d.
P(χ2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
方法技巧
求条件概率的常用方法
定义法 分别求P(A)和P(AB),得P(B|A)=
先求事件A包含的基本事件数n(A),再在事件A发生的条件下求
样本点法
事件B包含的基本事件数,即n(AB),得P(B|A)=
缩小样本空间的方法,就是去掉第一次抽到的情况,只研究剩下
缩样法
的情况,用古典概型求解,它能化繁为简
针对训练
1.(2022·泰安一模)(多选)甲罐中有3个红球、2个黑球,乙罐中有2个红球、2个黑球,先从甲罐中随
机取出一球放入乙罐,以A表示事件“由甲罐取出的球是红球”,再从乙罐中随机取出一球,以B表示事
件“由乙罐取出的球是红球”,则( )
A.P(A)= B.P(B|A)=
C.P(B)= D.P(A|B)=2.根据社会人口学研究发现,一个家庭有X个孩子的概率模型为:
X 1 2 3 0
P α α(1-p) α(1-p)2
其中α>0,0<p<1.每个孩子的性别是男孩还是女孩的概率均为且相互独立,事件A表示一个家庭有i
i
个孩子(i=0,1,2,3),事件B表示一个家庭的男孩比女孩多(例如:一个家庭恰有一个男孩,则该家庭男孩多)
(1)若p=,求α,并根据全概率公式P(B)=(B|A)P(A),求P(B);
i i
(2)为了调控未来人口结构,其中参数p受到各种因素的影响(例如,生育保险的增加,教育、医疗福利
的增加等).若希望P(X=2)增大,如何调控p的值?
(三) 相互独立事件
[典例] 2022年北京冬奥会后,由一名高山滑雪运动员甲组成的专业队,与两名高山滑雪爱好者乙、
丙组成的业余队进行友谊赛.约定赛制如下:业余队中的两名队员轮流与甲进行比赛,若甲连续赢两场则
专业队获胜;若甲连续输两场则业余队获胜;若比赛三场还没有决出胜负,则视为平局,比赛结束.已知
各场比赛相互独立,每场比赛都分出胜负,且甲与乙比赛,乙赢的概率为;甲与丙比赛,丙赢的概率为
p,其中<p<.
(1)若第一场比赛,业余队可以安排乙与甲进行比赛,也可以安排丙与甲进行比赛.请分别计算两种安
排下业余队获胜的概率;若以获胜概率大为最优决策,问:业余队第一场应该安排乙还是丙与甲进行比赛?
(2)为了激励专业队和业余队,赛事组织规定:比赛结束时,胜队获奖金 3万元,负队获奖金1.5万元;
若平局,两队各获奖金1.8万元.在比赛前,已知业余队采用了(1)中的最优决策与甲进行比赛,设赛事组
织预备支付的奖金金额共计X万元,求X的数学期望E(X)的取值范围.方法技巧
求相互独立事件同时发生的概率的方法
(1)相互独立事件同时发生的概率等于它们各自发生的概率之积.
(2)正面计算较复杂或难以入手时,可从其对立事件入手计算.
针对训练
1.(2021·新高考Ⅰ卷)有6个相同的球,分别标有数字1,2,3,4,5,6,从中有放回的随机取两次,每次取
1个球.甲表示事件“第一次取出的球的数字是1”,乙表示事件“第二次取出的球的数字是2”,丙表示
事件“两次取出的球的数字之和是8”,丁表示事件“两次取出的球的数字之和是7”,则( )
A.甲与丙相互独立 B.甲与丁相互独立
C.乙与丙相互独立 D.丙与丁相互独立
2.某班级体育课进行一次篮球定点投篮测试,规定每人最多投3次,每次投篮的结果相互独立.在A
处每投进一球得3分,在B处每投进一球得2分,否则得0分;将学生得分逐次累加并用X表示,如果X
的值高于3分就判定为通过测试,立即停止投篮,否则应继续投篮,直到投完三次为止.现有两种投篮方
案:方案1是先在A处投一球,以后都在B处投;方案2是都在B处投篮.已知甲同学在A处投篮的命中
率为,在B处投篮的命中率为.
(1)若甲同学选择方案2,求他测试结束后所得总分X为0分的概率;
(2)若甲同学选择方案1,求他测试结束后所得总分X的所有可能取值以及相应的概率;
(3)你认为甲同学选择哪种方案通过测试的可能性更大?请说明理由.