文档内容
第 20 讲 独立性检验与条件概率
真题展示
2022 新高考一卷第 20 题
一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分
为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了 100 例
(称为病例组),同时在未患该疾病的人群中随机调查了 100 人(称为对照
组),得到如下数据:
不够良好 良好
病例组 40 60
对照组 10 90
(1)能否有 的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人, 表示事件“选到的人卫生习惯不够良好”,
表示事件“选到的人患有该疾病”, 与 的比值是卫生习惯不够
良好对患该疾病风险程度的一项度量指标,记该指标为 .
(ⅰ)证明: ;
(ⅱ)利用该调查数据,给出 , 的估计值,并利用(ⅰ)的结果给
出 的估计值.
附: .
0.050 0.010 0.001
3.841 6.635 10.828
【思路分析】(1)补充列联表,根据表中数据计算 ,对照附表得出结论.
(2) 根据条件概率的定义与运算性质,证明即可;
(ⅱ)利用调查数据和对立事件的概率公式,计算即可.
【解析】(1)补充列联表为:
不够良好 良好 合计
病例组 40 60 100
对照组 10 90 100
合计 50 150 200
计算 ,所以有 的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
(2) 证明:
;
(ⅱ)利用调查数据, , , ,
,所以 .
【试题评价】本题考查了独立性检验的应用,也考查了条件概率的应用,是中
档题.
知识要点整理
知识点一 分类变量
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性
质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.
知识点二 2×2列联表
1.2×2列联表给出了成对分类变量数据的交叉分类频数.
2.定义一对分类变量X和Y,我们整理数据如下表所示:
Y
X 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
n=a+b+c
合计 a+c b+d
+d
像这种形式的数据统计表称为2×2列联表.
知识点三 独立性检验
1.定义:利用 χ2的取值推断分类变量 X和Y是否独立的方法称为 χ2独立性检验,
读作“卡方独立性检验”.简称独立性检验.2.χ2=,其中 n=a+b+c+d.
3.独立性检验解决实际问题的主要环节
(1)提出零假设H :X和Y相互独立,并给出在问题中的解释.
0
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值x 比较.
α
(3)根据检验规则得出推断结论.
(4)在 X 和 Y 不独立的情况下,根据需要,通过比较相应的频率,分析 X 和 Y 间
的影响规律.
知识点四 条件概率的概念
一般地,设A,B为两个随机事件,且 P(A)>0,我们称P(B|A)=为在事件 A发生
的条件下,事件B发生的条件概率.
思考 P(A|B),P(B),P(AB)间存在怎样的等量关系?
答案 P(A|B)=,其中P(B)>0.
知识点五 概率乘法公式
对任意两个事件A与B,若P(A)>0,则P(AB)= P ( A ) P ( B | A ) 为概率的乘法公式.
知识点六 条件概率的性质
设P(A)>0,则
(1)P(Ω|A)=1.
(2)如果B和C是两个互斥事件,则P(B∪C|A)= P ( B | A ) + P ( C | A ) .
(3)设和B互为对立事件,则P(|A)= 1 - P ( B | A ) .
知识点七 全概率公式
一般地,设 A ,A ,…,A 是一组两两互斥的事件,A ∪A ∪…∪A =Ω,且
1 2 n 1 2 n
P(A)>0,i=1,2,…,n,则对任意的事件 B⊆Ω,有 P(B)= ( A ) P ( B | A ),我们称
i i i
该公式为全概率公式.
*知识点八 贝叶斯公式
设 A ,A ,…,A 是一组两两互斥的事件,A ∪A ∪…∪A =Ω,且 P(A)>0,i
1 2 n 1 2 n i
=1,2,…,n,则对任意的事件B⊆Ω,P(B)>0,有P(A|B)=
i三年真题
1.甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机
调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数 未准点班次数
A 240 20
B 210 30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附: ,
0.100 0.050 0.010
2.706 3.841 6.635
【答案】(1)A,B两家公司长途客车准点的概率分别为 ,
(2)有
【详解】(1)根据表中数据,A共有班次260次,准点班次有240次,
设A家公司长途客车准点事件为M,
则 ;
B共有班次240次,准点班次有210次,
设B家公司长途客车准点事件为N,
则 .A家公司长途客车准点的概率为 ;
B家公司长途客车准点的概率为 .
(2)列联表
准点班次数 未准点班次数 合计
A 240 20 260
B 210 30 240
合计 450 50 500
= ,
根据临界值表可知,有 的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
2.一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两
类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机
调查了100人(称为对照组),得到如下数据:
不够良
良好
好
病例组 40 60
对照组 10 90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该
疾病”. 与 的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标
为R.(ⅰ)证明: ;
(ⅱ)利用该调查数据,给出 的估计值,并利用(ⅰ)的结果给出R的估计值.
附 ,
0.050 0.010 0.001
k 3.841 6.635 10.828
【答案】(1)答案见解析
(2)(i)证明见解析;(ii) ;
【详解】(1)由已知 ,
又 , ,
所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
(2)(i)因为 ,
所以
所以 ,
(ii)
由已知 , ,
又 , ,所以
3.甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分
别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级
二级品 合计
品
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:
0.050 0.010 0.001
k 3.841 6.635 10.828
【答案】(1)75%;60%;
(2)能.
【详解】(1)甲机床生产的产品中的一级品的频率为 ,
乙机床生产的产品中的一级品的频率为 .
(2) ,
故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.
4.为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了 天空气中的和 浓度(单位: ),得下表:
32 18 4
6 8 12
3 7 10
(1)估计事件“该市一天空气中 浓度不超过 ,且 浓度不超过 ”的概率;
(2)根据所给数据,完成下面的 列联表:
(3)根据(2)中的列联表,判断是否有 的把握认为该市一天空气中 浓度与 浓度有关?
附: ,
0.050 0.010 0.001
3.841 6.635 10.828
【答案】(1) ;(2)答案见解析;(3)有.
【详解】(1)由表格可知,该市100天中,空气中的 浓度不超过75,且 浓度不超过150的天
数有 天,
所以该市一天中,空气中的 浓度不超过75,且 浓度不超过150的概率为 ;
(2)由所给数据,可得 列联表为:合计
64 16 80
10 10 20
合计 74 26 100
(3)根据 列联表中的数据可得
,
因为根据临界值表可知,有 的把握认为该市一天空气中 浓度与 浓度有关.
5.为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了 天空气中的
和 浓度(单位: ),得下表:
(1)估计事件“该市一天空气中 浓度不超过 ,且 浓度不超过 ”的概率;
(2)根据所给数据,完成下面的 列联表:(3)根据(2)中的列联表,判断是否有 的把握认为该市一天空气中 浓度与 浓度有关?
附: ,
【答案】(1) ;(2)答案见解析;(3)有.
【详解】(1)由表格可知,该市100天中,空气中的 浓度不超过75,且 浓度不超过150的天
数有 天,
所以该市一天中,空气中的 浓度不超过75,且 浓度不超过150的概率为 ;
(2)由所给数据,可得 列联表为:
合计
64 16 80
10 10 20
合计 74 26 100
(3)根据 列联表中的数据可得,
因为根据临界值表可知,有 的把握认为该市一天空气中 浓度与 浓度有关.
6.某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得
到下表(单位:天):
锻炼人次
[0,200] (200,400] (400,600]
空气质量等级
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称
这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握
认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次≤400 人次>400
空气质量好
空气质量不好
附: ,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
【答案】(1)该市一天的空气质量等级分别为 、 、 、 的概率分别为 、 、 、 ;(2) ;(3)有,理由见解析.
【详解】(1)由频数分布表可知,该市一天的空气质量等级为 的概率为 ,等级为 的概
率为 ,等级为 的概率为 ,等级为 的概率为 ;
(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为
(3) 列联表如下:
人次 人次
空气质量好
空气质量不好
,
因此,有 的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
7.某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或
不满意的评价,得到下面列联表:
满意 不满意
男顾客 40 10
女顾客 30 20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附: .
P
0.050 0.010 0.001
(K2≥k)
k 3.841 6.635 10.828【答案】(1) ;
(2)能有 的把握认为男、女顾客对该商场服务的评价有差异.
【详解】(1)由题中表格可知,50名男顾客对商场服务满意的有40人,
所以男顾客对商场服务满意率估计为 ,
50名女顾客对商场满意的有30人,
所以女顾客对商场服务满意率估计为 ,
(2)由列联表可知 ,
所以能有 的把握认为男、女顾客对该商场服务的评价有差异.
【点睛】该题考查的是有关概率与统计的知识,涉及到的知识点有利用频率来估计概率,利用列联表计算
的值,独立性检验,属于简单题目.
8.某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量
是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,
然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生
产件数分为5组: 分别加以统计,得到如图所示的频率分布直方图.
(I)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人
的概率;
(II)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成列联表,并判断是否有
90%的把握认为“生产能手与工人所在的年龄组有关”?
0.100 0.050 0.010 0.001
k 2.706 3.841 6.635 10.82825周岁以上组 25周岁以下组
【答案】(I) (II)没有把握
【详解】 (Ⅰ)由已知得,样本中有 周岁以上组工人 名, 周岁以下组工人 名
所以,样本中日平均生产件数不足 件的工人中, 周岁以上组工人有 (人),
记为 , , ; 周岁以下组工人有 (人),记为 ,
从中随机抽取 名工人,所有可能的结果共有 种,他们是: , , , ,
, , , , ,
其中,至少有名“ 周岁以下组”工人的可能结果共有 种,它们是: , , ,
, , , .故所求的概率:
(Ⅱ)由频率分布直方图可知,在抽取的 名工人中,“ 周岁以上组”中的生产能手
(人),“ 周岁以下组”中的生产能手 (人),据此可得 列联表如下:
生产能手 非生产能手 合计
周岁以上组
周岁以下组合计
所以得:
因为 ,所以没有 的把握认为“生产能手与工人所在的年龄组有关”
对于独立性检验的考查要求学生会用公式,并且懂得算法过程并懂得结论的给出,应该算容易题,可往往
学生会被这么长的题目所吓倒,再加上统计与概率的结合就会变为难点.此题比较容易出现计算和结论上的
失误,而造成不必要的失分.
9.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在(29.94,30.06)的零件为
优质品.从两个分厂生产的零件中个抽出500件,量其内径尺寸,结果如下表:
甲厂:
分
组
频
12 63 86 182 92 61 4
数
乙厂:
分
组
频
29 71 85 159 76 62 18
数
(1)试分别估计两个分厂生产的零件的优质品率;
(2)由于以上统计数据填下面 列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差
异”.
甲厂 乙厂 合计
优质品非优质
品
合计
附:
【答案】(1)甲,乙两厂的优秀品率分别是72%,64%;
(2) 列联表见解析;有99%的把握认为“两个分厂生产的零件的质量有差异”
(1)
甲厂抽查的产品中有 件优质品,从而甲厂生产的零件的优质品率估计为 ;
乙厂抽查的产品中有 件优质品,从而乙厂生产的零件的优质品率估计为 ;
(2)
列联表如下表:
甲厂 乙厂 合计
优质品 360 320 680
非优质品 140 180 320
合计 500 500 1000
所以
所以有99%的把握认为“两个分厂生产的零件的质量有差异”
10.为调查某地区老人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结
果如下:是否需要志愿 性别 男 女
需要 40 30
不需要 160 270
(1) 估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2) 能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?
(3) 根据(2)的结论,能否提供更好的调查方法来估计该地区老年人,需要志愿帮助的老年人的比
例?说明理由
附:
【答案】(1) ,(2)有99%的把握(3)见解析
【详解】(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老
年人的比例的估算值为
(2) .
由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.
(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与
女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老
年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.
11.某高校共有15000人,其中男生10500人,女生4500人,为调查该校学生每周平均体育运动时间的情
况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时)
(1)应收集多少位女生样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据分组区间为: .估计该校学生每周平均体育运
动时间超过4个小时的概率.
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4个小时.请完成每周平均体育运动时间与
性别的列联表,并判断是否有 的把握认为“该校学生的每周平均体育运动时间与性别有关”.
附:
0.10 0.05 0.010 0.005
2.706 3.841 6.635 7.879
【答案】(1)90;(2)0.75;(3)有 的把握认为“该校学生的每周平均体育运动时间与性别有关”.
【详解】试题分析:(1)由分层抽样性质,得到 ;(2)由频率分布直方图得
;(3)利用2×2列联表求 .
试题解析:
(1)由 ,所以应收集90位女生的样本数据.
(2)由频率发布直方图得 ,该校学生每周平均体育运动时间超过4小时的概率为
0.75.
(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人平均体育运动时间不超过4小时,又因为样本数据中有210份是关于男生的,90份是关于女生的,所以平均体育运动
时间与性别列联表如下:
每周平均体育运动时间与性别列联表
男生 女生 总计
每周平均体育运动时间不超过4小时 45 30 75
每周平均体育运动时间超过4小时 165 60 225
总计 210 90 300
结合列联表可算得
有95%的把握认为“该校学生的平均体育运动时间与性别有关”点睛:利用频率分布直方图求众数、
中位数与平均数时,易出错,应注意区分这三者.在频率分布直方图中:
(1)最高的小长方形底边中点的横坐标即是众数;
(2)中位数左边和右边的小长方形的面积和是相等的;
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底
边中点的横坐标之和.
12.电视传媒公司为了了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,
其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图;
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.
(Ⅰ)根据已知条件完成下面的 列联表,并据此资料你是否认为“体育迷”与性别
有关?非体育迷 体育迷 合计
男
女
合计
(Ⅱ)将日均收看该体育项目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性,
若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.
0.05 0.01
k 3.841 6.635
附
【答案】见解析
【详解】由频率分步直方图可知,在抽取的100人中,“体育迷”有25人,从而 列联表如下:
非体育迷 体育迷 合计
男 30 15 45
女 45 10 55
合
75 25 100
计
将 列联表中的数据代入公式计算,
得
因为 ,所以我们没有理由认为“体育迷”与性别有关.
(2)由频率分步直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间为
其中 表示男性,
表示女性,由10个基本事件组成,而且这些基本事件的出现是等可能的.
用A表示“任选2人中,至少有1人是女性”这一事件,则
事件A由7个基本事件组成,因此
【点睛】本大题主要考查生活中的概率统计知识和方法以及线性相关问题.第二问求概率关键是把 “从
“超级体育迷”中任意选取2人”的所有情况找清楚
13.某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较
两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,
第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数 ,并将完成生产任务所需时间超过 和不超过 的工
人数填入下面的列联表:
超过 不超过
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附: ,
【答案】(1)第二种生产方式的效率更高. 理由见解析(2)80
(3)能
【详解】分析:(1)计算两种生产方式的平均时间即可.
(2)计算出中位数,再由茎叶图数据完成列联表.
(3)由公式计算出 ,再与6.635比较可得结果.
详解:(1)第二种生产方式的效率更高.
理由如下:
(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用
第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率
更高.
(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生
产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方
式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.
(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大
致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对
称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式
完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率
更高.
以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.
(2)由茎叶图知 .
列联表如下:
超过 不超过
第一种生产方式 15 5
第二种生产方式 5 15
(3)由于 ,所以有99%的把握认为两种生产方式的效率有差异.三年模拟
一、解答题
1.某企业研发了一种新药,为评估药物对目标适应症患者的治疗作用和安全性,需要开展临床用药试验,
检测显示临床疗效评价指标 的数量 与连续用药天数 具有相关关系.随机征集了一部分志愿者作为样本
参加临床用药试验,并得到了一组数据 ,其中 表示连续用药 天, 表示相应的临
床疗效评价指标 的数值.根据临床经验,刚开始用药时,指标 的数量 变化明显,随着天数增加, 的
变化趋缓.经计算得到如下一些统计量的值:
, .
(1)求样本 的相关系数(精确到 ;
(2)新药经过临床试验后,企业决定通过两条不同的生产线每天8小时批量生产该商品,其中第1条生产线
的生产效率是第2条生产线的两倍.若第1条生产线出现不合格药品的概率为 ,第2条生产线出现不
合格药品的概率为 ,两条生产线是否出现不合格药品相互独立.
(i)随机抽取一件该企业生产的药品,求该药品不合格的概率;
(ii)若在抽查中发现3件不合格药品,求其中至少有2件药品来自第1条生产线的概率.
附:相关系数 .
【答案】(1)
(2)(i) ;(ii)
【详解】(1)样本 的相关系数为(2)(i)设 “随机抽取一件该企业生产的药品为不合格”,
“随机抽取一件药品为第1条生产线生产”, “随机抽取一件药品为第2条生产线生产”,
则 ,又 ,
于是
.
(ii)在抽查中发现的任一件不合格药品来自第1条生产线的概率为:
,
故3件不合格药品中至少有2件药品来自第1条生产线的概率为
.
2.在一次数学考试中,从甲,乙两个班级各抽取10名同学的成绩进行统计分析,他们成绩的茎叶图如图
所示,成绩不小于90分为及格.
(1)从两班10名同学中各抽取一人,在有人及格的情况下,求乙班同学不及格的概率;
(2)从甲班10人中取一人,乙班10人中取两人,三人中及格人数记为 ,求 的分布列和数学期望.
【答案】(1) ;(2)分布列见解析, .
【详解】解:(1)甲班有4人及格,乙班有5人及格.
事件“从两班10名同学中各抽取一人,有人及格”记作 ,
事件“从两班10名同学中各抽取一人,乙班同学不及格”记作 ,则 .
(2) 的取值为0,1,2,3,
;
;
;
.
所以 的分布列为
0 1 2 3
所以 .
3.为了研究家用轿车在高速公路上的车速情况,交通部门对 名家用轿车驾驶员进行调查,得到其在高
速公路上行驶时的平均车速情况为:在 名男性驾驶员中,平均车速超过 的有 人,不超过
的有 人;在45名女性驾驶员中,平均车速超过 的有 人,不超过 的有
人.
(1)完成下面的列联表,并判断是否有 的把握认为平均车速超过 与性别有关;
平均车速超过 平均车速不超过
合计
人数 人数
男性驾驶人数
女性驾驶人数
合计(2)在被调查的驾驶员中,按分层抽样的方法从平均车速不超过 的人中抽取 人,再从这6人中采
用简单随机抽样的方法随机抽取 人,求这2人恰好为 名男生、1名女生的概率.
参考公式与数据: ,其中 .
0.150 0.100 0.050 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
【答案】(1)列联表见解析,有
(2)
【详解】(1)根据题目中的数据,填写列联表如下:
平均车速超过 km/h人数 平均车速不超过 km/h人数 合计
男性驾驶员人数
女性驾驶员人数
合计
因为, ,
所以有 的把握认为平均车速超过 km/h与性别有关;
(2)由题意抽取 人中,女性 人,男性 人,分别设为 和 ,
从这 人中随机抽取 人得样本空间:
, , , , , , , , , ,
, , , , ,
样本空间数是 ,其中这 人恰好为 名男生、 名女生的样本数是 ,因此这 人恰好为 名男生、 名女生的概率是 ;
综上,所以有 的把握认为平均车速超过 km/h与性别有关,这 人恰好为 名男生、 名女生的概
率是 .
4.为调查高中生的数学成绩与学生自主学习时间之间的相关关系,长郡中学数学教师对新入学的45名学
生进行了跟踪调查,其中每周自主做数学题的时间不少于15小时的有19人,余下的人中,在高三模拟考
试中数学平均成绩不足120分的占 ,统计成绩后,得到如下的 列联表:
分数大于等于120
分数不足120分 合计
分
周做题时间不少于15小
4 19
时
周做题时间不足15小时
合计 45
(1)请完成上面的 列联表,并判断能否在犯错误的概率不超过0.01的前提下认为“高中生的数学成绩与
学生自主学习时间有关”;
(2)若将频率视为概率,从全校大于等于120分的学生中随机抽取20人,求这些人中周做题时间不少于15
小时的人数的期望和方差.
附:
【答案】(1)列联表见解析,能
(2) , .
【详解】(1)分数大于等于120分 分数不足120分 合计
周做题时间不少于15小时 15 4 19
周做题时间不足15小时 10 16 26
合计 25 20 45
∵
∴能在犯错误的概率不超过0.01的前提下认为“高中生的数学成绩与学生自主学习时间有关”
(2)已知从全校大于等于120分的学生中随机抽取一人,该人周做题时间不少于15小时的概率为
.
设从全校大于等于120分的学生中随机抽取20人,这些人中周做题时间不少于15小时的人数为随机变量
,由题意可知
故 , .
5.一种配件的标准尺寸为 ,误差不超过 均为合格品,其余为不合格品.科研人员在原有生产
工艺的基础上,经过技术攻关,推出一种新的生产工艺.下面的表格分别给出了用两种工艺生产的20个配
件的尺寸(单位: ):
500 499 503 500 505 500 502 499 500 498
新工艺
502 496 498 501 500 497 498 503 500 499
497 502 499 495 502 494 500 496 506 503
旧工艺
499 496 505 498 503 502 496 498 501 505
(1)请将下面的 列联表补充完整;
不合格
合格品 合计
品
新工艺 20旧工艺 20
合计 10 40
(2)根据所得样本数据判断,能否有 的把握认为用两种工艺生产的配件合格率有差异?
附: .
【答案】(1)列联表见解析
(2)有
【详解】(1)依题意得,合格品的尺寸范围为 (单位: ),其余为不合格品,
所以新工艺的合格品有18个,不合格品有2个;旧工艺的合格品有12个,不合格品有8个;
所以完整的 列联表如下:
不合格
合格品 合计
品
新工艺 18 2 20
旧工艺 12 8 20
合计 30 10 40
(2)由(1)得, ,
所以有 的把握认为用两种工艺生产的配件合格率有差异.
6.近年来中年人的亚健康问题日趋严重,引起了政府部门和社会各界的高度关切.一研究机构为了解亚健
康与锻炼时间的关系,对某地区的中年人随机调查了 人,得到如下数据:
平均每天锻炼时间 不足半小时 半小时到 小时(含半小时) 小时及以上亚健康
无亚健康
(1)从这些中年人中任选 人,记 “该中年人亚健康”, “该中年人平均每天锻炼时间不足半小时”,
分别求 和 ;
(2)完成下面的列联表,根据小概率值 的独立性检验,能否认为亚健康与锻炼时间有关联?
平均每天锻炼时
不足 小时 小时及以上 合计
间
亚健康
无亚健康
合计
附: , .
【答案】(1) ,
(2)列联表见解析;可以认为亚健康与锻炼时间有关联
【详解】(1)由题意知:中年人亚健康且平均每天锻炼时间不足半小时的人数为 人,则
;
中年人无亚健康且平均每天锻炼时间超过半小时(含半小时)的人数为 人,平均每天锻炼时间超过半
小时(含半小时)的人数为 人,, , .
(2)由已知数据可得列联表如下:
平均每天锻炼时
不足 小时 小时及以上 合计
间
亚健康
无亚健康
合计
零假设 :亚健康与锻炼时间无关,
,
依据小概率值 的 独立性检验,我们推断 不成立,即可以认为亚健康与锻炼时间有关联,
该推断犯错误的概率不超过 .
7.某地区对高一年级学生进行体质健康测试(简称体测),现随机抽取了900名学生的体测结果等级
(“良好及以下”或“优秀”)进行分析.得到如下列联表:
良好及以下 优秀 合计
男 450 200 650
女 150 100 250
合计 600 300 900
附表及公式:
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828其中 , .
(1)计算并判断是否有99%的把握认为本次体测结果等级与性别有关系?
(2)将频率视为概率,用样本估计总体.若从该地区高一所有学生中,采取随机抽样的方法每次抽取1名学
生成绩进行具体指标分析,连续抽取3次,且各次抽取的结果相互独立,记被抽取到的3名学生的体测等
级为“优秀”的人数为 ,求 的分布列和数学期望 .
【答案】(1) ,有99%的把握
(2)分布列见解析,
【详解】(1)依题意, ,
故有99%的把握认为本次体测结果等级与性别有关系.
(2)依题意,体测结果等级为“优秀”的概率为 ,
的取值有0,1,2,3,
则 , ,
, ,
则 的分布列为:
0 1 2 3
P
所以 的数学期望 .
8.2022年11月15日9时38分,长征四号丙运载火箭在酒泉卫星发射中心点火起飞,随后将遥感三十四号03星送入预定轨道发射,大量观众通过某网络直播平台观看了发射全过程.为了解大家是否关注航空航天技
术,该平台随机抽取了100名用户进行调查,相关数据如下表.
关
不关注 合计
注
男性用户 35
女性用户 30 50
合计 100
附: ,
0.10 0.05 0.025 0.010 0.005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
(1)补充表格数据并根据表中数据分别估计男、女性用户关注航空航天技术的概率;
(2)能否有99.9%的把握认为是否关注航空航天技术与性别有关?
【答案】(1)列联表见解析;男性: ;女性:
(2)没有99.9%的把握认为是否关注航空航天技术与性别有关
【详解】(1)根据题意补充完整的列联表如下:
关
不关注 合计
注
男性用户 35 15 50
女性用户 20 30 50
合计 55 45 100
由图中表格可知,50名男性用户中关注航空航天技术有35人,50名女性用户中关注航空航天技术有20人,
所以估计男性用户关注航空航天技术的概率为 ;估计女性用户关注航空航天技术的概率为 .
(2)根据列联表,
,
参考临界值表可知,没有99.9%的把握认为是否关注航空航天技术与性别有关.
9.2020年11月2日湖南省衡阳市衡南县清竹村,由“杂交水稻之父”袁隆平团队研发的晚稻品种“叁优
一号”亩产为911.7公斤.在此之前,同一基地种植的早稻品种亩产为619.06公斤.这意味着双季亩产达到
1530.76公斤,实现了“1500公斤高产攻关”的目标.在水稻育种中,水稻的不同性状对水稻的产量有不同
的影响.某育种科研团队测量了株高(单位:cm)和穗长的数据,如下表(单位:株):
长穗 短穗 总计
高杆 34 16 50
低杆 10 40 50
总计 44 56 100
(1)根据表中数据判断,能否在犯错概率不超过0.01的前提下认为株高和穗长之间有关系?
(2)在采样的稻田里随机抽取3株测量每穗总粒数,把抽取的低杆长穗株数记为X,求X的分布列和数学期
望(把频率当成概率计算).
参考公式: ,其中 .
0.10 0.05 0.025 0.010 0.005 0.001
k 2.706 3.841 5.024 6.635 7.879 10.828
【答案】(1)能
(2)分布列见解析,
【详解】(1)根据2×2列联表中的数据,可得 ,
因此能在犯错误的概率不超过0.01的前提下认为株高和穗长之间有关系.
(2)记“在采样的稻田里抽出低杆长穗稻株”为事件A,
则 ,所以 .
X的所有可能取值为0,1,2,3,
,
,
,
,
所以随机变量X的分布列如表所示,
X 0 1 2 3
P
随机变量X的数学期望 .
10.某棉纺厂为了解一批棉花的质量,在该批棉花中随机抽取了容量为120的样本,测量每个样本棉花的
纤维长度(单位:mm,纤维长度是棉花质量的重要指标),所得数据均在区间 内,将其按组距为
2分组,制作成如图所示的频率分布直方图,其中纤维长度不小于28mm的棉花为优质棉.(1)求频率分布直方图中a的值;
(2)已知抽取的容量为120的样本棉花产自于A,B两个试验区,部分数据如下2×2列联表:
A试验区 B试验区 合计
优质棉 10
非优质棉 30
合计 120
将2×2列联表补充完整,并判断是否有99.9%的把握认为优质棉与A,B两个试验区有关系;
(3)若从这批120个样本棉花中随机抽取3个,其中有X个优质棉,求X的分布列和数学期望 .
注:①独立性检验的临界值表:
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
② ,其中 .
【答案】(1)
(2)列联表见解析,没有99.9%的把握认为优质棉与A,B两个试验区有关系;
(3)X的分布列见解析,
【详解】(1)由 ,解得
(2)抽取的优质棉样本数为
则非优质棉样本数为90,
则2×2列联表如下:
A试验区 B试验区 合计
优质棉 10 20 30
非优质棉 60 30 90合计 70 50 120
则没有99.9%的把握认为优质棉与A,B两个试验区有关系.
(3)X的可能取值为0,1,2,3
则 ,
,
则X的分布列如下:
X 0 1 2 3
P
数学期望 .
11.某企业为响应国家在《“十四五”工业绿色发展规划》中提出的“推动绿色发展,促进人与自然和谐
共生”的号召,推进产业结构高端化转型,决定开始投入生产某新能源配件.该企业初步用甲、乙两种工艺
进行试产,为了解两种工艺生产新能源配件的质量情况,从两种工艺生产的产品中分别随机抽取了 件
进行质量检测,得到下图所示的频率分布直方图,规定质量等级包含合格和优等两个等级,综合得分在
的是合格品,得分在 的是优等品.(1)从这100件甲工艺所生产的新能源配件中按质量等级分层抽样抽取5件,再从这5件中随机抽取2件做
进一步研究,求恰有1件质量等级为优等品的概率;
(2)根据频率分布直方图完成下面的 列联表,并判断是否有 的把握认为新能源配件的质量等级与生
产工艺有关?该企业计划大规模生产这种新能源配件,若你是该企业的决策者,你会如何安排生产,为什
么?
优等
合格品 合计
品
甲生产工艺
乙生产工艺
总计
附: ,其中 .
【答案】(1)
(2)列联表答案见解析,有 的把握认为配件的质量和生产工艺有关,选择甲工艺生产新能源配件,理由
见解析【详解】(1)由甲工艺频率分布直方图可知,合格品、优等品出现的频率分别为
和 ,
所以按分层抽样抽取的5个配件中,有合格品2个、优等品3个,
所以从5个中随机抽取2个,恰有1个质量等级为优等品的概率为:
.
(2)甲生产工艺生产的合格品有 件,优等品有 件,
乙生产工艺生产的合格品有 件,优等品有
件,
所以 列联表为:
优等
合格品 总计
品
甲生产工艺 40 60 100
乙生产工艺 55 45 100
总计 95 105 200
所以
由于 ,所以有 的把握认为配件的质量和生产工艺有关.
应该选择甲工艺生产新能源配件,因为甲的优等品率为 ,乙的优等品率仅为 .
12.某企业为响应国家在《“十四五”工业绿色发展规划》中提出的“推动绿色发展,促进人与自然和谐
共生”的号召,推进产业结构高端化转型,决定开始投入生产某新能源配件.该企业初步用甲、乙两种工艺
进行试产,为了解两种工艺生产新能源配件的质量情况,从两种工艺生产的产品中分别随机抽取了100件
进行质量检测,得到下图所示的频率分布直方图,规定:质量等级包含合格和优等两个等级,综合得分在
的是合格品,得分在 的是优等品.(1)通过计算,比较甲、乙两种工艺生产的配件的综合平均得分哪个更高?(同一组中的数据用该组区间的
中点值作代表)
(2)根据频率分布直方图完成下面的 列联表,并判断是否有 的把握认为新能源配件的质量等级与生
产工艺有关?
优等
合格品 合计
品
甲生产工艺
乙生产工艺
总计
附: ,其中 .
【答案】(1)甲工艺的综合平均得分大于乙工艺的综合平均得分
(2)列联表见解析,有 的把握认为配件的质量和生产工艺有关
【详解】(1)甲工艺的综合平均得分为:乙工艺的综合平均得分为:
故:甲工艺的综合平均得分大于乙工艺的综合平均得分
(2)
优等
合格品 总计
品
甲生产工艺 40 60 100
乙生产工艺 55 45 100
总计 95 105 200
有 的把握认为配件的质量和生产工艺有关
13.第24届冬季奥运会将于2022年2月4日在北京开幕,本次冬季奥运会共设7个大项,15个分项,109
个小项.为调查学生对冬季奥运会项目的了解情况,某大学进行了一次抽样调查,若被调查的男女生人数均
为 ,统计得到以下2×2列联表,经过计算可得 .
男生 女生 合计
了解
不了解
合计
(1)求 的值,并判断有多大的把握认为该校学生对冬季奥运会项目的了解情况与性别有关;
(2)为弄清学生不了解冬季奥运会项目的原因,采用分层抽样的方法从抽取的不了解冬季奥运会项目的学生
中随机抽取6人,再从这6人中抽取2人进行面对面交流,“至少抽到一名男生”的概率;
附表:
0.10 0.05 0.025 0.010 0.001
2.706 3.841 5.024 6.635 10.828附:
【答案】(1) ,有99%的把握认为该校学生对冬季奥运会项目的了解情况与性别有关.
(2)
【详解】(1)解:由题知:2×2列联表完善如下:
男生 女生 合计
了解
不了解
合计
所以, ,解得 ,
所以, ,有99%的把握认为该校学生对冬季奥运会项目的了解情况与性别有关.
(2)解:由题知, ,抽样比为 ,
所以,不了解学生中,男生应抽取 人,分别记为 ;女生应抽取 人,分别记为
;
所以,这6人中抽取2人进行面对面交流,可能的情况有:
,共15种,
其中,至少抽到一名男生的情况有 共9种情况,
所以,“至少抽到一名男生”的概率为
14.2022年11月20日,卡塔尔足球世界杯正式开幕,世界杯上的中国元素随处可见.从体育场建设到电
力保障,从赛场内的裁判到赛场外的吉祥物……中国制造为卡塔尔世界杯提供了强有力的支持.国内也再
次掀起足球热潮.某地足球协会组建球队参加业余比赛.该足球队教练组对球员的使用是依据数据分析,为了考查球员甲对球队的贡献,作出如下数据统计(甲参加过的比赛均分出了胜负):
球队负 球队胜 总计
甲参加 3 29 32
甲未参
7 11 18
加
总计 10 40 50
(1)据此能否有97.5%的把握认为球队胜利与甲球员参赛有关;
(2)根据以往的数据统计,乙球员能够胜任边锋、中锋、后腰以及后卫四个位置,且出场率分别为:0.2,
0.4,0.3,0.1,当出任边锋、中锋、后腰以乃后卫时,球队输球的概率依次为:0.4、0.3、0.4、0.2.则:
①当乙球员参加比赛时,求球队某场比赛输球的概率;
②当乙球员参加比赛时,在球队输了某场比赛的条件下,求乙球员担任边锋的概率;
③如果你是教练员,应用概率统计有关知识,该如何使用乙球员?
附表及公式:
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
.
【答案】(1)有97.5%的把握认为球队胜利与甲球员参赛有关
(2)① ;② ;③应该多让乙球员担当后卫,来扩大赢球场次.
【详解】(1)由列联表中的数据可得: ,
所以有97.5%的把握认为球队胜利与甲球员参赛有关;
(2)①设 表示“乙球员担当边锋”; 表示“乙球员担当中锋”; 表示“乙球员担当后腰”; 表
示“乙球员担当后卫”; 表示“球队输掉某场比赛”,则
;
② ;
③因为 ,
,
所以, ,
所以应该多让乙球员担当后卫,来扩大赢球场次.
15.现在养宠物已经成为一件再正常不过的事情了,尤其是对某些人来说,养宠物是他们生活中非常重要
的一件事情,他们还将自己的宠物当成是家人.某机构随机抽取了 名养宠物的人,对他们养宠物的原
因进行了调查,根据调查结果,得到如下表数据:
喜欢 其他 合计
男
女
合计
(1)根据题中调查数据,判断是否有 的把握认为是否是因为喜欢宠物而养宠物与性别有关;
(2)若从这 名男性养宠物的人中,按养宠物的原因采用分层抽样的方法抽取 人,再从这 人中随机抽取
人,求抽取的这 人中至少有 人因为喜欢宠物而养宠物的概率.
参考公式: ,其中 .
参考数据:【答案】(1)有,理由见解析
(2)
【详解】(1)解: ,
因此,有 的把握认为是因为喜欢宠物而养宠物与性别有关.
(2)解:由题意可知,从这 名男性养宠物的人中,按养宠物的原因采用分层抽样的方法抽取 人,
这 人中,因为喜欢宠物而养宠物的人数为 人,分别记为 、 ,另外 人分别记为 、 、 、 ,
从这 人中随机抽取 人,所有的基本事件有: 、 、 、 、 、 、
、 、 、 、 、 、 、 、 ,共 种,
其中,事件“所抽取的这 人中至少有 人因为喜欢宠物而养宠物”所包含的基本事件有:
、 、 、 、 、 、 、 、 ,共 种,故所求概率为 .
16.2022年新型冠状“奥密克戎”病毒肆虐,冠状肺炎感染人群年龄大多数是50岁以上的人群.该病毒
进入人体后有潜伏期,潜伏期是指病原体侵入人体至最早出现临床症状的这段时间.潜伏期越长,感染到
他人的可能性越高,现对200个病例的潜伏期(单位:天)进行调查,统计发现潜伏期中位数为5,平均
数为7.1,方差为5.06.如果认为超过8天的潜伏期属于“长潜伏期”,按照年龄统计样本,得到下面的列
联表:
潜伏期
年龄 合计
长潜伏期 非长潜伏期
50岁以上 30 110 140
50岁及50岁以下 20 40 60
合计 50 150 200
(1)依据小概率值 的独立性检验,可否认为“长潜伏期”与年龄有关?(2)假设潜伏期Z服从正态分布 ,其中 近似为样本平均数 , 近似为样本方差 .现在很多
省份对入境旅客一律要求隔离14天,请用概率的知识解释其合理性;
(3)以题日中的样本频率估计概率,设1000个病例中恰有 个属于“长潜伏期”的概率是 ,当
k为何值时, 取得最大值?
附: .
0.1 0.05 0.01
2.706 3.841 6.635
若随机变量Z服从正态分布 ,则 , ,
, .
【答案】(1)认为“长潜伏期”与年龄无关.
(2)答案见解析
(3)k=250
【详解】(1)零假设为H:“长潜伏期”与年龄无关,依据表中数据,得:
0
,
依据小概率值 的独立性检验,没有充分证据推断H 不成立,因此认为H 成立,
0 0
故认为“长潜伏期”与年龄无关;
(2)由题意知潜伏期 ,由 ,
得知潜伏期超过14天的概率很低,因此隔离14天是合理的;
(3)由于200个病例中有50个属于长潜伏期,若以样本频率估计概率,一个患者属于“长潜伏期”的概
率是 ,于是 .
则 ,
当 且 时, ;
当 且 时, ;
∴ , .
故当k=250时,g(k)取得最大值.
17.为了响应国家精准扶贫的号召,特地承包一块地,土地的使用面积x与管理时间y的关系如下.调查
了300名村民参与管理的意愿.如下表
土地使用面积x 1 2 3 4 5
管理时间y 8 10 13 25 24
表1
参与管理的意愿
性
合计
别
愿意 不愿意
男 150 50 200
女 50
合
200 300
计
表2
(1)判断管理时间y与土地面积x有极强的线性关系.求出关于y与x的线性方程.
(2)依据小概率值 的 独立性检验,分析参与管理的性别与参与管理的意愿是否有关联?
(3)利用分层抽样从愿意参与管理的男女中抽取4人,再从4人中抽取3人.其中3人中参与管理的男性人
数为X,求X的分布列和数学期望.参考公式: , , ,
0.050 0.010 0.005 0.001
3.841 6.635 7.879 10.828
【答案】(1)
(2)可以在犯错误的概率不超过0.001的前提下认为村民的性别和参与管理的意愿有关.
(3)分布列见详解,期望 .
【详解】(1)依题意可得: , ,
,
,
所以 , ,
关于y与x的线性方程为 .
(2)完善表格如下:
参与管理的意愿
性
合计
别
愿意 不愿意
男 150 50 200
女 50 50 100
合
200 100 300
计零假设为 :村民的性别和参与管理的意愿之间无关,
根据列联表中的数据,经计算得到
根据小概率值 的 独立性检验,推断 不成立,
即认为村民的性别和参与管理的意愿有关联,此推断犯错误的概率不大于0.001.
(3)按照分层抽样从愿意参与管理的男女中抽取4人,则抽到男生 人,抽到女生1人,从这4
人中随机抽取3人,其中3人中参与管理的男性人数为X,
依题意,X的可能取值为 ,
则 ; ,
故 的分布列为:
所以数学期望 .
18.为丰富学生的校园生活,提升学生的实践能力和综合素质能力,培养学生的兴趣爱好,某校计划借课
后托管服务平台开设书法兴趣班,为了解学生对这个兴趣班的喜爱情况,该校随机抽取了该校 名学生,
调查他们对这个兴趣班的喜爱情况,得到下面的2×2列联表:
喜爱 不喜爱 合计
男
女
合计
以调查得到的男、女学生喜欢书法兴趣班的频率代替概率.(1)完成题中的2×2列联表,并判断能否有 的把握认为是否喜欢书法兴趣班与性别有关;
(2)从该校喜欢书法兴趣班的学生中,用分层抽样的方法抽取 名学生,再从这 名学生中随机抽取 名学
生,求这 名学生中至少有 名女学生的概率.
参考公式: ,其中 .
参考数据:
【答案】(1)见解析;
(2) .
【详解】(1)完成列联表如下:
喜爱 不喜爱 合计
男
女
合计
,
所以有 的把握认为是否喜欢书法兴趣班与性别有关;
(2)该校喜欢书法兴趣班的学生中,男女生的比例为 ,
用分层抽样的方法抽取 名学生,所以男女生各有 各学生,
从这 名学生中随机抽取 名学生,记为事件 ,
则总的样本点个数是 ,全是男生的样本点个数是 ,
所以这 名学生中至少有 名女学生的概率为 .