文档内容
考点 28 统计(核心考点讲与练)
一、抽样与统计图表
1.获取数据的基本途径
获取数据的基本途径包括:统计报表和年鉴、社会调查、试验设计、普查和抽样、互联网等.
(1)统计报表是指各级企事业、行政单位按规定的表格形式、内容、时间要求报送程序,自上而下统一布置,
提供统计资料的一种统计调查方式.
(2)年鉴是以全面、系统、准确地记述上年度事物运动、发展状况为主要内容的资料性工具书.汇辑一年内的
重要时事、文献和统计资料,按年度连续出版的工具书.
2.总体、样本、样本容量
要考察的对象的全体叫做总体,每一个考察对象叫做个体,从总体中被抽取的考察对象的集体叫做总体的
一个样本,样本中个体的数目叫做样本容量.
3.简单随机抽样
(1)定义:从元素个数为N的总体中不放回地抽取容量为n的样本,如果每一次抽取时总体中的各个个体有
相同的可能性被抽到,这种抽样方法叫做简单随机抽样.
(2)最常用的简单随机抽样的方法:抽签法和随机数法.
(3)应用范围:总体中的个体数较少.
4.分层抽样
(1)定义:在抽样时,将总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各
层中按层在总体中所占比例进行简单随机抽样或系统抽样,这种抽样方法叫做分层抽样.
(2)应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.
5.频率分布直方图
(1)频率分布表的画法:
第一步:求极差,决定组数和组距,组距=;
第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;
第三步:登记频数,计算频率,列出频率分布表.
(2)频率分布直方图:反映样本频率分布的直方图(如图)横轴表示样本数据,纵轴表示 ,每个小矩形的面积表示样本落在该组内的 频率 .
6.频率分布折线图和总体密度曲线
(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.
(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率分布折线图就会
越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
7.样本的数字特征
数字特征 定义
众数 在一组数据中,出现次数最多的数据叫做这组数据的众数
将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数
中位数
据的平均数)叫做这组数据的中位数
平均数 样本数据的算术平均数,即x=
方差 s2=[(x - x ) 2 + ( x - x)2+…+(x-x)2],其中s为标准差
1 2 n
8.百分位数
如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分
位的百分位数.可表示为:一组n个观测值按数值大小排列.如,处于p%位置的值称第p百分位数.
二、统计案例
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是
一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在
左上角到右下角的区域内,两个变量的相关关系为负相关.
2.回归分析
对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(ⅰ)画散点图;(ⅱ)求回归直
线方程;(ⅲ)用回归直线方程作预报.
(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关
关系,这条直线叫做回归直线.
(2)回归直线方程的求法——最小二乘法.
设具有线性相关关系的两个变量x,y的一组观察值为(x,y)(i=1,2,…,n),则回归直线方程y=ax+b
i i
的系数为:称为样本点的中心.
(3)相关系数
①计算相关系数r,r有以下性质:|r|≤1,并且|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度
越弱;② | r |> r ,表明有95%的把握认为变量x与y之间具有线性相关关系,回归直线方程有意义;否则
0.05
寻找回归直线方程毫无意义.
3.独立性检验
(1)2×2列联表
B B 总计
A n n n
11 12 1+
A n n n
21 22 2+
总计 n n n
+1 +2
其中n =n +n ,n =n +n ,n =n + n ,n =n + n ,n=n + n + n + n .
1+ 11 12 2+ 21 22 +1 11 21 +2 12 22 11 21 12 22
(2)χ2统计量
χ2=.
(3)两个临界值:3.841与6.635
当 χ 2 >3.841 时,有95%的把握说事件A与B有关;
当 χ 2 >6.635 时,有99%的把握说事件A与B有关;
当 χ 2 ≤ 3.841 时,认为事件A与B是无关的.
1.解决分层抽样的常用公式
先确定抽样比,然后把各层个体数乘以抽样比,即得各层要抽取的个体数.
(1)抽样比= = ;
(2)层1的容量∶层2的容量∶层3的容量=样本中层1的容量∶样本中层2的容量∶样本中层3的容量.
2.统计图表人类辨识影像的能力要优於辨识文字与数字的能力 ,因此我们采用图形的方式来展现数据时,常常
不我们直接观察数据要来的快.
3.平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
4.独立性检验的一般步骤
①根据样本数据制成2×2列联表;
②根据公式K2= 计算K2的值;
③查表比较K2与临界值的大小关系,作出统计判断.
抽样
1.(2022·福建莆田·三模)已知某校有教职工560人,其中女职工240人,现按性别用分层抽样的方法从
该校教职工中抽取28人,则抽取的男职工人数与抽取的女职工人数之差是( )
A.2 B.4 C.6 D.8
2.(2022·安徽·芜湖一中三模(文))某学校对高三年级800名学生进行系统抽样编号分别为001,
002,…,800,若样本相邻的两个编号为028,068,则样本中编号最大的为( )
A.778 B.780 C.782 D.788
3.(2021北京市通州区高三上期中)某单位有男职工56人,女职工42人,按性别分层,用分层随机抽样
的方法从全体职工中抽出一个样本,如果样本按比例分配,男职工抽取的人数为16人,则女职工抽取的人
数为( )
A.12 B.20 C.24 D.28
4.(多选题)(2022·福建南平·三模)支气管炎患者会咳嗽失眠,给患者日常生活带来严重的影响.某医院
老年患者治愈率为20%,中年患者治愈率为30%,青年患者治愈率为40%.该医院共有600名老年患者,
500名中年患者,400名青年患者,则( )
A.若从该医院所有患者中抽取容量为30的样本,老年患者应抽取12人
B.该医院青年患者所占的频率为
C.该医院的平均治愈率为28.7%
D.该医院的平均治愈率为31.3%统计图表
1.(2021广东省广雅中学高三上10月月考)小张一星期的总开支分布如图①所示,一星期的食品开支如
图②所示,则以下说法正确的是( )
A. 储蓄金额为300元 B. 日常开支比食品中的其他开支多150元
C. 娱乐开支比通信开支多50元 D. 肉类开支占总开支的
2.(2021四川省资阳市高三第一次诊断)我国在2020年如期完成了新时代脱贫攻坚目标任务,脱贫攻坚
战取得全面胜利,历史性地解决了绝对贫困问题,并全面建成了小康社会.现就2013—2019年年末全国农
村贫困人口数进行了统计,制成如下散点图:
据此散点图,下面 个回归方程类型中最适宜作为年末贫困人数 和年份代码 的回归方程类型的是(
)
A. B. C. D.
3.(2021广东省部分学校高三上11月大联考)中国互联网络信息中心(CNNIC)发布了第46次《中国互联网络发展状况统计报告》,报告公布了截至2020年6月的中国互联网状况数据与对比数据,根据下图,
下面结论不正确的是( )
A. 2020年6月我国网民规模接近9.4亿,相比2020年3月新增网民3625万
B. 2020年6月我国互联网普及率达到67%,相比2020年3月增长2.5%
C. 2018年12月我国互联网普及率不到60%,经过半年后普及率超过60%
D. 2018年6月我国网民规模比2017年6月我国网民规模增加的百分比大于7%
4.(2021山西省长治市第八中学高三上阶段性测评)随着2022年北京冬奥会临近,中国冰雪产业快速发展,
冰雪运动人数快速上升,冰雪运动市场需求得到释放,将引领相关户外用品行业市场增长.下面是2013年
至2020年中国雪场滑雪人次(万人次)与同比增长率(与上一年相比)的统计情况,则下面结论中正确的
是( )
A.2013年至2020年,中国雪场滑雪人次的同比增长率逐年减少
B.2013年至2020年,中国雪场滑雪人次逐年增加
C.2013年至2020年,中国雪场滑雪人次的年增加量相近
D.2013年到2020年,中国雪场滑雪人次在2020年首次出现负增长
5.(2021河南省重点中学高三上模拟调研)茶叶源于中国,至今中国仍然是茶叶最大生产国,下图为
年全球主要茶叶生产国调查数据.年全球主要茶叶生产国产量分布
根据该图,下列结论中不正确的是( )
A. 年图中 个国家茶叶产量的中位数为
B. 年图中 个国家茶叶产量比 年增幅最大的是中国
C. 年图中 个国家茶叶总产量超过 年
D. 年中国茶叶产量超过其他 个国家之和
样本的数字特征
1.(2021江苏苏州模拟)高铁、扫码支付、共享单车、网购并称中国“新四大发明”,近日对全国100个城市的
共享单车和扫码支付的使用人数进行大数据分析,其中共享单车使用的人数分别为x,x,x,…,x ,
1 2 3 100
它们的平均数为 ,方差为s2;其中扫码支付使用的人数分别为3x+2,3x+2,3x+2,…,3x +2,
1 2 3 100
它们的平均数为 方差为s′2,则 s′2分别为( )
A.3 +2,3s2+2 B.3 ,3s2
C.3 +2,9s2 D.3 +2,9s2+22.(2021河南省湘豫名校联盟高三上11月联考)某校为了解学生体能素质,随机抽取了 名学生,进
行体能测试.并将这 名学生成绩整理得如下频率分布直方图.根据此频率分布直方图.下列结论中不正确的
是( )
A. 这 名学生中成绩在 内的人数占比为
B. 这 名学生中成绩在 内的人数有 人
C. 这 名学生成绩的中位数为
D. 这 名学生的平均成绩 (同一组中的数据用该组区间的中点值做代表)
线性回归方程
1.(多选题)(2021山东师范大学附中高三上期中)已知变量 , 之间的经验回归方程为
,且变量 , 的数据如表所示,则下列说法正确的是( )
6 8 10 12
6 3 2
A. 变量 , 之间呈正相关关系 B. 变量 , 之间呈负相关关系C. 的值等于5 D. 该回归直线必过点
2.(2021福建省宁德市高三上期中联考)某电子产品的成本价格由两部分组成,一是固定成本,二是可变
成本,为确定该产品的成本,进行5次试验,收集到的数据如表:
产品数x个 10 20 30 40 50
产品总成本(元) 62 68 81 89
由最小二乘法得到回归方程 ,则 =___________.
3.(“超级全能生”2022届高三全国卷地区11月联考)自动驾驶汽车依靠 、人工智能、视觉计算、雷达、
监控装置和全球定位系统协同合作,让电脑可以在没有任何人类主动的操作下,自动安全地操作机动车辆.
近年来全球汽车行业达成共识,认为自动驾驶代表了未来汽车行业的发展方向.实现自动驾驶是一个渐进过
程,国际通用的自动驾驶标准根据自动驾驶程度逐步提升可以分为 级. 级自动驾驶也是整个自动驾驶
技术的分水岭. 年全球 渗透率(%)统计表及散点图如下.
年份
渗透率(%)
(1)利用散点图判断, 和 (其中' , 为大于 的常数)哪一个更适合作为渗透率和年份 的回归方程模型(只要给出判断即可,不必说明理由);
(2)令 ,求 关于 的回归方程;
(3)根据(2)中回归模型回答下列问题:
(i)估计 年全球 渗透率是多少?
(ii)预计至少要到哪一年,全球 渗透率能超过 ?
附:回归直线 中斜率和截距的最小二乘估计公式为 ,
.
独立性检验
1.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到
“光盘”行动,得到列联表:
分
做不到“光盘” 能做到“光盘”
类
男 45 10
女 30 15
由此列联表得到 的正确结论是( )
的
A.在犯错误 概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”
C.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别有关”
D.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别无关”
2. 单位:人
数学成绩
学校 合计
不优秀 优秀甲校
乙校
合计
对列联表中的数据,依据 的独立性检验,我们已经知道独立性检验的结论是学校和成绩无关.如
果表中所有数据都扩大为原来的 倍,在相同的检验标准下,再用独立性检验推断学校和数学成绩之间的
关联性,结论还一样吗?请你试着解释其中的原因.
附:临界值表:
1.(2021年全国高考甲卷)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭
年收入的调查数据整理得到如下频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是( )
A. 该地农户家庭年收入低于4.5万元的农户比率估计为6%
B. 该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C. 估计该地农户家庭年收入的平均值不超过6.5万元D. 估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
2.(2020年全国统一高考(新课标Ⅰ))某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单
位:°C)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据 得到下面
的散点图:
由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类
型的是( )
A. B.
C. D.
3.(多选题)(2021年全国新高考Ⅰ卷)有一组样本数据 , ,…, ,由这组数据得到新样本数据
, ,…, ,其中 ( 为非零常数,则( )
A. 两组样本数据的样本平均数相同
B. 两组样本数据的样本中位数相同
C. 两组样本数据的样本标准差相同
D. 两组样本数据的样本极差相同
4.(2021年全国高考乙卷)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无
提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7
新设备 10.1 10.4 10.1 10.0 10.1 10.3 10.6 10.5 10.4 10.5
旧设备和新设备生产产品的该项指标的样本平均数分别记为 和 ,样本方差分别记为 和 .(1)求 , , , ;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果 ,则认为
新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).
5.(2021年全国高考甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两
台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:
0.050 0.010 0.001
k 3.841 6.635 10.8286.(2020年全国统一高考(新课标Ⅱ))某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有
所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽
样的方法抽取20个作为样区,调查得到样本数据(x,y)(i=1,2,…,20),其中x和y分别表示第i个样区
i i i i
的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得 , ,
, , .
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平
均数乘以地块数);
(2)求样本(x,y)(i=1,2,…,20)的相关系数(精确到0.01);
i i
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动
物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r= , ≈1.414.一、单选题
1.(2022·湖南岳阳·三模)已知一组数据: 的平均数是5,方差是4,则由 , ,
和 这四个数据组成的新数据组的方差是( )
A.16 B.14 C.12 D.11
2.(2022·辽宁辽阳·二模)为了解某地高三学生的期末语文考试成绩,研究人员随机抽取了100名学生对
其进行调查,根据所得数据制成如图所示的频率分布直方图,已知不低于90分为及格,则这100名学生期
末语文成绩的及格率为( )
A.40% B.50% C.60% D.65%
3.(2022·天津河北·二模)为了解中学生的身高情况,某部门随机抽取了某学校的学牛,将他们的身高数据(单位:cm)按[150,160),[160,170),[170,180),[180,190]分组,绘制成如图所示的频率分
布直方图,其中身高在区间[170,180)内的人数为300,身高在区间[160,170)内的人数为180,则a的
值为( )
A.0.03 B.0.3 C.0.035 D.0.35
4.(2022·天津一中模拟预测)某校随机抽取了400名学生进行成绩统计,发现抽取的学生的成绩都在50
分至100分之间,进行适当分组画出频率分布直方图如图所示,下列说法正确的是( )
A.直方图中x的值为0.040
B.在被抽取的学生中,成绩在区间 的学生数为30人
C.估计全校学生的平均成绩为84分
D.估计全校学生成绩的样本数据的80%分位数约为93分
二、多选题
5.(2022·山东日照·模拟预测)我国居民收入与经济同步增长,人民生活水平显著提高.“三农”工作重
心从脱贫攻坚转向全面推进乡村振兴,稳步实施乡村建设行动,为实现农村富强目标而努力,2017年
~2021年某市城镇居民、农村居民年人均可支配收入比上年增长率如下图所示,根据下面图表、下列说法一定正确的是( )
A.对于该市居民年人均可支配收入比上年增长率的极差,城镇比农村的小
B.该市农村居民年人均可支配收入高于城镇居民
C.对于该市居民年人均可支配收入比上年增长率的中位数,农村比城镇的大
D.2021年该市城镇居民、农村居民年人均可支配收入比2020年有所上升
6.(2022·湖南岳阳·三模)下列说法正确的是( )
A.线性回归方程 必过
B.设具有线性相关关系的两个变量x,y的相关系数为r,则 越接近于0,x和y之间的线性相关程度越
强
C.在一个 列联表中,由计算得 的值,则 的值越小,判断两个变量有关的把握越大
D.若 , ,则
7.(2022·重庆南开中学模拟预测)下列命题正确的是( )
A.若 且 ,则
B.对于随机事件A和B,若 ,则事件A与事件B独立
C.回归分析中,若相关指数 越接近于1,说明模型的拟合效果越好;反之,则模型的拟合效果越差
D.用等高条形图粗略估计两类变量X和Y的相关关系时,等高条形图差异明显,说明X与Y无关
8.(2022·湖北·荆门市龙泉中学一模)疫苗是为预防、控制传染病的发生、流行,用于人体预防接种的预
防性生物制品,其前期研发过程中,一般都会进行动物保护测试,为了考察某种疫苗预防效果,在进行动
物试验时,得到如下统计数据:
未发病 发 总计病
未注射疫苗 30
注射疫苗 40
总计 70 30 100
附表及公式:
0.05 0.01 0.005 0.001
3.841 6.635 7.879 10.828
, .
现从试验动物中任取一只,取得“注射疫苗”的概率为0.5,则下列判断正确的是( )A.注射疫苗发
病的动物数为10
B.某个发病的小动物为未注射疫苗动物的概率为
C.能在犯错概率不超过0.005的前提下,认为疫苗有效
D.该疫苗的有效率约为80%
三、填空题
9.(2022·福建龙岩·模拟预测)已知变量y关于x的回归方程为 ,若对 两边取自然对数,
可以发现 与x线性相关,现有一组数据如下表所示, 时,预测y值为___________.
x 1 2 3 4
y e
四、解答题
10.(2022·广东·普宁市华侨中学二模)某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,
已知土地的使用面积 与相应的管理时间 的关系如下表所示:
土地使用面积 (单位:亩)
管理时间 (单位:月)
调查了某村 名村民参与管理的意愿,得到的部分数据如下表所示;愿意参与管理 不愿意参与管理
男性村民
女性村民
(1)做出散点图,判断土地使用面积 与管理时间 是否线性相关;并根据相关系数 说明相关关系的强弱.
(若 ,认为两个变量有很强的线性相关性, 值精确到 ) .
(2)若以该村的村民的性别与参与管理意风的情况估计贫困县的情况,且每位村民参与管理的意互不影响,
则从该贫困县村民中任取 人,记取到不愿意参与管理的女性村民的人数为 ,求 的分布列及数学期望.
参考公式: 参考数据:
11.(2022·湖南·雅礼中学二模)“不关注分数,就是对学生的今天不负责:只关注分数,就是对学生的
未来不负责.”为锻炼学生的综合实践能力,长沙市某中学组织学生对雨花区一家奶茶店的营业情况进行调
查统计,得到的数据如下:
月份x 2 4 6 8 10 12
净利润(万元〕y 0.9 2.0 4.2 3.9 5.2 5.1
(1)设 .试建立y关于x的非线性回归方程 和 (保留2位有效数字);
(2)从相关系数的角度确定哪一个模型的拟合效果更好,并据此预测次年2月( )的净利润(保留
1位小数).
附:①相关系数 ,回归直线 中斜率和截距的最小二乘估计公式分别为 ;②参考数据:
,
12.(2022·重庆南开中学模拟预测)公众号“山城学术圈”根据统计局统计公报提供的数据,对我国
2015—2021年的国内生产总值GDP进行统计研究,做出如下2015—2021年GDP和GDP实际增长率的统
计图表.通过统计数据可以发现,GDP呈现逐年递增趋势.2020年,GDP增长率出现较明显降幅,但
GDP却首次突破100万亿.现统计人员选择线性回归模型,对年份代码x和年度实际GDP增长率 进
行回归分析.
年份 2015年 2016年 2017年 2018年 2019年 2020年 2021年
年度GDP(亿元) 688858.2 746395.1 832035.9 919281.1 986515.2 1015986.2 1143669.7
年份代码x 1 2 3 4 5 6 7
7.0 6.8 6.9 6.7 6.0 2.3 8.1
GDP实际增长率(1)用第1到第7年的数据得到年度实际GDP增长率 关于年份代码x的回归方程近似为:
,对该回归方程进行残差分析,得到下表,视残差 的绝对值超过1.5的数据为异常数据.
年份代码x 1 2 3 4 5 6 7
7.0 6.8 6.9 6.7 6.0 2.3 8.1
GDP实际增长率
6.98 6.50 6.26 6.02 5.54
GDP增长率估计值
0.02 0.40 0.74 -0.02 2.56
残差
将以上表格补充完整,指出GDP增长率出现异常数据的年份及异常现象,并根据所学统计学知识,结合
生活实际,推测GDP增长率出现异常的可能原因;
(2)剔除(1)中的异常数据,用最小二乘法求出回归方程: ,并据此预测数据异常年份的GDP增
长率.
附: ,13.(2022·辽宁·二模)第24届冬季奥林匹克运动会于2022年2月4日在北京开幕.吉祥物“冰墩墩”以
其可爱的外形迅速火爆出圈,其周边产品更是销售火热,甚至达到“一墩难求”的现象某购物网站为了解
人们购买“冰墩墩”的意愿,随机对90个用户(其中男30人,女60人)进行问卷调查,得到如下列联表
和条形图:
有购买 没有购
合计
意愿 买意愿
男
女
合计
如果从这90人中任意抽取1人,抽到“有购买意愿”的概率为 .
(1)完成上述 列联表,并回答是否有 的把握认为“购买意愿”与“性别”有关?
(2)若以这90个用户的样本的概率估计总体的概率,现再从该购物网站所有用户中,采用随机抽样的方法
每次抽取1名用户,抽取4次,记被抽取的4名用户对“冰墩墩”有购买意愿的人数为X,若每次抽取的
结果是相互独立的,写出X的分布列,并求期望和方差.
参考公式: ,其中 .
临界值表:
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.82814.(2022·福建福州·三模)某种疾病可分为 , 两种类型,为了解该疾病的类型与患者性别是否相关,
在某地区随机抽取了若干名该疾病的患者进行调查,发现女性患者人数是男性患者的2倍,男性患 型疾
病的人数占男性患者的 ,女性患 型疾病的人数占女性患者的 .
(1)若本次调查得出“在犯错误的概率不超过0.005的前提下认为‘所患疾病的类型’与‘性别’有关”的
结论,求被调查的男性患者至少有多少人?
(2)某团队进行预防 型疾病的疫苗的研发试验,试验期间至多安排2个周期接种疫苗,每人每个周期接种
3次,每次接种费用为 元.该团队研发的疫苗每次接种后产生抗体的概率为 ,如果一个
周期内至少2次出现抗体,则该周期结束后终止试验,否则进人第二个周期.若 ,试验人数为1000人,
试估计该试验用于接种疫苗的总费用.
,
0.10 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
15.(2022·辽宁·二模)某初中为了了解学生对消防安全知识的掌握情况,开展了网上消防安全知识考试.
对参加考试的男生、女生各随机抽查40人,根据考试成绩,得到如下列联表:
女
男生 合计
生
考试成绩合格 30 20 50
考试成绩不合
10 20 30
格合计 40 40 80
(1)根据上面的列联表,判断能否有95%的把握认为考试成绩是否合格与性别有关;
(2)在考试成绩不合格的30人中按性别利用分层抽样的方法随机抽取6人,再从这6人中随机抽取3人,记
这3人中男生的人数为X,求X的分布列和数学期望.
附 ,其中 .
0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828