文档内容
第 02 讲 成对数据的统计分析
目录
01 模拟基础练......................................................................................................................................2
题型一:变量间的相关关系................................................................................................................2
题型二:一元线性回归模型................................................................................................................3
题型三:非线性回归............................................................................................................................5
题型四:列联表与独立性检验............................................................................................................7
题型五:误差分析..............................................................................................................................10
02 重难创新练....................................................................................................................................13
03 真题实战练....................................................................................................................................21题型一:变量间的相关关系
1.对四组数据进行统计,获得如图散点图,关于其相关系数的比较,正确的是( )
A. B.
C. D.
2.(2024·上海·三模)上海百联集团对旗下若干门店的营业额与三个影响因素分别作了相关性分析,绘制
了如下的散点图,则下述大小关系正确的为( ).
A. B. C. D.
3.观察下列散点图,其中两个变量的相关关系判断正确的是( )A.a为正相关,b为负相关,c为不相关 B.a为负相关,b为不相关,c为正相关
C.a为负相关,b为正相关,c为不相关 D.a为正相关,b为不相关,c为负相关
4.(2024·四川凉山·三模)调查某校高三学生的身高 和体重 得到如图所示散点图,其中身高 和体重
相关系数 ,则下列说法正确的是( )
A.学生身高和体重没有相关性
B.学生身高和体重呈正相关
C.学生身高和体重呈负相关
D.若从样本中抽取一部分,则这部分的相关系数一定是
题型二:一元线性回归模型
5.在2024年8月8日召开的中国操作系统产业大会上,国产操作系统银河麒麟发布了首个人工智能版本,
该系统通过多项技术创新实现了人工智能与操作系统的深度融合,可广泛应用于自动驾驶、医疗健康、教育
等多个领域,标志着中国在自主操作系统领域实现新突破.某新能源车企采用随机调查的方式并统计发现市
面上可以实现自动驾驶的新能源汽车上可为乘客提供的功能数目 与汽车上所安装的人工智能芯片个数
线性相关,且根据样本点 求得的回归直线方程为 ,若 在回归直线上,
则 .
6.(2024·江西·一模)已知变量y与x线性相关,由样本点 求得的回归方程为
,若点 在回归直线上,且 , ,则 .
7.题图所示是某地2014年至2020年生活垃圾无害化处理量(单位:万吨)的折线图.注:年份代码1~7分别对应年份2014~2020.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以证明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2022年某地生活垃圾无害化处理量.
附注:
参考数据: , , , .
参考公式:相关系数 ,回归方程 中斜率和截距的最小二乘法估计公式
分别为 , .
8.(2024·高三·重庆·开学考试)传统燃油汽车与新能源汽车相比,有着明显的缺点:如传统燃油汽车在
行驶过程中会产生尾气排放和噪音污染,环保性能较差、能源效力较低等我国近几年着重强调可持续发展,
加大在新能源项目的支持力度,积极推动新能源汽车产业迅速发展某汽车制造企业对某地区新能源汽车的
销售情况进行调查,得到下面的统计表.
202
年份t 2019 2020 2022 2023
1
年份代码 1 2 3 4 5
销量y(万辆) 11 13 18 21 27
(1)统计表明销量y与年份代码x有较强的线性相关关系,求y关于x的线性同归方程,并预测该地区新能
源汽车的销量最早在哪一年能突破50万辆;
(2)该企业随机调查了该地区2023年的购车情况.据调查,该地区2023年购置新能源汽车与传统燃油汽车
的人数的比例大约为 .从被调查的2023年所有车主中按分层抽样抽取12人,再从12人中随机抽取3人,记这3人中购置新能源汽车的人数为X,求X的分布列和期望.
参考公式:
对于一组数据 ,其回归直线 中斜率和截距的最小二乘估计公式分别为:
.
题型三:非线性回归
9.(2024·四川内江·模拟预测)当前,人工智能技术以前所未有的速度迅猛发展,并逐步影响生活的方方
面面,人工智能被认为是推动未来社会发展和解决人类面临的全球性问题的重要手段.某公司在这个领域逐
年加大投入,以下是近年来该公司对产品研发年投入额 (单位:百万元)与其年销售量 (单位:千
件)的数据统计表.
(百万) 1 2 3 4 5
(千
0.5 1 1.5 3 5.5
件)
(1)若该公司科研团队计划用方案① 作为年销售量 关于年投资额 的回归分
析模型,请根据统计表的数据及参考公式,确定该经验回归方程;
(2)若该公司科研团队计划用方案② 作为年销售量 关于年投资额 的回归分析模型,
的残差平方和 ,请根据统计表的数据及参考公式,比较两种模型的拟合效
果哪种更好?并选择拟合精度更高的模型,预测年投入额为6百万元时,产品的销售量约为多少?(计算
结果保留到小数点后两位)
参考公式及数据: ,10.红铃虫是棉花的主要害虫之一,能对农作物造成严重伤害.每只红铃虫的平均产卵数y(个)和平均温
度x(℃)有关,现收集了7组数据,得到下面的散点图及一些统计量的值.
(1)根据散点图判断, 与 (其中e为自然对数的底数)哪一个更适合作为平均产卵数y
(个)关于平均温度 (℃)的回归方程类型?(给出判断即可,不必说明理由)并由判断结果及表中数据,
求出 关于 的回归方程;
附:回归方程 中, .
参考数据
5215 2347.3 33.6 27 81.3 3.6
(2)现在有10根棉花纤维,其中有6根为长纤维,4根为短纤维,从中随机抽取3根棉花纤维,设抽到的长
纤维棉花的根数为X,求X的分布列.
11.(2024·山东济南·三模)近年来,我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新,
利润稳步提高.统计该企业2019年至2023年的利润(单位:亿元),得到如图所示的散点图.其中2019
年至2023年对应的年份代码依次为1,2,3,4,5.(1)根据散点图判断, 和 哪一个适宜作为企业利润y(单位:亿元)关于年份代码x的回
归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)中的判断结果,建立y关于x的回归方程;
(3)根据(2)的结果,估计2024年的企业利润.
参考公式及数据;
, ,
, , , ,
题型四:列联表与独立性检验
12.为了增强学生的身体素质,提高适应自然环境、克服困难的能力,某校在课外活动中新增了一项登山
活动,并对“学生喜欢登山和性别是否有关”做了一次调查,其中被调查的男女生人数相同,得到如图所
示的等高条形统计图,则下列说法中正确的有 .
①被调查的学生中喜欢登山的男生人数比喜欢登山的女生人数多
②被调查的女生中喜欢登山的人数比不喜欢登山的人数多
③若被调查的男女生均为100人,则可以认为喜欢登山和性别有关④无论被调查的男女生人数为多少,都可以认为喜欢登山和性别有关
13.观察下面频率等高条形图,其中两个分类变量x,y之间的随机变量 的观测值最小的是( )
A. B.
C. D.
14.为了检测某种抗病毒疫苗的免疫效果,需要进行动物与人体试验.研究人员将疫苗注射到200只小白鼠
体内,一段时间后测量小白鼠的某项指标值,按 分组,绘制频率分
布直方图如图所示.试验发现小白鼠体内产生抗体的共有160只,其中该项指标值不小于60的有110只.假
设小白鼠注射疫苗后是否产生抗体相互独立.
(1)填写下面的 列联表,并根据列联表及 的独立性检验,判断能否认为注射疫苗后小白鼠产生
抗体与指标值不小于60有关;
单位:只
指标值
抗体 合计
小于60 不小于60
有抗体
没有抗
体
合计(2)为检验疫苗二次接种的免疫抗体性,对第一次注射疫苗后没有产生抗体的40只小白鼠进行第二次注射
疫苗,结果又有20只小白鼠产生抗体.
(i)用频率估计概率,求一只小白鼠注射2次疫苗后产生抗体的概率 ;
(ii)以(i)中确定的概率 作为人体注射2次疫苗后产生抗体的概率,进行人体接种试验,记100个人
注射2次疫苗后产生抗体的数量为随机变量 .求 及 取最大值时的 值.
参考公式: (其中 为样本容量)
参考数据:
0.100 0.050 0.010 0.005
2.706 3.841 6.635 7.879
15.某市销售商为了解A、B两款手机的款式与购买者性别之间是否有关系,对一些购买者做了问卷调查,
得到 列联表如表所示:
购买A款 购买B款 总计
女 25 20 45
男 15 40 55
总计 40 60 100
(1)根据小概率之值 的独立检验,能否认为购买手机款式与性别有关?
(2)用购买每款手机的频率估计一个顾客购买该款手机的概率,从所有购买两款手机的人中,选出3人作为
幸运顾客,记3人中购买 款手机的人数为 ,求 的分布列与数学期望.
参考公式: (其中 ).临界值表:
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
16.树德中学为了调查中学生周末回家使用智能手机玩耍网络游戏情况,学校德育处随机选取高一年级中
的100名男同学和100名女同学进行无记名问卷调查.问卷调查中设置了两个问题:①你是否为男生?②你是否使用智能手机玩耍网络游戏?
调查分两个环节:
第一个环节:先确定回答哪一个问题,让被调查的200名同学从装有3个白球,3个黑球(除颜色外完全相
同)的袋子中随机摸取两个球,摸到同色两球的学生如实回答第一个问题,摸到异色两球的学生如实回答第
二个问题;
第二个环节:再填写问卷(只填“是”与“否”).
回收全部问卷,经统计问卷中共有70张答案为“是”.
(1)根据以上的调查结果,利用你所学的知识,估计该校中学生使用智能手机玩耍网络游戏的概率;
(2)据核查以上的200名学生中有30名男学生使用智能手机玩耍网络游戏,按照(1)中的概率计算,依据小
概率值α=0.15的独立性检验,能否认为中学生使用智能手机玩耍网络游戏与性别有关联;若有关联,请解
释所得结论的实际含义.
参考公式和数据如下: .
α 0.15 0.10 0.05 0.025 0.005
xα 2.072 2.706 3.841 5.024 7.879
题型五:误差分析
17.在建立两个变量 与 的回归模型时,分别选择了4个不同的模型,模型1、2、3、4的决定系数
依次为0.20,0.48,0.96,0.85,则其中拟合效果最好的模型是( )
A.模型1 B.模型2 C.模型3 D.模型4
18.已知一系列样本点 的一个经验回归方程为 ,若样本点 的残差为2,
则 ( ).
A. B.1 C. D.5
19.(2024·广西贵港·模拟预测)下列说法中错误的是( )
A.独立性检验的本质是比较观测值与期望值之间的差异
B.两个变量x,y的相关系数为r,若 越接近1,则x与y之间的线性相关程度越强
C.若一组样本数据 ( )的样本点都在直线 上,则这组数据的相关系
数r为0.98
D.由一组样本数据 ( )求得的回归直线方程为 ,设 ,则
20.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的决定系数 如下,其中拟合效果最
好的模型是( )
A.模型1(决定系数 为0.97) B.模型2(决定系数 为0.85)
C.模型3(决定系数 为0.40) D.模型4(决定系数 为0.25)
21.(2024·山东·一模)相关变量 的散点图如图所示,现对这两个变量进行线性相关分析,方案一:
根据图中所有数据,得到线性回归方程 ,相关系数为 ;方案二:剔除点 ,根据剩下数
据得到线性回归直线方程: ,相关系数为 .则( )
A.
B.
C.
D.
22.(2024·四川·模拟预测)下表是某工厂记录的一个反应器投料后,连续8天每天某种气体的生成量
(L):
日期代码x 1 2 3 4 5 6 7 8
3 9
生成的气体y(L) 4 8 16 51 71 122
1 7
为了分析该气体生成量变化趋势、工厂分别用两种模型:① ,② 对变量x和y的关系
进行拟合,得到相应的回归方程并进行残差分析,残差图如下:
注:残差 :经计算得 , , ,
,其中 ,(1)根据残差图、比较模型①,模型②的拟合效果,应该选择哪个模型?并简要说明理由;
(2)根据(1)问选定的模型求出相应的回归方程(系数均保留两位小数);
(3)若在第8天要根据(2)问求出的回归方程来对该气体生成量做出预测,那么估计第9天该气体生成量
是多少?(精确到个位)
附:回归直线的斜率和截距的最小二乘估计公式分别为: , .
23.(2024·河北唐山·三模)据统计,某城市居民年收入(所有居民在一年内收入的总和,单位:亿元)
与某类商品销售额(单位:亿元)的10年数据如下表所示:
第 年 1 2 3 4 5 6 7 8 9 10
居民年收入 32.2 31.1 32.9 35.7 37.1 38.0 39.0 43.0 44.6 46.0
商品销售额 25.0 30.0 34.0 37.0 39.0 41.0 42.0 44.0 48.0 51.0
依据表格数据,得到下面一些统计量的值.
379.6 391 247.624 568.9
(1)根据表中数据,得到样本相关系数 .以此推断, 与 的线性相关程度是否很强?
(2)根据统计量的值与样本相关系数 ,建立 关于 的经验回归方程(系数精确到0.01);
(3)根据(2)的经验回归方程,计算第1个样本点 对应的残差(精确到0.01);并判断若剔除
这个样本点再进行回归分析, 的值将变大还是变小?(不必说明理由,直接判断即可).
附:样本 的相关系数 ,, , .
1.中华人民共和国体育代表团参加夏季奥运会以来,中国健儿们不断取得好成绩,到今天成长为体育大
国,从2000年以来,金牌情况统计如下(不含中国香港、中国台湾):
中国体育代表团夏季奥运会获得金牌数
届数 第27届 第28届 第29届 第30届 第31届 第32届
届数代码 1 2 3 4 5 6
2000年 2004年 2008年 2012年 2016年 2021年
地点
悉尼 雅典 北京 伦敦 里约热内卢 东京
金牌数
28 32 48 38 26 38
根据以上数据,建立 关于 的线性回归方程,若不考虑其他因素,根据回归方程预测第33届(2024年巴
黎奥运会)中国体育代表团金牌总数为( )
( 精确到0.01,金牌数精确到1,参考数据: );参考公式:
回归方程 中斜率和截距的最小二乘估计公式分别为: .
A.29 B.33 C.37 D.45
2.某运动制衣品牌为了使成衣尺寸更精准,现选择15名志愿者,对其身高和臂展进行测量(单位: ),
图①为选取的15名志愿者身高与臂展的折线图,图②为身高 与臂展 所对应的散点图,并求得其回
归直线方程为 ,则下列结论中不正确的为( )A.15名志愿者身高的极差小于臂展的极差
B.15名志愿者身高和臂展成正相关关系
C.可估计身高为 的人臂展大约为
D.身高相差 的两人臂展都相差
3.(2024·高三·上海·单元测试)下图是某地区2010年至2019年污染天数 (单位:天)与年份 的折线
图.根据2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据分别建立线性回归模
型 , , ,则( )
A. , B. ,
C. , D. ,
4.在研究变量 与 之间的相关关系时,进行实验后得到了一组样本数据 , ,…, ,
,利用此样本数据求得的经验回归方程为 ,现发现数据 误差较大,剔除这对数
据后,求得的经验回归方程为 ,且 ,则 ( )
A.13.5 B.14 C.14.5 D.15
5.(2024·湖南邵阳·三模)某学习小组对一组数据 进行回归分析,甲同学首先求出
回归直线方程 ,样本点的中心为 .乙同学对甲的计算过程进行检查,发现甲将数据 误
输成 ,将这两个数据修正后得到回归直线方程 ,则实数 ( )A. B. C. D.
6.为考察两个变量 , 的相关性,搜集数据如表,则两个变量的线性相关程度( )
5 10 15 20 25
10
103 110 111 114
5
(参考数据: , , )
A.很强 B.很弱 C.无相关 D.不确定
7.(2024·高三·上海·课堂例题)为了调查各参赛人员对主办方的满意程度,研究人员随机抽取了500名参
赛运动员进行调查,所得数据如下表所示,现有如下说法:①在参与调查的500名运动员中任取1人,抽
到对主办方表示满意的男性运动员的概率为 ;②在犯错误的概率不超过 的前提下可以认为“是否对
主办方表示满意与运动员的性别有关”;③没有 的把握认为“是否对主办方表示满意与运动员的性
别有关”;则正确命题的个数为( )
男性运动员(人) 女性运动员(人)
对主办方表示满意 200 220
对主办方表示不满意 50 30
注:
0.600 0.050 0.010 0.001
2.706 3.841 6.635 10.828
A.0 B.1 C.2 D.3
8.(2024·福建宁德·三模)2024海峓两岸各民族欢度“三月三”暨福籽同心爱中华 福建省第十一届“三
月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,
畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入
口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据 ,其中 为第 次
入口人流量数据(单位:百人),由此得到 关于 的回归方程 .已知 ,根据回归方
程(参考数据: ),可顶测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.3 D.12.0
9.(多选题)现统计具有线性相关关系的变量X,Y,Z的n组数据,如下表所示:
变
1 2 3 … n 平均数 方差
量X …
Y …
Z …
并对它们进行相关性分析,得到 ,Z与 的相关系数是 , ,Z与Y的相关系数是
,则下列判断正确的是( )
附:经验回归方程 中斜率和截距的最小二乘估计公式分别为 , ,
相关系数 .
A. B.
C. D.
10.(多选题)(2024·高三·河北保定·开学考试)某机构抽样调查一批零件的尺寸 和质量 ,得到样本
数据 ,并计算得该批零件尺寸和质量的平均值分别为3和60,方差分别为4和400,
且 .则( )(参考公式:相关系数 .回归直战的方程是:
,其中 )
A.样本数据的相关系数为
B.样本数据 关于 的经验回归方程为
C.样本数据所得回归直线的残差平方和为0
D.若数据 均满足正态分布,则估计
11.(多选题)(2024·福建泉州·一模)为了研究青少年长时间玩手机与近视率的关系,现从某校随机抽
查600名学生,经调查,其中有 的学生近视,有 的学生每天玩手机超过1小时,玩手机超过1小
时的学生的近视率为 .用频率估计概率,则( )
(附: ,其中 .)0.10 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
A.如果抽查的一名学生近视,则他每天玩手机超过1小时的概率为
B.如果抽查的一名学生玩手机不超过1小时,则他近视的概率为
C.根据小概率值 的独立性检验,可认为每天玩手机超过1小时会影响视力
D.从该校抽查10位学生,每天玩手机超过1小时且近视的人数的期望为5
12.随着工业化以及城市车辆的增加,城市的空气污染越来越严重,空气质量指数API一直居高不下,对
人体的呼吸系统造成了的严重的影响.现调查了某市500名居民的工作场所和呼吸系统健康状况,得到
列联表如下,则 .(结果精确到0.001)
室内工
室外工作 总计
作
有呼吸系统疾病 150
无呼吸系统疾病 100
总计 200
13.(2024·重庆·三模)对具有线性相关关系的变量 有一组观测数据 ,
其经验回归方程 ,则在样本点 处的残差为 .
14.我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国
家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了了解年研发资金投入额 (单位:
亿元)对年盈利额 (单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近10年年研
发资金投入额 和年盈利额 的数据.通过对比分析,建立了两个函数模型:① ,② ,
其中 , , , 均为常数, 为自然对数的底数.令 , ,经计算得如下数据:
26 215 65 2 680 5.36
11250 130 2.6 12
请从相关系数的角度分析,模型拟合程度更好是 ;利用模型拟合程度更好的模型以及表中数
据,建立 关于 的回归方程为 ;(系数精确到0.01)附:①相关系数 ,回归直线 中: ,
15.(2024·高三·上海·开学考试)为了缓解高三学生学业压力,学校开展健美操活动,高三某班文艺委员
调查班级学生是否愿意参加健美操,得到如下的 列联表.
愿
性别 不愿意
意
男生 6 10
女生 18 6
(1)根据该 列联表,并依据显著水平 的独立性检验,判断能否认为“学生性别与是否愿意参加
健美操有关”;
(2)在愿意参加的所有学生中,根据性别,分层抽样选取8位学生组织班级健美操队,并从中随机选取2人
作为领队,记这2人中女生人数为随机变量 ,求 的分布及期望 .
附: .
16.(2024·高三·广西贵港·开学考试)为了研究学生的性别和是否喜欢跳绳的关联性,随机调查了某中学
的100名学生,整理得到如下列联表:
女学
男学生 合计
生
喜欢跳绳 35 35 70
不喜欢跳绳 10 20 30
合计 45 55 100
(1)依据 的独立性检验,能否认为学生的性别和是否喜欢跳绳有关联?
(2)已知该校学生每分钟的跳绳个数 ,该校学生经过训练后,跳绳个数都有明显进步.假设经
过训练后每人每分钟的跳绳个数都增加10,该校有1000名学生,预估经过训练后该校每分钟的跳绳个数
在 内的人数(结果精确到整数).
附: ,其中 .0.1 0.05 0.01
2.706 3.841 6.635
若 ,则 ,
.
17.为了了解高中学生课后自主学习数学时间(x分钟/每天)和他们的数学成绩(y分)的关系,某实验
小组做了调查,得到一些数据(表一).
编号 1 2 3 4 5
3 6
学习时间x 40 50 70
0 0
6 9
数学成绩y 78 85 108
5 9
(1)求数学成绩 与学习时间 的相关系数(精确到0.001);
(2)请用相关系数说明该组数据中 与 之间的关系可用线性回归模型进行拟合,并求出 关于 的回归直
线方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩(参考数据:
, 的方差为200);
(3)基于上述调查,某校提倡学生周末在校自主学习.经过一学期的实施后,抽样调查了220位学生.按照是
否参与周末在校自主学习以及成绩是否有进步统计,得到 列联表(表二).依据表中数据及小概率值
的独立性检验,分析“周末在校自主学习与成绩进步”是否有关.
没有进步 有进步 合计
参与周末在校自主学习 35 130 165
未参与周末不在校自主学习 25 30 55
合计 60 160 220
附:方差: 相关系数:回归方程 中斜率和截距的最小二乘估计公式分别为 , ,
.
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
18.(2024·河北秦皇岛·三模)将保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中
15个区域进行编号,统计抽取到的每个区域的某种水源指标 和区域内该植物分布的数量 ,
得到数组 .已知 , , .
(1)求样本 的样本相关系数;
(2)假设该植物的寿命为随机变量 ( 可取任意正整数),研究人员统计大量数据后发现,对于任意的
,寿命为 的样本在寿命超过 的样本里的数量占比与寿命为1的样本在全体样本中的数量占比
相同,均为0.1,这种现象被称为“几何分布的无记忆性”.
(i)求 的表达式;
(ii)推导该植物寿命期望 的值(用 表示, 取遍 ),并求当 足够大时, 的值.
附:样本相关系数 ;当 足够大时, .
19.(2024·黑龙江哈尔滨·模拟预测)2024年初,冰城哈尔滨充分利用得天独厚的冰雪资源,成为2024年
第一个“火出圈”的网红城市,冰城通过创新营销展示了丰富的文化活动,成功提升了吸引力和知名度,
为其他旅游城市提供了宝贵经验,从2024年1月1日至5日,哈尔滨太平国际机场接待外地游客数量如下:
(日) 1 2 3 4 56
(万人) 45 50 65 80
0
(1)计算 的相关系数 (计算结果精确到0.01),并判断是否可以认为日期与游客人数的相关性很强;
(2)请根据上表提供的数据,用最小二乘法求出 关于 的线性回归方程;
(3)为了吸引游客,在冰雪大世界售票处针对各个旅游团进行了现场抽奖的活动,具体抽奖规则为:从该旅
游团中随机同时抽取两名游客,两名游客性别不同则为中奖.已知某个旅游团中有5个男游客和
个女游客,设重复进行三次抽奖中恰有一次中奖的概率为 ,当 取多少时, 最大?
参考公式: , , ,
参考数据: .
1.(2024年上海秋季高考数学真题)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区
29000名学生中抽取580人,得到日均体育锻炼时长与学业成绩的数据如下表所示:
时间范围学业成绩
优秀 5 44 42 3 1
不优秀 134 147 137 40 27
(1)该地区29000名学生中体育锻炼时长不少于1小时人数约为多少?
(2)估计该地区初中学生日均体育锻炼的时长(精确到0.1)
(3)是否有 的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关?
(附: 其中 , .)2.某(2024年高考全国甲卷数学(理)真题)工厂进行生产线智能化升级改造,升级改造后,从该工厂
甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1)填写如下列联表:
优级品 非优级品
甲车
间
乙车
间
能否有 的把握认为甲、乙两车间产品的优级品率存在差异?能否有 的把握认为甲,乙两车间产品
的优级品率存在差异?
(2)已知升级改造前该工厂产品的优级品率 ,设 为升级改造后抽取的n件产品的优级品率.如果
,则认为该工厂产品的优级品率提高了,根据抽取的150件产品的数据,能否认为生
产线智能化升级改造后,该工厂产品的优级品率提高了?( )
附:
0.050 0.010 0.001
k 3.841 6.635 10.828
3.(2022年高考全国甲卷数学(文)真题)甲、乙两城之间的长途客车均由A和B两家公司运营,为了
解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数 未准点班次数
A 240 20B 210 30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附: ,
0.100 0.050 0.010
2.706 3.841 6.635
4.(2022年新高考全国I卷数学真题)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯
(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),
同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良
良好
好
病例组 40 60
对照组 10 90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该
疾病”. 与 的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标
为R.
(ⅰ)证明: ;
(ⅱ)利用该调查数据,给出 的估计值,并利用(ⅰ)的结果给出R的估计值.
附 ,
0.050 0.010 0.001
k 3.841 6.635 10.8285.(2021年全国高考甲卷数学(理)试题)甲、乙两台机床生产同种产品,产品按质量分为一级品和二
级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级
二级品 合计
品
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:
0.050 0.010 0.001
k 3.841 6.635 10.828
6.(2020年全国统一高考数学试卷(理科)(新课标Ⅲ))某学生兴趣小组随机调查了某市100天中每
天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次空气质量等
[0,200] (200,400] (400,600]
级
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称
这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握
认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次
人次>400
≤400
空气质量好
空气质量不好
附: ,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
7.(2020年全国统一高考数学试卷(文科)(新课标Ⅱ))某沙漠地区经过治理,生态系统得到很大改
善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些
地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和
yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得 ,
, , , .
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平
均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动
物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r= , ≈1.414.