文档内容
8.5 统计案例(精讲)(提升版)
思维导图考点呈现
例题剖析
考点一 独立性检验
【例1】(2022·吉林·梅河口市第五中学高三开学考试)某中学准备组建“文科”兴趣特长社团,由课外活
动小组对高一学生进行了问卷调查,问卷共 100道题,每题1分,总分100分,该课外活动小组随机抽取
了100名学生的问卷成绩(单位:分)进行统计,将数据按照 分成5
组,绘制的频率分布直方图如图所示,若将不低于60分的称为“文科方向”学生,低于60分的称为“理
科方向”学生.
(1)根据已知条件完成下面2×2列联表,并据此判断是否有99.5%的把握认为 “文科方向”与性别有关?
文科方
理科方向 总计
向男 40
女 45
总计 100
(2)将频率视为概率,现在从该校高一学生中用随机抽样的方法每次抽取1人,共抽取4次,记被抽取的4
人中“文科方向”的人数为 ,若每次抽取的结果是相互独立的,求 的分布列和数学期望.
参考公式: ,其中 .
参考临界值:
【答案】(1)列联表答案见解析,有 的把握认为 “文科方向”与性别有关
(2)分布列答案见解析,数学期望
【解析】(1)由题意可得分数在 之间的学生人数为 (名),
在 之间的学生人数为 (名),所以低于60分的学生人数为
(名).
所以 列联表如下:
文科方
理科方向 总计
向
男 40 15 55
女 20 25 45
总计 60 40 100
所以 ,所以有 的把握认为“文科方向”与性别有关.
(2)易知从该校高一学生中随机抽取1人,则该人为“文科方向”的概率为 .的所有可能取值为 ,所以
, ,
所以 的分布列为:
0 1 2 3 4
所以 .
【一隅三反】
1.(2022·白山模拟)十三届全国人大四次会议表决通过了关于国民经济和社会发展第十四个五年规划和
2035年远景目标纲要的决议,决定批准这个规划纲要,纲要指出:“加强原创性引领性科技攻关”.某企
业集中科研骨干,攻克系列“卡脖子”技术,已成功实现离子注入机全谱系产品国产化,包括中束流、大
束流、高能、特种应用及第三代半导体等离子注入机,工艺段覆盖至28nm,为我国芯片制造产业链补上
重要一环,为全球芯片制造企业提供离子注入机一站式解决方案.此次技术的突破可以说为国产芯片的制
造做出了重大贡献.该企业使用新技术对某款芯片进行试生产,在试产初期,生产一件该款芯片有三道工
序,每道工序的生产互不影响,这三道工序的次品率分别为 , , .
附: , .
0.050 0.010 0.005 0.001
3.841 6.635 7.879 10.828
(1)①求生产一件该芯片的次品率 .②试产100件该芯片,估计次品件数 的期望.
(2)某手机生产厂商将该款芯片投入到某新款手机上使用,并对部分芯片做了技术改良,推出了两种型
号的手机,甲型号手机采用没有改良的芯片,乙型号手机采用改良了的芯片,现对使用这两种型号的手机
用户进行回访,就他们对开机速度进行满意度调查.据统计,回访的100名用户中,使用甲型号手机的有
30人,其中对开机速度满意的有15人;使用乙型号手机的有70人,其中对开机速度满意的有55人.完成下列 列联表,并判断是否有99.5%的把握认为该项技术改良与用户对开机速度的满意度有关.
甲型号 乙型号 合计
满意
不满意
合计
【答案】见解析
【解析】(1)解:①因为生产一件芯片为次品的对立事件为“芯片在三道工序中都为合格品”,
所以 .
②生产的100件该款芯片中次品的件数 ,则 ,
所以 ,所以估计试产的100件该芯片中次品有15件.
(2)解: 列联表如下:
甲型号 乙型号 合计
满意 15 55 70
不满意 15 15 30
合计 30 70 100
因为 ,
所以有99.5%的把握认为该项技术改良与用户对开机速度满意度有关.
2.(2022·陕西咸阳·三模(理))2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗
产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.
为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟
踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元
的企业占 ,统计后得到如下 列联表:
销售额不少于30万元 销售额不足30万元 合计线上销售时间不少于8小时 17 20
线上销售时间不足8小时
合计 45
(1)请完成上面的 列联表,能否有99%的把握认为赞助企业每天的销售额与每天线上销售时间有关?
(2)按销售额在上述赞助企业中采用分层抽样方法抽取5家企业.在销售额不足30万元的企业中抽取时,
记“抽到线上销售时间不少于8小时的企业数”为X,求X的分布列和数学期望.
附:
0.050 0.010 0.001
3.841 6.635 10.828
参考公式: ,其中 .
【答案】(1)表格见解析,有99%的把握认为赞助企业每天的销售额与每天的线上销售时间有关.
(2)分布列见解析,
【解析】(1)解:由题意,可得下面的 列联表:
销售额不少于30万元 销售额不足30万元 合计
线上销售时间不少于8小时 17 3 20
线上销售时间不足8小时 10 15 25
合计 27 18 45
根据上面的列联表得 ,
故有99%的把握认为赞助企业每天的销售额与每天的线上销售时间有关.
(2)解:企业总数为45,样本容量与总体容量之比为 ,
所以从销售额不少于30万元、销售额不足30万元的企业中应分别抽取的企业个数为3、2,则随机变量
的可能取值为0,1,2,
可得 , , ,
所以随机变量 的分布列为:X 0 1 2
P
所以数学期望 .
考点二 线性回归方程
【例2-1】(2022·齐齐哈尔模拟)某单位为了解夏季用电量与月份的关系,对本单位2021年5月份到
8月份的日平均用电量y(单位:千度)进行了统计分析,得出下表数据:
月份(x) 5 6 7 8
日平均用电量(y) 1.9 3.4 t 7.1
若y与x线性相关,且求得其线性回归方程 ,则表中t的值为( )
A.5.8 B.5.6 C.5.4 D.5.2
【答案】B
【解析】由表格中的数据可得 , ,
将点 代入回归直线方程得 ,解得 。
故答案为:B.
【例2-2】(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这
是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村
振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在
平台试销,得到如下数据:
单价 (元/件) 8 8.2 8.4 8.6 8.8 9
销量 (万件) 90 84 83 80 75 68
附:参考公式:回归方程 ,其中 , .参考数据: , .
(1)(i)根据以上数据,求 关于 的线性回归方程;
(ii)若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.
(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后
的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产
品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满
意的人数为随机变量 ,求随机变量 的分布列和数学期望.(视频率为相应事件发生的概率)
【答案】见解析
【解析】(1)解:i) ,
,
∴ .
∴ ,
∴回归直线方程为 .
(ii)设工厂获得的利润为 万元,
则 ,
∴该产品的单价定为9.75元时,工厂获得利润最大,最大利润为151.25万元
(2)解:由题设可知对价格满意的频率为 ,基本满意和不满意的频率为 ,
随机变量 , ,
随机变量 的分布列如下表:0 1 2 3 4
随机变量 的数学期望为
【一隅三反】
1.(2022·安徽三模)对某位同学5次体育测试的成绩(单位:分)进行统计得到如下表格:
第x次 1 2 3 4 5
测试成绩y 39 40 48 48 50
根据上表,可得y关于x的线性回归方程为 ,下列结论不正确的是( )
A.
B.这5次测试成绩的方差为20.8
C.y与x的线性相关系数
D.预测第6次体育测试的成绩约为54
【答案】C
【解析】由已知 , ,
所以这5次测试成绩的方差为 ,
B正确,
又y关于x的线性回归方程为 ,点 在直线 上,
所以 ,所以 ,所以 ,
取 可得, ,所以A,D对,
因为 ,所以 与 成正相关关系,故相关系数 ,C错,
故答案为:C.2.(2022·安徽模拟)新冠疫情期间,口罩的消耗量日益增加,某药店出于口罩进货量的考虑,连续9
天统计了第 天的口罩的销售量 (百件),得到的数据如下: ,
.
参考公式:相关系数 ;对于一组具有线性相关关系的数据
,其回归直线 的斜率和截距的最小二乘估计分别为
(1)若用线性回归模型 拟合y与x之间的关系,求该回归直线的方程;
(2)统计学家甲认为用(1)中的线性回归模型(下面简称模型1)进行拟合,不够精确,于是尝试
使用非线性模型(下面简称模型2)得到 与 之间的关系,且模型2的相关系数 ,试通
过计算说明模型1,2中,哪一个模型的拟合效果更好.
【答案】见解析
【解析】(1)解:
由题意得, ,,
故所求回归直线的方程为 ;
(2)解:模型1的相关系数
故模型2的拟合性更好.
3.(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是
21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡
村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的
单价在平台试销,得到如下数据:
单价 (元/件) 8 8.2 8.4 8.6 8.8 9
销量 (万件) 90 84 83 80 75 68
附:参考公式:回归方程 ,其中 , .
参考数据: , .
(1)(i)根据以上数据,求 关于 的线性回归方程;
(ii)若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.
(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了
解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取
的4人中对价格满意的人数为随机变量 ,求随机变量 的分布列和数学期望.(视频率为相应事件
发生的概率)
【答案】见解析
【解析】(1)解:i) ,
,
∴ .
∴ ,
∴回归直线方程为 .
(ii)设工厂获得的利润为 万元,
则 ,
∴该产品的单价定为9.75元时,工厂获得利润最大,最大利润为151.25万元
(2)解:由题设可知对价格满意的频率为 ,基本满意和不满意的频率为 ,
随机变量 , ,
随机变量 的分布列如下表:
0 1 2 3 4随机变量 的数学期望为
考点三 非线性回归方程
【例3】(2022·福建·三明一中模拟预测)当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为代表的
新一代信息技术迅猛发展,现收集某地近5年区块链企业总数量相关数据,如下表
年份 2017 2018 2019 2020 2021
编号x 1 2 3 4 5
企业总数量y(单位:千个) 2.156 3.727 8.305 24.279 36.224
(1)根据表中数据判断, 与 (其中 …为自然对数的底数),哪一个回归方程类
型适宜预测未来几年我国区块链企业总数量?(给出结果即可,不必说明理由),并根据你的判断结果求
y关于x的回归方程;
(2)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区
块链公司参赛.比赛规则如下:①每场比赛有两个公司参加,并决出胜负;②每场比赛获胜的公司与未参
加此场比赛的公司进行下一场的比赛;③在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公
司获得此次信息化比赛的“优胜公司”.已知在每场比赛中,甲胜乙的概率为 ,甲胜丙的概率为 ,乙
胜丙的概率为 ,若首场由甲乙比赛,求甲公司获得“优胜公司”的概率.
参考数据: , , , (其中 ).
附:样本 的最小二乘法估计公式为 , .
【答案】(1) 适宜;
(2)
【解析】(1)根据表中数据 适宜预测未来几年我国区块链企业总数量.∵ ,∴ ,
令 ,则 ,
,
,
由公式计算可知
∴ ,即 .
(2)设事件 “甲公司获得“优胜公司””,事件 “在一场比赛中,甲胜乙”,
事件 “在一场比赛中,甲胜丙”,事件 “在一场比赛中,乙胜丙”,
则 ,
因为 两两独立, 两两互斥,
由概率的加法公式与乘法公式得
,
所以甲公司获得“优胜公司”的概率为 .
【一隅三反】
1.(2022·山西二模)数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高速增长态
势,下表为2017-2021年中国在线直播用户规模(单位:亿人),其中2017年-2021年对应的代码依次
为1-5.年份代码x 1 2 3 4 5
市场规模y 3.98 4.56 5.04 5.86 6.36
参考数据: , , ,其中 .
参考公式:对于一组数据 , ,…, ,其回归直线 的斜率和截距的最
小二乘估计公式分别为 , .
(1)由上表数据可知,可用函数模型 拟合y与x的关系,请建立y关于x的回归方程( ,
的值精确到0.01);
(2)已知中国在线直播购物用户选择在品牌官方直播间购物的概率为p,现从中国在线直播购物用户中随
机抽取4人,记这4人中选择在品牌官方直播间购物的人数为X,若 ,求X的分布
列与期望.
【答案】见解析
【解析】(1)解:设 ,则 ,
因为 , , ,
所以 .
把 代入 ,得 .
即 关于 的回归方程为(2)解:由题意知 ,
, ,
由 得
所以, 的取值依次为0,1,2,3,4,
, ,
, ,
,
所以X的分布列为
X 0 1 2 3 4
P
2.(2022·广东广州·一模)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处
理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表.
月份x 1 2 3 4 5
销售量y(万件) 4.9 5.8 6.8 8.3 10.2
该公司为了预测未来几个月的销售量,建立了y关于x的回归模型: .
(1)根据所给数据与回归模型,求y关于x的回归方程( 的值精确到0.1);
(2)已知该公司的月利润z(单位:万元)与x,y的关系为 ,根据(1)的结果,问该公
司哪一个月的月利润预报值最大?
参考公式:对于一组数据 ,其回归直线 的斜率和截距的最小二乘估计公式分别为 , .
【答案】(1) ;
(2)第9个月的月利润预报值最大
【解析】(1)令 ,则 , ,
,
,所以y关于x的回归方程为 ;
(2)由(1)知: ,
,令 ,
令 得: ,令 得: ,令 得: ,所以
在 处取得极大值,也是最大值,
所以第9个月的月利润预报值最大.
3.(2022·广东肇庆·二模)下表是我国从2016年到2020年能源消费总量近似值y(单位:千万吨标准
煤)的数据表格:
201
年份 2016 2017 2019 2020
8
年份代号x 1 2 3 4 5
能源消费总量近似值y(单
442 456 472 488 498
位:千万吨标准煤)以x为解释变量,y为预报变量,若以 为回归方程,则相关指数 ,若以
为回归方程,则相关指数 .
(1)判断 与 哪一个更适宜作为能源消费总量近似值y关于年份代号x的回归方程,
并说明理由;
(2)根据(1)的判断结果及表中数据,求出y关于年份代号x的回归方程.
参考数据: , .
参考公式:回归方程 中斜率和截距的最小二乘估计公式分别为:
, .
【答案】(1) 更适宜作为y关于x的回归方程,答案见解析;
(2) .
【解析】(1)因为 ,所以 更适宜作为y关于x的回归方程.
(2) , .
, ,
所以以x为解释变量,y为预报变量的回归方程为 .