文档内容
6.3 统计案例(精练)(基础版)
题组一 线性回归方程(小题)
1(2022云南)某工厂某产品产量 (千件)与单位成本 (元)满足回归直线方程 ,则以下说法
中正确的是( )
A.产量每增加 件,单位成本约下降 元 B.产量每减少 件,单位成本约下降 元
C.当产量为 千件时,单位成本为 元 D.当产量为 千件时,单位成本为 元
【答案】A
【解析】令 ,因为 ,
所以产量每增加 件,单位成本约下降 元.
2.(2022安徽)“关注夕阳、爱老敬老”—某马拉松协会从 年开始每年向敬老院捐赠物资和现金.下
表记录了第 年( 年是第一年)与捐赠的现金 (万元)的对应数据,由此表中的数据得到了 关于 的线
性回归方程 ,则预测 年捐赠的现金大约是
A. 万元 B. 万元 C. 万元 D. 万元
【答案】C
【解析】由已知得, ,所以样本点的中心点的坐标为 ,
代入 ,得 ,即 ,所以 ,取 ,得
,
预测2019年捐赠的现金大约是 万元.
3.(2022福建)为研究某种细菌在特定环境下,随时间变化的繁殖情况,得到如下实验数据:
天数 (天) 3 4 5 6
繁殖个数 (千个) 2.5 3 4.5
由最小二乘法得 与 的线性回归方程为 ,则当 时,繁殖个数 的预测值为A.4.9 B.5.25
C.5.95 D.6.15
【答案】B
【解析】由题意,根据表格中的数据,可得 ,
即样本中心为 ,代入回归直线方程 ,即 ,
解得 ,即回归直线的方程为 ,
当 时, ,故选B.
4.(2022·云南师大附中高三阶段练习)(多选)在研究某品牌汽车的使用年限x(单位:年)与残值y
(单位:万元)之间的关系时,根据调研数据得到如下的对应值表:
x 2 4 6 8 10
1 1
y 16 13 11
7 4
利用最小二乘法,得到回归直线方程为 ,下列说法正确的是( )
A.x与y的样本相关系数 B.回归直线必过点
C. D.预测该品牌汽车使用20年后,残值约为2万元
【答案】BC
【解析】 随 的增大呈递减的趋势,所以 与 为负相关关系,所以 与 的样本相关系数 ,回归
直线方程为 的 ,因为 , ,回归直线
必过点 ,所以 ,得 ,当 时, (万
元),综上,正确答案为B,C.故选:BC.
5.(2022·广东·模拟预测)(多选)已知 与 线性相关,且求得回归方程为 ,变量 , 的
部分取值如表所示,则( )A. 与 负相关 B.
C. 时, 的预测值为 D. 处的残差为
【答案】BC
【解析】由题意得 , ,
所以样本中心点的坐标为 ,代入线性回归方程得 ,解得 ,B正确;
由 可知 与 正相关,A错误;
时, ,C正确;
时, ,残差为 ,D错误.故选:BC.
6.(2020·全国·高三专题练习)在2017年3月15日,某市物价部门对本市的5家商场的某种商品的一天
销售量及其价格进行调查,5家商场的售价 元和销售量 件之间的一组数据如下表所示:
价格 9 9.5 10 10.5 11
销售量 11 10 8 6 5
由散点图可知,销售量 与价格 之间有较好的线性相关关系,其线性回归方程是: ,则
__________.
【答案】40
【解析】根据题意: , , ,
7.(2022·江苏)已知 , 取值如表:
画散点图分析可知: 与 线性相关,且求得回归方程为 ,则 __________.
【答案】【解析】计算 = ×(0+1+3+5+6)=3, = ×(1+m+3m+5.6+7.4)= ,
∴这组数据的样本中心点是(3, ),又y与x的线性回归方程 =x+1过样本中心点,∴
=1×3+1,
解得m= .故填 .
题组二 线性回归方程(解答题)
1.(2023·全国·高三专题练习)网购是现代年轻人重要的购物方式,截止:2021年12月,我国网络购物
用户规模达8.42亿,较2020年12月增长5968万,占网民整体的81.6%.某电商对其旗下的一家专营店近
五年来每年的利润额 (单位:万元)与时间第 年进行了统计得如下数据:
1 2 3 4 5
2.6 3.1 4.5 6.8 8.0
(1)依据表中给出的数据,是否可用线性回归模型拟合y与t的关系?请计算相关系数r并加以说明(计算
结果精确到0.01).(若 ,则线性相关程度很高,可用线性回归模型拟合)
(2)试用最小二乘法求出利润y与时间t的回归方程,并预测当 时的利润额.
附: ,
, .
参考数据: , , , .
【答案】(1) ,y与t的线性相关程度很高,可以用线性回归模型拟合.(2) , 万元.
【解析】(1)由题表, , 因为 ,
, ,所以
.故y与t的线性相关程度很高,可以用线性
回归模型拟合.
(2) , ,所以 .当 时,
.预测该专营店在 时的利润为 万元.
2.(2022·全国·高三专题练习)足不出户,手机下单,送菜到家,轻松逛起手机“菜市场”,拎起手机
“菜篮子”,省心又省力.某手机 (应用程序)公司为了了解居民使用这款 使用者的人数及满意
度,对一大型小区居民开展 个月的调查活动,从使用这款 的人数的满意度统计数据如下:
月份
不满意的人数
使用 不使用
女性
男性
(1)请利用所给数据求不满意人数 与月份 之间的回归直线方程 ,并预测该小区 月份的对
这款 不满意人数:(2)工作人员发现使用这款 居民的年龄 近似服从正态分布 ,求 的值;
(3)工作人员从这 个月内的调查表中随机抽查 人,调查是否使用这款 与性别的关系,得到上表:
能否据此判断有 的把握认为是否使用这款 与性别有关?
参考公式: , .
【答案】(1) , 人;(2)0.9759;(3)有.
【解析】(1)由表中的数据可知: , ,
, ,
所求得回归直线方程为 ,
当 时, ,
该小区 月份的对这款 不满意人数预估为 人;
(2) .
(3)提出假设 :是否使用这款 与性别无关,
由表中的数据可得 ,
根据临界值可得,有 的把握认为是否使用这款 与性别有关.
3.(2021·贵州贵阳·(理))据贵州省气候中心报,2021年6月上旬,我省降水量在15.2-170.3mm之
间,毕节市局地、遵义市北部、铜仁市局地和黔东南州东南部不足50mm,其余均在50mmm以上,局地超过
100mm.若我省某地区2021年端午节前后3天,每一天下雨的概率均为 .通过模拟实验的方法来估计该
地区这3天中恰好有2天下雨的概率,利用计算机或计算器可以产生0到9之间取整数值的随机数 (
,且 )表示是否下雨:当 时表示该地区下雨,当 时,表示该地
区不下雨.因为是3天,所以每三个随机数作为一组,从随机数表中随机取得20组数如下:332 714 740 945 593 468 491 272 073 445
992 772 951 431 169 332 435 027 898 719
(1)求出k的值,使得该地区每一天下雨的概率均为 ;并根据上述20组随机数估计该地区这3天中
恰好有2天下雨的概率;
(2)2016年到2020年该地区端午节当天降雨量(单位:mm)如表:
时间 2016年 2017年 2018年 2019年 2020年
年份 1 2 3 4 5
降雨量 28 27 25 23 22
经研究表明:从2016年到2020年,该地区端午节有降雨的年份的降雨量 与年份 具有线性相关关系,求
回归直线方程 .并预测该地区2022年端午节有降雨的话,降雨量约为多少?
参考公式: , .
【答案】(1)4, ;(2) , .
【解析】(1)由题意可知, ,解得 ,即 表示下雨, 表示不下雨.
所给的20组数据中 , , , , , , , ,共 组表示 天中恰好有 天下雨,
故所求的概率为 .
(2)由题中所给的数据可得 , ,
所以 , ,
所以回归方程为 ,当 时, .
所以该地区 年端午节有降雨的话,降雨量约为 .
题组三 非线性回归方程1.(2022·内蒙古·包钢一中一模(文))人类已进入大数据时代,目前,全球年数据产生量已经从 级
别跃升到 , 乃至 级别( , , , ).由国际数据
公司 的研究结果得到2008年至2020年全球年数据产生量(单位: )的散点图.根据散点图,下面
四个选项中最适宜刻画2008年至2020年全球年数据产生量 和实际 的函数模型是( )
A. B.
C. D.
【答案】D
【解析】由散点图知:全球年数据产生量随年份的增加而增加,且增加的速度越来越快,
因为 的图象是一条直线,
的图象,随x增大,y增大,但图象越来越平缓,
的图象,随x增大,y增大,但图象越来越平缓,
的图象,随x增大,y增大,图象越来越陡峭,
所以D选项正确,A、B、C选项错误.
故选:D.
2.(2023·全国·高三专题练习)用模型 去拟合一组数据时,为了求出线性回归方程,设 ,
求得线性回归方程为 ,则 的值为__________.
【答案】
【解析】由题意知, ,故 ,设 ,求得线性回归方程为 ,两式相比较, ,故答案为:
3.(2022·湖南师大附中三模)魔方,又叫鲁比克方块,通常意义下的魔方,即指三阶魔方,为 的
正方体结构,由26个色块组成.魔方竞速是一项手部极限运动,常规竞速玩法是将魔方打乱,然后在最短
的时间内复原.
(1)某魔方爱好者进行一段时间的魔方还原训练,每天魔方还原的平均速度y(秒)与训练天数x(天)有
关,经统计得到如下数据:
x(天) 1 2 3 4 5 6 7
y(秒) 99 99 45 32 30 24 21
现用 作为回归方程类型,请利用表中数据,求出该回归方程,并预测该魔方爱好者经过长期训练
后最终每天魔方还原的平均速度y约为多少秒(精确到1)?
参考数据:(其中 )
184.5 0.37 0.55
参考公式:
对于一组数据 , ,…, ,其回归直线 的斜率和截距的最小二乘估计公式分
别为: , .
(2)现有一个复原好的三阶魔方,白面朝上,现规定只可以扭动最外层的六个表面.某人按规定将魔方随机扭
动两次,每次均顺时针转动 ,记顶面白色色块的个数为X,求X的分布列及数学期望E(X).【答案】(1) ,13秒(2)分布列见解析,
【解析】(1)由题意,根据表格中的数据,
可得 ,
可得 ,
所以 ,
因此y关于x的回归方程为 ,当 时, ,
所以魔方爱好者经过长期训练后最终每天还原的平均速度y约为13秒.
(2)由题可得随机变量X的取值为3, , ,9,
,
,
,
.
所以X的分布列为:
X 3 4 6 9
P
所以 .
4.(2022·全国·高三专题练习)小李准备在某商场租一间商铺开服装店,为了解市场行情,在该商场调查
了20家服装店,统计得到了它们的面积x(单位: )和日均客流量y(单位:百人)的数据,并计算得 , , , .
(1)求y关于x的回归直线方程;
(2)已知服装店每天的经济效益 ,该商场现有 的商铺出租,根据(1)
的结果进行预测,要使单位面积的经济效益Z最高,小李应该租多大面积的商铺?
附:回归直线 的斜率和截距的最小二乘估计分别为: , .
【答案】(1) (2)小李应该租 的商铺
【解析】(1)由已知可得 , ,
,
,
所以回归直线方程为 .
(2)
根据题意得 , .
设 ,令 , ,
则 ,
当 ,即 时, 取最大值,
又因为k, ,所以此时Z也取最大值,
因此,小李应该租 的商铺.
5.(2022·全国·高三专题练习)某工厂生产一种产品测得数据如下:38 48 58 68 78 88
尺寸
16.8 18.8 20.7 22.4 24 25.5
质量
0.442 0.392 0.357 0.329 0.308 0.290
质量与尺寸的比
(1)若按照检测标准,合格产品的质量 与尺寸 之间近似满足关系式 (c、d为大于0的常
数),求y关于x的回归方程;
(2)已知产品的收益z(单位:千元)与产品尺寸和质量的关系为 ,根据(1)中回归方程分析,
当产品的尺寸x约为何值时(结果用整数表示),收益z的预报值最大?
附:(1)参考数据: , , , .
(2)参考公式:对于样本 ,其回归直线 的斜率和截距的最小二乘估计公式分
别为: , , .
【答案】(1)
(2)当产品的尺寸约为72 时,收益z的预报值最大
【解析】(1)对 两边取自然对数得 .
令 , ,则 ,其中 .
根据所给统计量及最小二乘估计公式有:
,,
又 ,所以 ,所以y关于x的回归方程为 .
(2)
由(1)得 ,所以 .
令 ,则当 时,z取得最大值,
此时 ,
所以当产品的尺寸约为72mm时,收益z的预报值最大.
6.(2022·山东聊城·三模)为迎接 年北京冬奥会,践行“更快更高更强”的奥林匹克格言,落实全
民健身国家战略.某校高二年级发起了“发扬奥林匹克精神,锻炼健康体魄”的年度主题活动,经过一段时
间后,学生的身体素质明显提高.
(1)为了解活动效果,该年级对开展活动以来近 个月体重超重的人数进行了调查,调查结果统计如上图,
根据上面的散点图可以认为散点集中在曲线 的附近,请根据下表中的数据求出该年级体重超重人
数 与月份 之间的经验回归方程(系数 和 的最终结果精确到 ),并预测从开展活动以来第几个
月份开始该年级体重超标的人数降至 人以下?
月份
体重超标人数(2)在某次足球训练课上,球首先由 队员控制,此后足球仅在 、 、 三名队员之间传递,假设每名队
员控球时传给其他队员的概率如下表所示:
控球队员
接球队员
概率
若传球 次,记 队员控球次数为 ,求 的分布列及均值.
附:经验回归方程: 中, , ;
参考数据: , , , .
【答案】(1) ,第十个月
(2)分布列见解析,
【解析】(1)解:由 得 .
由题意得 , ,
所以 ,
.
所以 ,即 关于 的经验回归方程为 .
令 ,所以 ,解得 .由于 ,所以 ,
所以从第十个月开始,该年级体重超标的人数降至 人以下.
(2)解:由题意得 的可能取值为 、 、 ,
, ,
,
所以 的分布列为
所以, .
题组四 独立性检验
1.(2023·全国·高三专题练习)在一次数学考试中,将某班所有学生的成绩按照性别绘制成如下茎叶图,
规定;分数不低于125分为优秀.
(1)求本次成绩的众数、中位数;
(2)从该班中任意抽取一位学生,求该学生成绩优秀的概率;
(3)完成下列 列联表,并判断是否有90%的把握认为学生数学成绩是否优秀与性别有关?
数学成
男生 女生 总计
绩
优秀
不优秀总计
附: ,其中 .
0.15 0.10 0.05 0.025 0.010
2.072 2.706 3.841 5.024 6.635
【答案】(1)众数为 ,中位数为
(2)
(3)答案见解析
【解析】(1)本次成绩的众数为 ,中位数为 .
(2)图可知,该班有50名学生,成绩优秀的有28名,所以从该班中任意抽取一名学生,该学生成绩优秀的
概率为 .
(3) 列联表如下,
数学成绩 男生 女生 总计
优秀 16 12 28
不优秀 9 13 22
总计 25 25 50
,因为 ,
所以没有90%的把握认为学生数学成绩是否优秀与性别有关.
2.(2022·青海西宁·二模(文))第24届冬季奥运会于2022年2月4日在北京开幕,本次冬季奥运会共
设7个大项,15个分项,109个小项.为调查学生对冬季奥运会项目的了解情况,某大学进行了一次抽样
调查,若被调查的男女生人数均为 ( ),统计得到以下 列联表,经过计算可得 .男生 女生 合计
了解
不了解
合计
(1)求 的值,并判断有多大的把握认为该校学生对冬季奥运会项目的了解情况与性别有关;
(2)为弄清学生不了解冬季奥运会项目的原因,采用分层抽样的方法从抽取的不了解冬季奥运会项目的学生
中随机抽取9人,再从这9人中抽取2人进行面对面交流,求“至少抽到一名女生”的概率.
附:独立性检验临界值表
(参考公式: ,其中 )
【答案】(1) ,有95%的把握认为该校学生对冬季奥运会项目的了解情况与性别有关
(2)
【解析】(1)解:列联表如下表所示:
女
男生 合计
生
了解
不了
解
合计
则
因为 ,可得 ,而 ,且
因此,有95%的把握认为该校学生对冬季奥运会项目的了解情况与性别有关.
(2)采用分层抽样的方法从抽取的不了解冬季奥运会项目的学生中随机抽取9人,
这9人中男生的人数为4,设为 , , , ,女生的人数为5,设为1,2,3,4,5,
则从这9人中抽取2人的情况有: , , , , , , , , , , , , , ,
, , , , , , , , , , , ,12,13,14,15,23,24,25,34,35,
45,共36种;
其中这2人中至少抽到一名女生的有 , , , , , , , , , , , , ,
, , , , , , ,12,13,14,15,23,24,25,34,35,45,共30种.
所以这9人中抽取2人进行面对面交流,“至少抽到一名女生”的概率为 .
3.(2022·吉林·洮南市第一中学模拟预测(文))某高校为调查学生喜欢“应用统计”课程是否与性别有
关,随机抽取了选修课程的55名学生,得到数据如表:
喜欢统计课程 不喜欢统计课程 合计
男生 20 5 25
女生 10 20 30
合计 30 25 55
下面的临界值表供参考:
P(K2≥k) 0.010 0.005
0
k 6.635 7.879
0
(1)判断是否有99.5%的把握认为喜欢“应用统计”课程与性别有关?
(2)用分层抽样的方法从喜欢统计课程的学生中抽取6名学生做进一步调查,将这6名学生作为一个样本,
从中任选2人,求恰有1个男生和1个女生的概率.
附: , ,
【答案】(1)见解析(2)
【解析】(1)由公式可得 ,所以有99.5%的把握认为喜欢“应用统计”课程与性别有关.
(2)设所抽样本中有m个男生,则 ,得 ,所以样本中有4个男生,2个女生,分别记作 ,
, , , , ,
从中任选2人的基本事件有 , , , , , , , ,
, , , , , , ,共15个,
其中恰有1个男生和1个女生的事件有 , , , , , ,
, ,共8个,
所以恰有1个男生和1个女生的概率为 .
4.(2022·河南开封·模拟预测(理))大豆是我国重要的农作物,种植历史悠久.某种子实验基地培育出
某大豆新品种,为检验其最佳播种日期,在A,B两块试验田上进行实验(两地块的土质等情况一致).6
月25日在A试验田播种该品种大豆,7月10日在B试验田播种该品种大豆.收获大豆时,从中各随机抽
取20份(每份1千粒),并测量出每份的质量(单位:克),按照 , , 进行
分组,得到如下表格:
A试验田/份 3 6 11
B试验田/份 6 10 4
把千粒质量不低于200克的大豆视为籽粒饱满,否则视为籽粒不饱满.
(1)判断是否有97.5%的把握认为大豆籽粒饱满与播种日期有关?
(2)从A,B两块实验田中各抽取一份大豆,求抽取的大豆中至少有一份籽粒饱满的概率;
(3)用样本估计总体,从A试验田随机抽取100份(每份千粒)大豆,记籽粒饱满的份数为X,求X的数学
期望和方差.参考公式: ,其中 .
0.15 0.10 0.05 0.025 0.010 0.001
2.072 2.706 3.841 5.024 6.635 10.828
【答案】(1)有
(2)
(3) ,
【解析】(1) 列联表为
6月25日播种 7月10日播种 合计
饱满 11 4 15
不饱满 9 16 25
合计 20 20 40
,
所以有97.5%的把握认为大豆籽粒饱满与播种日期有关.
(2)A,B两块实验田中各抽取一份大豆,
抽取的大豆中有一份籽粒饱满的概率分别为 , ,
两份大豆籽粒都不饱满的概率为
故抽取的大豆中至少有一份籽粒饱满的概率为
.
(3)从A试验田的样本中随机抽取1份小麦,抽到饱满的概率为 ,
则 ,故 ,.
5.(2022·全国·高三专题练习(文))2022年北京冬奥组委会发布的《北京2022年冬奥会和冬残奥会经
济遗产报告(2022)》显示,北京冬奥会已签约200家赞助企业,冬奥会赞助成为一项跨度时间较长的营
销方式.为了解该200家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对200家赞助企
业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有100家,余下的企业中,每天销售额不足
30万元的企业占 ,统计后得到如下 列联表:
销售额不少于30万元 销售额不足30万元 合计
线上销售时间不少于8小时 75 100
线上销售时间不足8小时
合计 200
(1)完成上面的 列联表;
(2)根据 列联表,判断能否有99.5%的把握认为赞助企业每天的销售额与每天线上销售时间有关.
附:
0.1 0.05 0.01 0.005
2.706 3.841 6.635 7.879
【答案】(1)答案见解析
(2)有99.5%的把握认为赞助企业每天的销售额与每天线上销售时间有关
【解析】(1)
由题意分析可得:签约企业共200家,线上销售时间不少于8小时的企业有100家,那么线上销售时间不
足8小时的企业有100家,每天的销售额不足30万元的企业占 ,共有 家.
完成 列联表如下:
销售额不少于30万元 销售额不足30万元 合计线上销售时间不少于8小时 75 25 100
线上销售时间不足8小时 45 55 100
合计 120 80 200
(2)
由题意,得 ,
计算得 ,
由于 ,
故有99.5%的把握认为赞助企业每天的销售额与每天线上销售时间有关.