文档内容
6.3 统计案例(精讲)(基础版)
思维导图考点呈现
例题剖析
考点一 线性回归方程(小题)
【例1-1】(2022·江西)下表是鞋子的长度与对应码数的关系
2
长度( ) 24 24.5 25.5 26 26.5
5
4
码数 38 39 41 42 43
0
如果人的身高 与脚板长 呈线性相关且回归直线方程为 .若某人的身高为173,据此
模型,估计其穿的鞋子的码数为A.40 B.41 C.42 D.43
【答案】C
【解析】令 代入直线方程 ,解得 ,所以脚板长为 ,查表得穿的鞋子的
码数应为42.故选:C
【例1-2】(2022·全国·高三专题练习)对于数据组 ,如果由线性回归方程得到的对应
于自变量 的估计值是 ,那么将 称为相应于点 的残差.某工厂为研究某种产品产量
(吨)与所需某种原材料 吨)的相关性,在生产过程中收集4组对应数据 如下表所示:
3 4 5 6
2.5 3 4根据表中数据,得出 关于 的线性回归方程为 ,据此计算出样本点(4,3)处的残差为-
0.15,则表中 的值为( )
A.3.3 B.4.5 C.5 D.5.5
【答案】B
【解析】由题意可知,在样本(4,3)处的残差-0.15,则 ,即 ,
解得 ,即 ,又 ,且线性方程过样本中心点( , ),
则 ,则 ,解得 .故答案为:B
【一隅三反】
1(2022·全国·高三专题练习)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格
进行试销,得到如下数据:
单价(元) 4 5 6 7 8 9
销量(件) 90 84 83 80 75 68
由表中数据,求得线性回归方程 =-4x+a,若在这些样本点中任取一点,则它在回归直线右上方的概率为
( )
A. B. C. D.
【答案】C
【解析】因为 , ,
所以 ,即 满足 的点有 ,共3个
所以在这些样本点中任取一点,则它在回归直线右上方的概率为 ,故选:C
2.(2022·福建)对两个变量y和x进行回归分析,则下列说法中不正确的是( )
A.由样本数据得到的回归方程 必过样本点的中心 .
B.残差平方和越小的模型,拟合的效果越好.
C.用相关指数 来刻画回归效果, 的值越小,说明模型的拟合效果越好.D.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
【答案】C
【解析】 项,由样本数据得到的回归方程 必过样本点的中心 ,正确;
项,残差平方和越小的模型,拟合的效果越好,正确;
项,用相关指数 来刻画回归效果, 的值越大,拟合的效果越好,故 错误;
项,回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,正确.故选: .
3.(2022·全国·高三专题练习)已知两个变量 和 之间有线性相关关系,经调查得到如下样本数据,
3 4 5 6 7
3.5 2.4 1.1 -0.2 -1.3
根据表格中的数据求得同归方程 ,则下列说法正确的是( )
A. , B. ,
C. , D. ,
【答案】B
【解析】由已知数据,可知 随着 的增大而减小,则变量 和变量 之间存在负相关的关系, ,
当 时,则 ,即: , .故选:B.
4.(2022·广东)某公司由于改进了经营模式,经济效益与日俱增.统计了2018年10月到2019年4月的纯
收益 (单位:万元)的数据,如下表:
月份 十 十一 十二 一 二 三 四
月份代号 3 4 5 6 7 8 9
纯收益 66 69 73 81 89 90 91
得到 关于 的线性回归方程为 .请预测该公司2019年6月的纯收益为( )
A. 万元 B. 万元
C. 万元 D. 万元
【答案】C
【解析】将2019年6月代号 带入题中的线性回归方程,得 .故选:C.考点二 线性回归方程(解答题)
【例2】(2022·江西)北京时间2022年4月5日,CBA官方公布了2021—2022赛季CBA季后赛1/4决赛
赛程表.赛程表显示,1/4决赛将在4月7日(周四)15:00打响,首场比赛是上半区的辽宁本钢迎战山
西汾酒股份.其中辽宁队当家球星郭艾伦信心满满,球迷们终于可以一饱眼福.为了更好地预测球员郭艾
伦在首战中的发挥情况,球迷们收集了郭艾伦赛前的一场比赛的数据如表所示.
上场时间x(分钟) 6 11 18 24 32 35
累计得分y(分) 5 12 16 22 31 40
由上表数据可知,可用线性回归模型拟合y与x的关系.
(1)请用相关系数说明y与x具有很强的线性相关关系;(精确到0.01)
(2)求出y关于x的线性回归方程,并预测球员郭艾伦在首战中出场时间40分钟的累计得分.(回归方程的
斜率与纵截距精确到0.1,累计得分保留整数)
附:相关系数
线性回归方程 的斜率与截距的最小二乘法公式分别为 , .
参考数据: , .
【答案】(1)说明见解析(2) ,累计得分约为42分
【解析】(1)由题知 , , , ,
所以 ,即y与x具有很强的线性相关关系.(2)由 , ,得到回归直线方程为 ,
则当 时, ,所以球员郭艾伦在首战中出场时间为40分钟时,他的累计得
分约为42分.
【一隅三反】
1.(2022·全国·高三专题练习)某医科大学实习小组为研究实习地昼夜温差与感冒人数之间的关系,分别
到当地气象部门和某医院抄录了1月至3月每月5日、20日的昼夜温差情况与因感冒而就诊的人数,得到
如表资料:
日期 1月5日 1月20日 2月5日 2月20日 3月5日 3月20日
昼夜温差x(℃) 10 11 13 12 8 6
就诊人数y(个) 22 25 29 26 16 12
该小组确定的研究方案是:先从这6组数据中随机选取4组数据求线性回归方程,再用剩余的2组数据进
行检验.
参考公式: , .
(1)求剩余的2组数据都是20日的概率;
(2)若选取的是1月20日、2月5日、2月20日、3月5日这4组数据.
①请根据这4组数据,求出y关于x的线性回归方程 ;
②若某日的昼夜温差为7℃,请预测当日就诊人数.(结果保留整数).
【答案】(1) (2)① ;②14人
【解析】(1)记6组依次为1,2,3,4,5,6,从这6组中随机选取4组数据,剩余的2组数据所有等可能
的情况为 , , , , , , , , , , , , ,
, 共15种,其中2组数据都是20日,即都取自2,4,6组的情况有3种.根据古典概型概率计算公式,剩余的2组数据都是20日的概率 .
(2)①由所选数据,得 , ,
所以 ,所以 ,
所以y关于x的线性回归方程为 .
②当 时, ,所以某日的昼夜温差为7℃,预测当日就诊人数约为14人.
2(2022·山西省长治市第二中学校高三阶段练习(文))某西红柿种植户将一批西红柿批发给当地一家超
市,超市根据西红柿的品质将其分为一级品、二级品、和三级品,批发单价分别为6元/ 、5元/ 和4
元/
(1)根据以往的经验,该种植户的西红柿为一级品、二级品和三级品的比例分别为 ,估计这
批西红柿的批发单价的平均值;
(2)为了对西红柿进行合理定价,超市对近5天的日销量y和单价 进行了统计,得到一组数
据如表所示:
销售单价 (元/ ) 5 6 7 8 9
150 135 110 95 75
日销量 ( )
根据表中所给数据,用线性回归模型拟合y与x的关系,求出y关于x的线性回归方程,并预测当西红柿单
价为12元/ 时,该超市西红柿的日销量.
参考公式:线性回归方程 中, .
参考数据: .【答案】(1)4.9元/ (2) ,
【解析】(1)由题意 ,因此估计这批西红柿的批发单价的平均值为4.9元/
(2)由表知, ,所以
,故y关于x的线性回归方程为 .
当 时, ,即当西红柿单价为12元/ 时,预测该超市西红柿的日销量为
考点三 非线性回归方程
【例3-1】(2023·全国·高三专题练习)如图是一组实验数据构成的散点图,以下函数中适合作为 与 的
回归方程的类型是( )
A. B. C. D.
【答案】D
【解析】由散点图中各点的变化趋势知,各点不在一条直线上,排除A.
由散点图中各点呈单调递减趋势,排除B.又图中点的横坐标有正有负,故排除C.故选:D.
【例3-2】.(2023·全国·高三专题练习)某市卫健委用模型 的回归方程分析 年 月
份感染新冠肺炎病毒的人数,令 后得到的线性回归方程为 ,则 ( )A. B. C. D.
【答案】A
【解析】 ,所以, ,解得 .故选:A.
【例3-3】.(2023·全国·高三专题练习)当下,大量的青少年沉迷于各种网络游戏,极大地毒害了青少年
的身心健康.为了引导青少年抵制不良游戏,适度参与益脑游戏,某游戏公司开发了一款益脑游戏,在内测
时收集了玩家对每一关的平均过关时间,如下表:
关卡 1 2 3 4 5 6
平均过关时间 (单位:
50 78 124 121 137 352
秒)
计算得到一些统计量的值为: ,其中, .
若用模型 拟合 与 的关系,根据提供的数据,求出 与 的经验回归方程;
参考公式:对于一组数据 ( ),其经验回归直线 的斜率和截距的最小二乘估
计分别为 , .
【答案】
【解析】因为 两边取对数可得 ,
即 ,令 ,所以 ,
由 , , .
所以 ,又 ,即 ,
所以 ,所以 .
所以 关于 的经验回归方程为 .
【一隅三反】
1.(2022·全国·高三专题练习)用模型 拟合一组数据时,设 ,将其变换后得到回
归方程为 ,则 ( )
A. B.1 C. D.2
【答案】D
【解析】因为 , ,所以 ,
又 ,所以 ,解得 ,所以 ,故选:D
2.(2023·全国·高三专题练习)某公司为了确定下一年度投入某种产品的宣传费用,需了解年宣传费x
(单位:万元)对年销量y(单位:吨)和年利润(单位:万元)的影响,对近 年宜传费 和年销售量
的数据做了初步统计,得到如下数据:
年份
年宣传费 (万
元)
年销售量 (吨)
经电脑模拟,发现年宣传费 (万元)与年销售量 (吨)之间近似满足关系式 ,即
,对上述数据作了初步处理,得到相关的值如下表:(1)从表中所给出的 年年销售量数据中任选 年做年销售量的调研,求所选数据中至多有一年年销售量低
于 吨的概率;
(2)根据所给数据,求 关于 的回归方程.
附:对于一组数据 、 、 ,其回归直线 中的斜率和截距的最小二乘估计分别
为 , .
【答案】(1) (2)
【解析】(1)从表中所给出的 年年销售量数据中任选 年做年销售量的调研,
所有的基本事件有: 、 、 、 、 、
、 、 、 、 、
、 、 、 、 ,共 种,
其中,事件“所选数据中至多有一年年销售量低于 吨”所包含的基本事件有:
、 、 、 、 、 、
、 、 、 、 、 、
、 ,共 种,
故所求概率为 .
(2)解:令 , ,则 ,
则 , , ,,
所以, , , ,
故 关于 的回归方程为 .
3.(2022·山东潍坊·模拟预测)新冠肺炎疫情发生以来,我国某科研机构开展应急科研攻关,研制了一种
新型冠状病毒疫苗,并已进入二期临床试验.根据普遍规律,志愿者接种疫苗后体内会产生抗体,人体中
检测到抗体,说明有抵御病毒的能力.通过检测,用x表示注射疫苗后的天数,y表示人体中抗体含量水
平(单位:miu/mL,即:百万国际单位/毫升),现测得某志愿者的相关数据如下表所示.
天数x 1 2 3 4 5 6
抗体含量水平y 5 10 26 50 96 195
根据以上数据,绘制了散点图.
(1)根据散点图判断, 与 (a,b,c,d均为大于0的实数)哪一个更适宜作为描述y与x
关系的回归方程类型?(给出到断即可,不必说明理由)
(2)根据(1)的判断结果求出y关于x的回归方程,并预测该志愿者在注射疫苗后的第10天的抗体含量水
平值;
(3)从这位志愿者的前6天的检测数据中随机抽取3天的数据作进一步的分析,求其中的y值小于50的天数
的分布列及数学期望.
参考数据:其中 .3.50 63.67 3.49 17.50 9.49 12.95 519.01 4023.87
参考公式:; , .
【答案】(1) 更适宜作为描述y与x关系的回归方程类型
(2)y关于x的回归方程为 ;
该志愿者在注射疫苗后的第10天的抗体含量水平值约为 miu/mL
(3) 的分布列为
0 1 2 3
数学期望
【解析】(1)根据散点图判断, 更适宜作为描述y与x关系的回归方程类型.
(2) , ,
设 ,则有 ,
, ,
,
所以y关于x的回归方程为 .
当 时, ,
则该志愿者在注射疫苗后的第10天的抗体含量水平值约为 miu/mL.
(3)由表中数据可知,前三天的 值小于50,故 的可能取值为0,1,2,3.
,
,
,
,
故 的分布列为
0 1 2 3
所以数学期望 .
考点四 独立性检验
【例4】(2023·全国·高三专题练习)2021年4月22日,一则“清华大学要求从2019级学生开始,游泳达
到一定标准才能毕业”的消息在体育界和教育界引起了巨大反响.游泳作为一项重要的求生技能和运动项目
受到很多人的喜爱.其实,已有不少高校将游泳列为必修内容.某中学为了解2020届高三学生的性别和喜爱
游泳是否有关,对100名高三学生进行了问卷调查,得到如下列联表:
喜欢游泳 不喜欢游泳 总计
男生 10
女生 20
总计
已知在这100人中随机抽取1人,抽到喜欢游泳的学生的概率为 .
(1)请将上述列联表补充完整;
(2)判断是否有99.9%的把握认为喜欢游泳与性别有关.附: ,
0.05 0.025 0.01 0.005 0.001
3.841 5.024 6.635 7.879 10.828
【答案】(1)答案见解析(2)有99.9%的把握认为喜欢游泳与性别有关
【解析】(1)因为在100人中随机抽取1人抽到喜欢游泳的学生的概率为 ,所以喜欢游泳的学生人数为
.其中女生有20人,男生有40人,列联表补充如下:
喜欢游泳 不喜欢游泳 合计
男生 40 10 50
女生 20 30 50
合计 60 40 100
(2)因为 ,所以有99.9%的把握
认为喜欢游泳与性别有关.
【一隅三反】
1.(2022·山东·济南市历城第二中学模拟预测)2022年我国将举办第24届冬季奥林匹克运动会(The
winter Olympics),为调查某城市居民对冰雪运动的了解情况,随机抽取了该市120名市民进行统计,得
到如下 列联表:
男 女 合计
了解冰雪运动 m p 70
不了解冰雪运
n q 50
动
合计 60 60 120
已知从参与调查的男性中随机选取1名,抽到“了解冰雪运动”的概率为 .
(1)直接写出m,n,p,q的值;(2)能否在犯错误概率不超过0.1的前提下认为该市居民了解冰雪运动与性别有关?请说明理由.
附: , ,
0.100 0.050 0.010
k 2.706 3.841 6.635
【答案】(1) , , ,
(2)能在犯错误概率不超过0.1的前提下认为该市居民了解冰雪运动与性别有关,理由见解析
【解析】(1)因为从参与调查的男性中随机选取1名,抽到“了解冰雪运动”的概率为 ,
所以 ,
所以 , , .
(2)能;理由如下:
由题意知, ,
所以能在犯错误概率不超过0.1的前提下认为该市居民了解冰雪运动与性别有关.
2.(2023·全国·高三专题练习)2022年北京冬奥会即第24届冬季奥林匹克运动会在2022年2月4日至2
月20日在北京和张家口举行.某研究机构为了解大学生对冰壶运动是否有兴趣,从某大学随机抽取男生、
女生各200人,对冰壶运动有兴趣的人数占总数的 ,女生中有80人对冰壶运动没有兴趣.
有兴趣 没有兴趣 合计
男
女 80
合
计
(1)完成上面2×2列联表,并判断是否有99%的把握认为对冰壶运动是否有兴趣与性别有关?
(2)按性别用分层抽样的方法从对冰壶运动有兴趣的学生中抽取9人,若从这9人中随机选出2人作为冰壶运动的宣传员,设X表示选出的2人中女生的人数,求X的分布列和数学期望.
附: .
0.100 0.050 0.025 0.010 0.001
2.706 3.841 5.024 6.635 10.828
【答案】(1)列联表见解析,有 的把握认为对冰壶运动是否有兴趣与性别有关.
(2)分布列见解析, .
【解析】(1)解:依题意对冰壶运动有兴趣的人数为 人,则女生中对冰壶运动有兴
趣的有 人,男生中对冰壶运动有兴趣的有 人,所以男生中对冰壶运动无兴趣
的有 人,所以 列联表:
有兴趣 没有兴趣 合计
男
女
合计
, 有 的把握认为对冰壶运动是否有兴趣与性别有关.
(2)解:从对冰壶运动有兴趣的学生中抽取 人,抽到的男生人数、女生人数分别为: (人 ,
(人 ,则 的所有可能取值为 , , ,所以 , ,
,故 的分布列是:
0 1 2
故 .
3.(2022·四川成都·模拟预测(文))北京某大学为了了解大一新生喜欢打篮球是否与性别有关,对学校一百名新生进行了初步统计,得到如下 列联表:
喜欢打篮球 不喜欢打篮球 合计
男 40
女 50
合计
在这100名新生中每5个人就有3个人喜欢打篮球.
(1)把上述列联表补充完整;
(2)请问,是否有99.9%的把握认为喜欢打篮球与性别有关?说明你的理由;
(3)被调查的学生中基础数学专业有5名学生,其中3名喜欢打篮球,现从这5名学生中随机抽取2人,求
恰有1人喜欢打篮球的概率.
附表:
P
0.15 0.10 0.05 0.025 0.010 0.005 0.001
(K2≥k)
k 2.072 2.706 3.841 5.024 6.635 7.879 10.828
参考公式: 的观测值: (其中 )
【答案】(1)填表见解析
(2)有99.9%的把握认为喜欢打篮球与性别有关;理由见解析
(3)
【解析】(1)因为在这100名新生每5个人中就有3个人喜欢打篮球,
所以喜欢打篮球的学生人数为 人
其中男生有40人,则女生有20人,列联表补充如下:
不喜欢打篮
喜欢打篮球 合计
球
男生。 40 10 50
女生 20 30 50
合计 60 40 100(2)
因为 ,
所以有99.9%的把握认为喜欢打篮球与性别有关.
(3)5名学生中喜欢打篮球的3名学生记为a,b,c,另外2名学生记为甲,乙,任取2名学生,则所有可能
情况为(a,b)、(a,c)、(a,甲)、(a,乙)、(b,c)、(b,甲)、(b,乙)、(c,甲)、
(c,乙)、(甲,乙),共10种.
其中恰有1人喜欢打篮球的可能情况为(a,甲)、(a,乙)、(b,甲)、(b,乙)、(c,甲)、
(c,乙),共6种.所以恰好有1人喜欢打篮球的概率为 .
4.(2022·安徽省舒城中学三模(文))很多人都爱好抖音,为了调查手机用户每天使用抖音的时间,某
通讯公司在一广场随机采访男性、女性用户各50名,将男性、女性平均每天使用抖音的时间(单位:h)
分成5组: , , , , 分别加以统计,得到如图所示的频率分布直方图.
(1)求 的值;
(2)根据频率分布直方图估计女性平均每天使用抖音的时间;(同一组中的数据用该组区间的中点值为代
表)
(3)若每天玩抖音超过4h的用户称为“抖音控”,否则称为“非抖音控”,完成如下列联表,判断是否有
90%的把握认为是否是“抖音控”与性别有关.
抖音控 非抖音控 总计
男性
女性总计
参考数据:
0.10 0.05 0.025 0.010 0.005 0.001
2.706 3.481 5.024 6.635 7.879 10.828
【答案】(1)0.08(2)4.76
(3)列联表见解析,有90%的把握认为是否是“抖音控”与性别有关
【解析】(1)由男性的频率分布直方图,可得 ,解得
(2)估计女性平均每天使用抖间的时间为: ;
(3)在男性频率分布直方图中,
,
男性非抖音控人数为: ,男性抖音控人数为 ;
女性非抖音控人数为: ,女性抖音控人数为 ,
所以填表如下:
抖音控 非抖音控 总计
男性
女性
总计
所以 ,
因此有90%的把握认为是否是“抖音控”与性别有关.