文档内容
第27讲 统计案例和回归方程
【知识点总结】
一、线性回归
线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法。
对于一组具有线性相关关系的数据(x,y),(x,y),…,(x,y),其回归方程 的求法为
1 1 2 2 n n
其中, , ,( , )称为样本点的中心。
步骤:画散点图,如散点图中的点基本分布在一条直线附近,则这条直线叫这两个变量的回归直线,
直线斜率k>0,称两个变量正相关;k<0,称两个变量负相关。
二、独立性
独立性检验是判断两个分类变量是否存在相关关系的案例分析方法。
步骤为列出22列联表(如表13-8所示),求出 ,并判断:
A A 合计
1 2
B a c a+c
1
B b d b+d
2
合计 a+b c+d n=a+b+c+d
若K2>10.828,有99.9%把握称“A取A 或A”对“B取B,B”有关系;
1 2 1 2
若10.828K2>6.635,有99%把握称“A取A 或A”对“B取B,B”有关系;
1 2 1 2
若6.635K2>3.841,有95%把握称“A取A 或A”对“B取B,B”有关系;
1 2 1 2
若K23.841,没有把握称A与B相关。
【典型例题】
例1.(2022·全国·高三专题练习(文))在对两个变量x,y进行回归分析时有下列步骤:
①对所求出的回归方程作出解释;②收集数据( , ),i=1,2,…,n;
xi yi
③求回归方程;④根据所收集的数据绘制散点图.
则下列操作顺序正确的是( )
A.①②④③ B.③②④① C.②③①④ D.②④③①
【答案】D
【详解】
根据回归分析的思想,可知对两个变量x,y进行回归分析时,应先收集数据( , ),然后绘制散点图,再
xi yi
求回归方程,最后对所求的回归方程作出解释.
故选:D例2.(2022·全国·高三专题练习)对于数据组 ,如果由线性回归方程得到的对应于
自变量 的估计值是 ,那么将 称为相应于点 的残差.某工厂为研究某种产品产量 (吨)
与所需某种原材料 吨)的相关性,在生产过程中收集4组对应数据 如下表所示:
3 4 5 6
2.5 3 4
根据表中数据,得出 关于 的线性回归方程为 ,据此计算出样本点处的残差为-0.15,则表
中 的值为( )
A.3.3 B.4.5 C.5 D.5.5
【答案】B
【详解】
由题意可知,在样本(4,3)处的残差-0.15,则 ,即 ,
解得 ,即 ,
又 ,且线性方程过样本中心点( , ),
则 ,则 ,
解得 .
故答案为:B
【点睛】
理解残差的定义,实际值减去估计值;线性方程过样本中心( , );要求对基本知识点比较熟练,计
算才准确.
例3.(2022·全国·高三专题练习)据贵州省气候中心报,2021年6月上旬,我省降水量在15.2-170.3mm
之间,毕节市局地、遵义市北部、铜仁市局地和黔东南州东南部不足50mm,其余均在50mmm以上,局
地超过100mm.若我省某地区2021年端午节前后3天,每一天下雨的概率均为 .通过模拟实验的方法来
估计该地区这3天中恰好有2天下雨的概率,利用计算机或计算器可以产生0到9之间取整数值的随机数( ,且 )表示是否下雨:当 时表示该地区下雨,当 时,表示该
地区不下雨.因为是3天,所以每三个随机数作为一组,从随机数表中随机取得20组数如下:332 714 740 945 593 468 491 272 073 445
992 772 951 431 169 332 435 027 898 719
(1)求出k的值,使得该地区每一天下雨的概率均为 ;并根据上述20组随机数估计该地区这3天中
恰好有2天下雨的概率;
(2)2016年到2020年该地区端午节当天降雨量(单位:mm)如表:
时间 2016年 2017年 2018年 2019年 2020年
年份 1 2 3 4 5
降雨量 28 27 25 23 22
经研究表明:从2016年到2020年,该地区端午节有降雨的年份的降雨量 与年份 具有线性相关关系,求
回归直线方程 .并预测该地区2022年端午节有降雨的话,降雨量约为多少?
参考公式: , .
【详解】
(1)由题意可知, ,解得 ,即 表示下雨, 表示不下雨.
所给的20组数据中 , , , , , , , ,共 组表示 天中恰好有 天下雨,
故所求的概率为 .
(2)由题中所给的数据可得 , ,
所以 , ,
所以回归方程为 ,当 时, .
所以该地区 年端午节有降雨的话,降雨量约为 .
例4.(2022·全国·高三专题练习(理))某企业新研发了一种产品,产品的成本由原料成本及非原料成本
组成.每件产品的非原料成本 (元)与生产该产品的数量 (千件)有关,经统计得到如下数据:1 2 3 4 5 6 7 8112 61 35 28 25 24
根据以上数据,绘制了散点图.观察散点图,两个变量不具有线性相关关系,现考虑用反比例函数模型
和指数函数模型 分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程
为 与 的相关系数 .
(1)用反比例函数模型求 关于 的回归方程;
(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到 ,并用其估计产量为10千件时每件
产品的非原料成本.
参考数据:
360
参考公式:对于一组数据 ,其回归直线 的斜率和截距的最小一乘估计分
别为: , ,相关系数【解析】
(1)令 ,则 可转化为 .
因为 ,所以 ,
,
得 ,即 关于 的回归方程为 .
(2)由定义知 与 的相关系数为:
,
则 ,所以用反比例函数模型拟合效果更好.
当 时, (元),
则当产量为10千件时,每件产品的非原料成本为21元.
例5.(2022·全国·高三专题练习)如图是某小区2020年1月至2021年1月当月在售二手房均价(单位:
万元/平方米)的散点图.(图中月份代码1~13分别对应2020年1月~2021年1月).根据散点图选择
和 两个模型进行拟合,经过数据处理得到两个回归方程分别为
和 ,并得到以下一些统计量的值:残差平方和
总偏差平方和
(1)请利用相关指数 判断哪个模型的拟合效果更好;(2)估计该小区2021年6月份的二手房均价.(精确到 万元/平方米)
参考数据: , , , , , , ,
.
参考公式:相关指数 .
【详解】
(1)设模型 和 的相关指数分别为 和 ,
则 , .
因为 ,所以 .
所以模型 的拟合效果更好.
(2)由(1)知,模型 的拟合效果更好,
利用该模型预测可得,这个小区2021年6月份的在售二手房均价为:
(万元/平方米).
例6.(2022·全国·高三专题练习)近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产
业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y(单位:cm)与一定范围内
的温度x(单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用 或 建立y关于x的回归方程,令 , 得到如下数据:10.15 109.94 3.04 0.16
13.94 -2.1 11.67 0.21 21.22
且( , )与( , )(i=1,2,3,…,13)的相关系数分别为 , ,且 =﹣0.9953.
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立 关于x的回归方程;
(3)已知蕲艾的利润z与x、y的关系为 ,当x为何值时,z的预报值最大.
参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.6374, =15.7365,对于一组数据( ,
)(i=1,2,3,…,n),其回归直线方程 的斜率和截距的最小二乘法估计分别为
, ,相关系数 .
【详解】
(1)由题意知 ,
,
因为 ,所有用 模型建立 与 的回归方程更合适.
(2)因为 ,
,所以 关于 的回归方程为
(3)由题意知
,所以 ,当且仅当 时等号成立,
所以当温度为20时这种草药的利润最大.例7.(2022·河北张家口·高三期末)已知某区 、 两所初级中学的初一年级在校学生人数之比为 ,
该区教育局为了解双减政策的落实情况,用分层抽样的方法在 、 两校初一年级在校学生中共抽取了
名学生,调查了他们课下做作业的时间,并根据调查结果绘制了如下频率分布直方图:
(1)在抽取的 名学生中, 、 两所学校各抽取的人数是多少?
(2)该区教育局想了解学生做作业时间的平均时长(同一组中的数据用该组区间的中点值作代表)和做
作业时长超过 小时的学生比例,请根据频率分布直方图,估计这两个数值;
(3)另据调查,这 人中做作业时间超过 小时的人中的 人来自 中学,根据已知条件填写下面列联
表,并根据列联表判断是否有 的把握认为“做作业时间超过 小时”与“学校”有关?
做作业时间超过 小
做作业时间不超过 小时 合计
时
校
校
合计
附表:
附: .
【解析】(1)解:设 、 两校所抽取人数分别为 、 ,由已知可得 ,解得 .
(2)解:由直方图可知,学生做作业的平均时长的估计值为
(小时).
由 ,可知有 的学生做作业时长超过 小时.
综上,估计该区学生做作业时间的平均时长为 小时,该区有 的学生做作业时长超过3小时.
(3)解:由(2)可知,有 (人)做作业时间超过3小时.
故填表如下(单位:人):
做作业时间超过 小时 做作业时间不超过 小时 合计
校
校
合
计
,
所以有 的把握认为“做作业时间超过 小时”与“学校”有关.
【技能提升训练】
一、单选题
1.(2022·全国·高三专题练习)某工厂的每月各项开支 与毛利润 (单位:万元)之间有如下关系,
与 的线性回归方程 ,则 ( )
2 4 5 6 8
30 40 60 50 70
A.17.5 B.17 C.15 D.15.5
【答案】A
【分析】根据表中的数据,求得样本中心为 ,代入回归方程为 ,即可求解.
【详解】由题意,根据表中的数据,可得 , ,
即样本中心为 ,代入 与 的线性回归方程为 ,解得 .
故选:A.
【点睛】
本题主要考查了回归直线方程的应用,其中解答中熟记回归直线的方程必过样本中心这一基本特征是解答
的关键,着重考查了计算能力.
2.(2021·重庆南开中学高三阶段练习)对两个变量y和x进行回归分析,得到一组样本数据: ,
,…, ,则下列说法中不正确的是( )
A.由样本数据得到的回归方程 必过样本中心
B.残差平方和越小的模型,拟合的效果越好
C.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好
D.若变量y和x之间的相关系数为r=-0.9362,则变量y和x之间具有线性相关关系
【答案】C
【分析】
理解回归分析中样本中心、残差、相关指数R2、相关系数的含义,即可判断各选项的正误.
【详解】
A:样本中心点在回归直线上,正确;
B:残差平方和越小的模型,拟合效果越好,正确,
C:R2越大拟合效果越好,不正确,
D:当 的值大于0.8时,表示两个变量具有高度线性相关关系,正确.
故选:C.
3.(2021·黑龙江·漠河市高级中学高三阶段练习(文))某单位为了了解办公楼用电量 (度)与气温
(℃)之间的关系,随机统计了四个工作量与当天平均气温,并制作了对照表:
气温(℃) 18 13 10 -1
用电量(度) 24 34 38 64
由表中数据得到线性回归方程 ,当气温为 ℃时,预测用电量均为A.68度 B.52度 C.12度 D.28度
【答案】A
【详解】
由表格可知 , ,根据回归直线方程必过 得 ,因此当 时, ,故
选择A.
4.(2022·全国·高三专题练习)关于线性回归的描述,有下列命题:
①回归直线一定经过样本中心点;
②相关系数 的绝对值越大,拟合效果越好;
③相关指数 越接近1拟合效果越好;
④残差平方和越小,拟合效果越好.
其中正确的命题个数为( )
A.1 B.2 C.3 D.4
【答案】C
【分析】
根据回归直线方程的性质,相关系数、相关系数及残差平方和的意义判断各项的正误即可.
【详解】
对于①,回归直线一定经过样本中心点,故正确;
对于②,相关系数 的绝对值越接近于1,相关性越强,故错误;
对于③,相关指数 越接近1拟合效果越好,故正确;
对于④,残差平方和越小,拟合效果越好,故正确.
故选:C.
5.(2022·全国·高三专题练习)下列表述中,正确的个数是( )
①将一组数据中的每一个数据都加上同一个常数后,方差不变;
②设有一个回归方程 ,变量 增加1个单位时, 平均增加5个单位;
③设具有相关关系的两个变量 , 的相关系数为 ,那么 越接近于0, , 之间的线性相关程度越高;
④在一个 列联表中,根据表中数据计算得到 的观测值 ,若 的值越大,则认为两个变量间有关的
把握就越大.
A.0 B.1 C.2 D.3【答案】C
【分析】
①根据方差的性质即可判断,②由回归方程一次项的系数符号可知增减情况,③根据相关系数的含义判断
正误,④根据卡方检验的观测值的意义判断正误.
【详解】
①将一组数据中的每一个数据都加上同一个常数 后 ,方差不变,正确;
②设有一个回归方程 ,变量 增加1个单位时, 平均减少5个单位,错误;
③设具有相关关系的两个变量 , 的相关系数为 ,那么 越接近于1, , 之间的线性相关程度越高,
错误;
④在一个 列联表中,根据表中数据计算得到 的观测值 ,若 的值越大,两个变量有关系的出错概
率越小,则认为两个变量间有关的把握就越大,正确.
故选:C
6.(2022·全国·高三专题练习(文))对两个变量y与x进行回归分析,分别选择不同的模型,它们的相
关系数r如下,其中拟合效果最好的模型是( )
A.0.2 B.0.8 C.-0.98 D.-0.7
【答案】C
【分析】
由相关系数的绝对值越大,越具有强大相关性,即可求解
【详解】
∵相关系数的绝对值越大,越具有强大相关性,
C相关系数的绝对值最大约接近1,
∴C拟合程度越好.
故选:C
7.(2022·全国·高三专题练习)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的
是( )A. B.
C. D.
【答案】A
【分析】
由给出的四组数据的散点图,结合相关系数的概念,逐图判定,即可求解.
【详解】
由给出的四组数据的散点图可以看出,题图1和题图3是正相关,相关系数大于0,
题图2和题图4是负相关,相关系数小于0,
题图1和题图2的点相对更加集中,所以相关性更强,所以 接近于1, 接近于 ,
由此可得 .
故选:A.
8.(2022·全国·高三专题练习(理))如果发现散点图中所有的样本点都落在一条斜率为非0实数的直线
上,则下列说法错误的是( )
A.解释变量和预报变量是一次函数关系 B.相关系数
C.相关指数 D.残差平方和为0
【答案】B
【分析】根据相关指数和残差的定义逐一判断即可.【详解】
散点图中所有的样本点都落在一条斜率为非0实数的直线上,所以解释变量和预报变量是一次函数关系,
且残差平方和为0,因此选项AD正确;
由题意可知, ,若直线的斜率为正,则 ,若直线的斜率为负,则 .
故选:B.
9.(2022·全国·高三专题练习(理))对四组数据进行统计,获得如图所示的散点图,关于其相关系数的
比较,正确的是( )
A. B.
C. D.
【答案】A
【分析】
根据题中给出的散点图,先判断是正相关还是负相关,然后根据散点图的集中程度分析相关系数的大小
【详解】
解:由图可知,图2和图3是正相关,图1和图4是负相关,
囷1和图2的点相对更加集中,所以相关性更强,所以 接近于 , 接近1,
所以 ,
故选:A
10.(2022·全国·高三专题练习(理))变量x,y的线性相关系数为 ,变量m,n的线性相关系数为 ,
下列说法错误的是( )
A.若 ,则说明变量x,y之间线性相关性强B.若 ,则说明变量x,y之间的线性相关性比变量m,n之间的线性相关性强
C.若 ,则说明变量x,y之间的相关性为正相关D.若 ,则说明变量x,y之间线性不相关
【答案】B
【分析】
根据相关系数的意义逐项分析判断即可.
【详解】
A:因为 接近于1,所以说明变量x,y之间线性相关性强,故A正确;
B:若 ,满足 ,
但是不能说明变量x,y之间的线性相关性比变量m,n之间的线性相关性强,故B错误;
C:若 ,则说明变量x,y之间的相关性为正相关,故C正确;
D: ,则说明变量x,y之间线性不相关,故D正确.
故选:B.
11.(2022·全国·高三专题练习(文))已知相关变量 和 的散点图如图所示,若用 与
拟合时的相关系数分别为 则比较 的大小结果为( )
A. B. C. D.不确定
【答案】C
【分析】
由散点图可知,对数形式的拟合程度高,再根据负相关,比较两个相关系数大小.
【详解】由散点图可知, 拟合比用 拟合的程度高,故 ;
又因为此关系为负相关,
故选:C12.(2022·全国·高三专题练习(文))在一组样本数据(x,y),(x,y),…,(x,y)(n≥2,
1 1 2 2 n n
x,x,…,x 不全相等)的散点图中,若所有样本点(x,y)(i=1,2,…,n)都在直线y= x+1上,则这组样本数
1 2 n i i
据的样本相关系数为( )
A.-1 B.0 C. D.1
【答案】D
【分析】
所有样本点(x,y)(i=1,2,…,n)都在直线 上,故这组样本数据完全正相关,故其相关系
i i
数为1.
【详解】
由题设知,所有样本点(x,y)(i=1,2,…,n)都在直线 上,
i i
∴这组样本数据完全正相关,故其相关系数为1,故选D.
根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.
13.(2022·全国·高三专题练习)如图,5个 数据,去掉 后,下列说法错误的是( )
A.相关系数r变大 B.残差平方和变大
C.R2变大 D.解释变量x与预报变量y的相关性变强
【答案】B
【分析】
根据图中的点,计算去掉 前后的相关系数、残差平方和、 ,即可判断各选项的正误.
【详解】由图, , ,则 , ,
,∴相关系数 .
令回归方程 ,则 ,
∴ ,即回归方程为 ,可得 为 , ,
, , ,
∴残差平方和 ,故 ,
去掉 后,
, ,则 , ,
,
∴相关系数 .
∴ ,A、D正确;
令回归方程 ,则 ,
∴ ,即回归方程为 ,可得 为 , ,
, ,
∴残差平方和 ,故 ,
∴ ,B错误,C正确;
故选:B
14.(2022·全国·高三专题练习)某公交公司推出扫码支付乘车优惠活动,活动为期两周,活动的前五天
数据如下表:
第 天 1 2 3 4 5使用人数( ) 15 173 457 842 1333
由表中数据可得y关于x的回归方程为 ,则据此回归模型相应于点(2,173)的残差为
( )
A. B. C.3 D.2【答案】B
【分析】
先计算出 的值,然后求得估计值,最后计算出残差.
【详解】
令 ,则 ,
1 4 9 16 25
使用人数( ) 15 173 457 842 1333
, ,
所以 ,
所以 ,
当 时, ,
所以残差为 .
故选:B
【点睛】
非线性回归要先转化为线性回归来求解,回归直线方程过样本中心点.
15.(2022·全国·高三专题练习)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩
生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.
非一线 一线 总计
愿生 45 20 65
不愿生 13 22 35
总计 58 42 100
计算得, .
参照下表,
0.050 0.010 0.0013.841 6.635 10.828
下列结论正确的是( )
A.在犯错误的概率不超过 的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过 的前提下,认为“生育意愿与城市级别无关”
C.有 以上的把握认为“生育意愿与城市级别有关”
D.有 以上的把握认为“生育意愿与城市级别无关”
【答案】C
【分析】
根据 的值与临界值比较即可判断进而可得正确选项.
【详解】
因为 ,所以有 以上的把握认为“生育意愿与城市级别有关”,
故选项A、B、D不正确,
故选:C.
16.(2022·全国·高三专题练习)2018世界特色魅力城市200强新鲜出炉,包括黄山市在内的28个中国城
市入选,美丽的黄山风景和人文景观迎来众多宾客.现在很多人喜欢“自助游”,某调查机构为了了解
“自助游”是否与性别有关,在黄山旅游节期间,随机抽取了100人,得如下所示的列联表:
赞成“自助游” 不赞成“自助游” 合计
男性 30 15 45
女性 45 10 55
合计 75 25 100
参考公式: ,其中 .
0.15 0.10 0.05 0.025 0.010 0.005 0.001
x 2.072 2.706 3.841 5.024 6.635 7.879 10.828
0
参照公式,得到的正确结论是( )A.有 以上的把握认为“赞成‘自助游’与性别无关”
B.有 以上的把握认为“赞成‘自助游’与性别有关”
C.在犯错误的概率不超过 的前提下,认为“赞成‘自助游’与性别无关”
D.在犯错误的概率不超过 的前提下,认为“赞成‘自助游’与性别有关”
【答案】D
【分析】
计算 的值与临界值比较即可判断四个选项的正确性,进而可得正确选项.
【详解】
将 列联表中的数据代入计算,得 ,
因为 ,
所以在犯错误的概率不超过 的前提下,可以认为“赞成‘自助游’与性别有关”.
有 以上的把握认为“赞成‘自助游’与性别有关”,没有 以上的把握认为“赞成‘自助游’与
性别有关”,故选项ABC不正确,
故选:D.
17.(2022·全国·高三专题练习(文))为了了解某高中生对电视台某节目的态度,在某中学随机调查了
110名同学,得到如下列联表:
男 女 总计
喜欢 40 20 60
不喜
20 30 50
欢
总计 60 50 110
由 算得 .
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“喜欢该节目与性别有关”B.在犯错误的概率不超过0.1%的前提下,认为“喜欢该节目与性别无关”
C.有99%的把握认为“喜欢该节目与性别有关”
D.有99%的把握认为“喜欢该节目与性别无关”
【答案】C
【分析】
根据求出的数据,结合临界值表判断即可
【详解】
解:因为 ,
所以在犯错误的概率不超过1%的前提下,认为“喜欢该节目与性别有关”,或有99%的把握认为“喜欢
该节目与性别有关”,
故选:C
18.(2022·全国·高三专题练习(文))为了解某高校学生使用手机支付和现金支付的情况,抽取了部分
学生作为样本,统计其喜欢的支付方式,并制作出如等高条形图:
根据图中的信息,下列结论中不正确的是( )
A.样本中多数男生喜欢手机支付
B.样本中的女生数量少于男生数量
C.样本中多数女生喜欢现金支付
D.样本中喜欢现金支付的数量少于喜欢手机支付的数量
【答案】C
【分析】
根据两等号条形图的信息,逐个分析判断即可.
【详解】
对于A,由右图可知,样本中多数男生喜欢手机支付,A对;
对于B,由左图可知,样本中的男生数量多于女生数量,B对;对于C,由右图可知,样本中多数女生喜欢手机支付,C错;
对于D,由右图可知,样本中喜欢现金支付的数量少于喜欢手机支付的数量,D对.
故选:C.
19.(2021·全国·高三专题练习(文))现行普通高中学生在高一时面临着选科的问题,学校抽取了部分
男、女学生意愿的一份样本,制作出如下两个等高堆积条形图:
根据这两幅图中的信息,下列哪个统计结论是不正确的( )
A.样本中的女生数量多于男生数量
B.样本中有两理一文意愿的学生数量多于有两文一理意愿的学生数量
C.样本中的男生偏爱两理一文
D.样本中的女生偏爱两文一理
【答案】D
【分析】
由等高堆积条形图逐项判断即可.
【详解】
解:由条形图知女生数量多于男生数量,故A正确;
有两理一文意愿的学生数量多于有两文一理意愿的学生数量,故B正确;
男生偏爱两理一文,故C正确;
女生中有两理一文意愿的学生数量多于有两文一理意愿的学生数量,故D错误.
故选:D.
二、多选题
20.(2021·山东聊城·三模)对具有相关关系的两个变量x和y进行回归分析时,经过随机抽样获得成对的样本点数据 ,则下列结论正确的是
( )
A.若两变量x,y具有线性相关关系,则回归直线至少经过一个样本点
B.若两变量x,y具有线性相关关系,则回归直线一定经过样本点中心
C.若以模型 拟合该组数据,为了求出回归方程,设 ,将其变换后得到线性方程
,则a,b的估计值分别是3和6.
D.用 来刻画回归模型的拟合效果时,若所有样本点都落在一条斜率为非零实数的直
线上,则 的值为1
【答案】BCD
【分析】
分别根据线性相关关系及拟合曲线关系对选项一一分析.
【详解】
若两变量x,y具有线性相关关系,即满足 ,则一定满足 ,样本点不一定在拟合直线上,
故A错误,B正确;
若以模型 拟合该组数据, ,故 ,故C正确;
用 来刻画回归模型的拟合效果时,若所有样本点都落在一条斜率为非零实数的直线上,
则 ,即 ,故D正确;
故选:BCD
21.(2021·辽宁朝阳·一模)关于变量 、 的 个样本点 、 、 、 及其线性回归方程: ,下列说法正确的有( )
A.若相关系数 越小,则表示 、 的线性相关程度越弱
B.若线性回归方程中的 ,则表示变量 、 正相关
C.若残差平方和越大,则表示线性回归方程拟合效果越好D.若 , ,则点 一定在回归直线 上
【答案】BD
【分析】
本题可根据线性相关系数的意义判断出A错误,然后根据 判断出B正确,再然后根据残差平方
和越大拟合效果越差判断出C错误,最后根据样本中心点一定在回归直线上判断出D正确.
【详解】
A项:根据线性相关系数的意义可知,当 的绝对值越接近于0时,两个随机变量线性相关越来越弱,A
错误;
B项:当 时,结合 易知,变量 、 正相关,B正确;
C项:残差平方和越大,拟合效果越差,C错误;
D项:样本中心点一定在回归直线上,D正确,
故选:BD.
22.(2022·江苏·高三专题练习)则下列说法正确的是( )
A.在回归分析中,残差的平方和越小,模型的拟合效果越好;
B.在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;
C.若数据 , ,…, 的平均数为1,则 , ,… 的平均数为2;
D.对分类变量 与 的随机变量 的观测值 来说, 越小,判断“ 与 有关系”的把握越大.
【答案】ABC
【分析】
根据残差的意义,可判定AB真命题;根据数据的平均值的计算公式,可得C真命题;根据独立性检验中
观测值 的几何意义,可判定D为假命题.
【详解】
根据残差的意义知,残差的平方和越小,模型的拟合效果越好,所以A正确;
由残差的意义知,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适,
所以B正确;
若数据 , ,…, 的平均数为1,则 , ,… 的平均数为也扩大为原来的2倍,即平均数为2,所以C正确;对分类变量 与 的随机变量 的观测值 来说,应该是 越大,判断“ 与 有关系”的把握越大,所
以D不正确.
故选:ABC.
23.(2022·全国·高三专题练习)针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”
作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的 ,女生喜欢抖音的人
数占女生人数 ,若有 的把握认为是否喜欢抖音和性别有关则调查人数中男生可能有( )人
附表:
0.050 0.010
3.841 6.635
附:
A.25 B.45 C.60 D.75
【答案】BC
【分析】
设男生的人数为 ,列出 列联表,计算出 的观测值,结合题中条件可得出关于 的不等式,
解出 的取值范围,即可得出男生人数的可能值.
【详解】
解:设男生的人数为 ,
根据题意列出 列联表如下表所示:
男生 女生 合计
喜欢抖音
不喜欢抖音
合计则 ,
由于有 的把握认为是否喜欢抖音和性别有关,则 ,即 ,
得 ,
,则 的可能取值有 、 、 、 ,
因此,调查人数中男生人数的可能值为 、50、55或 .
故选:BC.
三、填空题
24.(2022·全国·高三专题练习)有人发现,多看手机容易使人近视,下表是调查机构对此现象的调查数
据:
近视 不近视 总计
少看手机
多看手机
总计
则在犯错误的概率不超过__________的前提下认为近视与多看手机有关系.
附表:
参考公式: ,其中 .
【答案】
【分析】
根据列联表计算得 ,进而得答案.
【详解】
解:根据列联表计算 ,
所以在犯错误的概率不超过 的前提下认为近视与多看手机有关系.
故答案为:四、解答题
25.(2022·全国·高三专题练习(文))近年来,新能源产业蓬勃发展,已成为我市的一大支柱产业.据统
计,我市一家新能源企业近5个月的产值如下表:
月 份 5月 6月 7月 8月 9月
月份代码 1 2 3 4 5
产值 亿元 16 20 27 30 37
(1)根据上表数据,计算 与 的线性相关系数 ,并说明 与 的线性相关性强弱;( ,则认
为 与 线性相关性很强; ,则认为 与 线性相关性不强)
(2)求出 关于 的线性回归方程,并预测10月该企业的产值.
参考公式: ;
参考数据: .
【答案】
(1) ;相关系数较强;
(2) ;10月该企业的产值约为 亿元
【分析】
(1)利用表中数据求出 ,再由相关系数的求解公式即可求解.
(2)利用最小二乘法即可求解.
(1)
, ,
,因为 ,所以 与 线性相关性较强.(2)
设线性回归方程为: ;
,
,
即 ,
10月份对应的代码为 ,
,
10月该企业的产值约为 亿元.
26.(2021·江西·模拟预测(文))某科技公司研发了一项新产品 ,经过市场调研,对公司1月份至6
月份销售量及销售单价进行统计,销售单价 (千元)和销售量 (千件)之间的一组数据如下表所示:
月份 1 2 3 4 5 6
销售单价
销售量
(1)试根据1至5月份的数据,建立 关于 的回归直线方程;
(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差不超过 千元,则认为所得到的回归
直线方程是理想的,试问(1)中所得到的回归直线方程是否理想?
参考公式:回归直线方程 ,其中 .
参考数据: , .
【答案】(1) ;(2)是.
【分析】
(1)先由表中的数据求出 ,再利用已知的数据和公式求出 ,从而可求出 关于 的回归直线方程;(2)当 时,求出 的值,再与15比较即可得结论【详解】
(1)因为 , ,
所以 ,
得 ,
于是 关于 的回归直线方程为 ;
(2)当 时, ,
则 ,
故可以认为所得到的回归直线方程是理想的.
27.(2022·河南·温县第一高级中学高三阶段练习(理))身高体重指数(BMI)的大小直接关系到人的健
康状况,某高中高三(1)班班主任为了解该班学生的身体健康状况,从该班学生中随机选取5名学生,测
量其身高、体重(数据如下表)并进行线性回归分析,得到线性回归方程为 ,因为某些原因,
3号学生的体重数据丢失.
学生编号 1 2 3 4 5
身高 165 170 175 170 170
体重 58 62 65 63
(1)求表格中的 值;
(2)已知公式 可以用来刻画回归的效果,请问学生的体重差异约有百分之多少是由身
高引起的.(注:结果四舍五入取整数)
【答案】
(1)
(2)88%
【分析】(1)根据样本中心 满足线性回归方程得 ,再根据平均数求解即可;(2)根据回归方程依次计算对应数据的残差,并列表,再结合公式计算即可.
(1)
解: ,
∵样本点的中心 满足线性回归方程,
∴ .
∴ ,解得 .
(2)
解:根据回归方程,依次计算各组数据的残差,得如下表:
学生编号 1 2 3 4 5
身高 165 170 175 170 170
体重 58 62 67 65 63
残差 2 0
∴ ,
.
∴ .
∴学生的体重差异约有88%是由身高引起的.
28.(2022·全国·高三专题练习)2021年6月17日9时22分,我国酒泉卫星发射中心用长征 遥十二运
载火箭,成功将神舟十二号载人飞船送入预定轨道,顺利将聂海胜、刘伯明、汤洪波3名航天员送入太空,
发射取得圆满成功,这标志着中国人首次进入自己的空间站.某公司负责生产的A型材料是神舟十二号的
重要零件,该材料应用前景十分广泛.该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改
造、根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下:
序号 1 2 3 4 5 6 7 8 9 10 11 12x 2 3 4 6 8 10 13 21 22 23 24 25y 15 22 27 40 48 54 60 68.5 68 67.5 66 65
当 时,建立了y与x的两个回归模型:模型①: ,模型②: ;当
时,确定y与x满足的线性回归方程为 .
(1)根据下列表格中的数据,比较当 时模型①,②的相关指数 的大小,并选择拟合精度更高、
更可靠的模型,预测对A型材料进行应用改造的投入为17亿元时的直接收益;
回归模型 模型① 模型②
回归方程
79.13 20.2
(2)为鼓励科技创新,当应用改造的投入不少于20亿元时,国家给予公司补贴5亿元,以回归方程为预
测依据,根据(1)中选择的拟合精度更高更可靠的模型,比较投入17亿元与20亿元时公司收益(直接收
益+国家补贴)的大小.
附:刻画回归效果的相关指数 ,且当 越大时,回归方程的拟合效果越好. .
用最小二乘法求线性回归方程 的截距: .
【答案】(1)模型②拟合精度更高、更可靠, 亿;(2)投入17亿元比投入20亿元时收益小.
【分析】
(1)根据公式计算相关指数,再根据大小选择合适的模型,根据所得模型可求直接受益.
(2)根据(1)中的公式结合利润计算方法可求公司收益,从而可得两者的大小关系.
【详解】
(1)对于模型①,
对应的 ,
故对应的 ,
故对应的相关指数 ,对于模型②,同理对应的相关指数 ,
故模型②拟合精度更高、更可靠.
故对A型材料进行应用改造的投入为17亿元时的直接收益为 .
(2)当 时,
后五组的 , ,
由最小二乘法可得 ,
故当投入20亿元时公司收益(直接收益+国家补贴)的大小为:
,
故投入17亿元比投入20亿元时收益小.
29.(2021·河南·一模(文))近年来,政府相关部门引导乡村发展旅游的同时,鼓励农户建设温室大棚
种植高品质农作物.为了解某农作物的大棚种植面积对种植管理成本的影响,甲,乙两同学一起收集6家农
户的数据,进行回归分析,得到两个回归摸型:模型①: ,模型②:
,对以上两个回归方程进行残差分析,得到下表:
种植面积 (亩) 2 3 4 5 7 9
每亩种植管理成本
25 24 21 22 16 14
(百元)
估计值
25.27 23.62 21.97 17.02 13.72
模型①
残差 -0.27 0.38 -0.97 -1.02 0.28
26.84 20.17 18.83 17.31 16.46
模型②
-1.84 0.83 3.17 -1.31 -2.46
(1)将以上表格补充完整,并根据残差平方和判断哪个模型拟合效果更好;(2)视残差 的绝对值超过1.5的数据视为异常数据,针对(1)中拟合效果较好的模型,剔除异常数据
后,重新求回归方程.
附: , ;
【答案】(1)表格答案见解析,模型①拟合效果比较好.(2)
【分析】
(1)令 时,求得 , ,令 时,求得 , ,填入表格即可.根据残差平方和公式,分别
求得模型①的残差平方和,模型②的残差平方和,再比较下结论.
(2)根据视残差 的绝对值超过1.5的数据视为异常数据,应剔除第四组数据,分别求得 , ,利用公
式进而求得 , ,写出回归方程.
【详解】
(1)当 时, , ,
当 时, , ,
完成表格如下:
种植面积 (亩) 2 3 4 5 7 9
每亩种植管理成本
25 24 21 22 16 14
(百元)
估计值
25.27 23.62 21.97 20.32 17.02 13.72
模型①
残差 -0.27 0.38 -0.97 1.68 -1.02 0.28
26.84 22.39 20.17 18.83 17.31 16.46
模型②
-1.84 1.61 0.83 3.17 -1.31 -2.46模型①的残差平方和为 ,
模型②的残差平方和为 ,
所以模型①的残差平方和比模型②的残差平方和小,
所以模型①拟合效果比较好.
(2)由题意知,应剔除第四组数据,
, ,
,
,
∴所求回归方程为 .
【点睛】
本题考查回归分析,线性回归方程模型的建立,还考查了数据处理能力和运算求解能力,属于中档题.
30.(2021·全国·模拟预测)婺源位于江西省东北部,其境内古村落遍布乡野,保存完整,生态优美,物
产丰富,拥有着油菜花之乡的美誉,被誉为一颗镶嵌在赣、浙、皖三省交界处的绿色明珠.为了调查某片
实验田3月份油菜花的生长高度,研究人员在当地随机抽取了13株油菜花进行高度测量,所得数据如下:
, , , , , ,
, , .并通过绘制及观察散点图,选用两种模型进行
拟合:
模型一: ,其中令 ;
模型二: ,其中令 .(1)求模型二的回归方程;
(2)试通过计算相关系数的大小,说明对于所给数据,哪一种模型更加合适.
参考数据: , , , .
附:对于一组数据 , ,…, ,其回归方程的斜率和截距的最小二乘估计分别为 , ,相关系数
.
【答案】
(1)
(2) , ,模型二更合适.
【分析】
(1)模型二 ,其中令 ,则y=c+dt,则y和t成线性关系,由最小二乘法求出c和d即可;
(2)计算两种模型的相关系数,相关系数绝对值越大,拟合越好,模型更合适.
(1)
因为 ,
,
所以模型二的回归方程为 .
(2)
依题意,模型一的相关系数 ,
模型二的相关系数 .
因为 ,所以用模型 建立y与x的回归方程更合适.
31.(2021·陕西·西安中学高三阶段练习(文))我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金,
现该企业为了解年研发资金投入额x(单位:亿元)对年盈利额y(单位:亿元)的影响,研究了“十二
五”和“十三五”规划发展期间近10年年研发资金投入额 和年盈利额 的数据.通过对比分析,建立了
两个函数模型:① ;② ,其中 均为常数,e为自然对数的底数.令 ,
,经计算得如下数据:26 215 65 2 680 5.36
11250 130 2.6 12
(1)请从相关系数的角度,分析哪一个模型拟合程度更好;
(2)根据(1)的选择及表中数据,建立y关于x的回归方程(回归系数精确到0.01).
附:相关系数 ,
线性回归直线方程 ,其中附: , .
【答案】
(1)模型②更好,理由见解析;
(2) .
【分析】
(1)根据已知数据,结合函数模型,分别计算相关系数,即可进行比较;
(2)根据参考公式和已知数据,先求得 关于 的线性回归方程,再转化为 关于 的回归方程即可.
(1)
若选择模型① ,
故可得其相关系数
若选择模型② , ,故可得其相关系数
则 ,因此从相关系数的角度,模型 的拟合程度更好.
(2)
先建立 关于 的线性回归方程,由 得 ,即 .
, ,
故 关于 的线性回归方程为: ,
故 ,即 ,
故y关于x的回归方程为: .
【点睛】
本题考察回归方程的求解,其中第二问中,需要对 取对数得 ,求得 关于 的线性回归
方程,再转化为 关于 的回归方程,是处理本题的难点和关键点,属中档题.
32.(2021·四川·成都七中一模(文))某投资公司2012年至2021年每年的投资金额 (单位:万元)与
年利润增量 (单位:万元)的散点图如图:该投资公司为了预测2022年投资金额为20万元时的年利润
增量,建立了 关于 的两个回归模型;模型①:由最小二乘公式可求得 与 的线性回归方程:
;模型②:由图中样本点的分布,可以认为样本点集中在由线: 的附近,对投
资金额 做换元,令 ,则 ,且有 ,(1)根据所给的统计量,求模型②中 关于 的回归方程;
(2)分别利用这两个回归模型,预测投资金额为20万元时的年利润增量(结果保留两位小数);附:样本 的最小乘估计公式为 ;参考数据:
.
【答案】
(1)
(2)模型①的年利润增量的预测值为 (万元),模型②的年利润增量的预测值为 (万元)
【分析】
(1)结合已知数据和公式求出 这两个系数即可得回归方程;
(2)把 代入模型①、②的回归方程,算出 即可.
(1)
由题意,知 ,可得 ,
又由 ,
则
所以,模型②中 关于 的回归方程 .
(2)
当 时,模型①的年利润增量的预测值为 (万元),
当 时,模型②的年利润增量的预测值为
万元
33.(2021·云南师大附中高三阶段练习(文))近年来,由于耕地面积的紧张,化肥的施用量呈增加趋势.
一方面,化肥的施用对粮食增产增收起到了关键作用,另一方面,也成为环境污染、空气污染、土壤污染
的重要来源之一如何合理地施用化肥,使其最大程度地促进粮食增产,减少对周围环境的污染成为需要解
决的重要问题研究粮食产量与化肥施用量的关系,成为解决上述问题的前提某研究团队收集了10组化肥施用量和粮食亩产量的数据并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值化肥施
用量为 (单位:公斤),粮食亩产量为 (单位:百公斤).参考数据:
650 91.5 52.5 1478.6 30.5 15 15 46.5
表中 .
(1)根据散点图判断, 与 ,哪一个适宜作为粮食亩产量 关于化肥施用量 的回归方程类
型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中数据,建立 关于 的回归方程;
(3)根据(2)的回归方程,并预测化肥施用量为27公斤时,粮食亩产量 的值;
附:①对于一组数据 ,其回归直线 的斜率和截距的最小二乘估计分别为
;②取 .
【答案】
(1) 更适合作为 关于 的回归方程类型;
(2) ;
(3)810公斤.
【分析】(1)根据散点图即可判断, 更适合作为 关于 的回归方程类型;
(2)对 两边取对数,得 ,即 ,根据表中数据求出 ,再根据最
小二乘法求出 和 的值,从而得出 关于 的回归方程;(3)由(2)得 ,当 时,即可预测粮食亩产量 的值.
(1)
解:根据散点图可判断, 更适合作为 关于 的回归方程类型.
(2)
解:对 两边取对数,得 ,即 ,
由表中数据得: , ,
,
,所以 ,
所以 关于 的回归方程为 .
(3)
解:由(2)得 ,
当 时, ,
所以当化肥施用量为27公斤时,粮食亩产量约为810公斤.
34.(2021·河北·高三阶段练习)《2021新锐品牌数字化运营白皮书》中,我国提出了新锐品牌的概念,
全称是国货新锐品牌.对这个名称进行拆解:国货、新、锐.新有两个层面,一是针对企业本身,指2011年后
成立的品牌.二是针对消费者本身,开拓了新的消费场景(需求),形成了细分化的品类.锐:是在短期内
实现大大高于传统品牌的爆发式增长,并且占据了一定的消费者心智.如图是11月份中国某信息网发布的
我国 市2021年上半年新锐品牌人群用户(新锐品牌人群,指在指定周期内浏览新锐品牌相关内容以及商
品详情页的人群)性别分析数据. 市对购买家电类新锐品牌人群中随机调查了100位男性顾客和100位女
性顾客,统计出每位顾客购买家电消费金额,根据这些数据得到如下的频数分布表:消费金额(元)
女性顾客人数 50 30 10 6 4
男性顾客人数 20 40 24 10 6
(1)若以我国 市2021年上半年新锐品牌人群用户性别分析数据作为 市抽取新锐品牌人群中性别概率,
从 市新锐品牌人群中随机抽取四人, 为四人中男性的人数,求 的概率分布列和期望.
(2)根据 市统计购买家电消费金额数据频数分布表,完成下列 列联表,并根据列联表,判断是否有
99%的把握认为购买家电类新锐品牌人群消费金额千元以上与性别有关?
不超千元 千元以上 合计
女性顾客
男性顾客
合计
附: ,
0.050 0.010 0.001
3.841 6.635 10.828
【答案】
(1)分布列答案见解析,数学期望:(2)列联表答案见解析,有99%的把握认为顾客购买家电消费金额千元以上与性别有关
【分析】
(1)由频率估计概率得人群中随机抽取一人为男性的概率为75%,为女性的概率为25%,进而结合二项
分布求解即可;
(2)根据题意补全列联表,结合公式计算 ,进行独立性检验.
(1)
解:若以我国2021年上半年新锐品牌人群用户性别比例数据作为 市抽取新锐品牌人群性别概率,
则 市新锐品牌人群中随机抽取一人为男性的概率为75%,为女性的概率为25%,且 服从二项分布,
得 分布列为
0 1 2 3 4
的数学期望: .
(2)
解:根据所给数据,可得 列联表:
不超千元 千元以上 合计
女性顾客 80 20 100
男性顾客 60 40 100
合计 140 60 200
根据列联表得 .因为 ,所以有99%的把握认为顾客购买家电消费金额千元以上与性别有关.35.(2022·全国·高三专题练习)某中学随机抽查了 名同学的每天课外阅读时间,得到如下统计表:
时长(分)
人数
(1)求这 名同学的平均阅读时长(用区间中点值代表每个人的阅读时长);
(2)在阅读时长位于 的 人中任选 人,求甲同学被选中的概率;
(3)进一步调查发现,语文成绩和每天的课外阅读时间有很大关系,每天的课外阅读时间多于半小时称
为“阅读迷”,语文成绩达到 分视为优秀,根据每天的课外阅读时间和语文成绩是否优秀,制成一个
列联表:
阅读迷 非阅读迷 合计
语文成绩优秀
语文成绩不优秀
合计
根据表中数据,判断是否有 的把握认为语文成绩是否优秀与课外阅读时间有关.
参考公式: ,其中 .
参考数据:
【答案】
(1) 小时
(2)
(3)有,理由见解析
【分析】(1)将每组的中点值乘以对应组的人数相乘,将所求结果相加后除以 可得这 名同学的平均阅读时长;
(2)设这 名学生分别为甲、乙、丙、丁,列举出所有的基本事件,并确定所求事件所包含的基本事件,
利用古典概型的概率公式可求得结果;
(3)计算出 的观测值,结合临界值表可得出结论.
(1)
设这 名同学的平均阅读时长为 小时,
则 ,
故这 名同学的平均阅读时长为 小时;
(2)
设这 名学生分别为甲、乙、丙、丁,
从这 名学生任取 名学生,所有的基本事件有:(甲,乙)、(甲、丙)、(甲、丁)、(乙、丙)、
(乙,丁)、(丙、丁),共 个,
其中,事件“甲同学被选中”所包含的基本事件有:(甲,乙)、(甲、丙)、(甲、丁),
因此,所求概率为 ;
(3)
,
因此,有 的把握认为语文成绩是否优秀与课外阅读时间有关.
36.(2022·全国·高三专题练习)为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做
试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和
表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2)
表1:注射药物A后皮肤疱疹面积的频数分布表
疱疹面积 [60,65) [65,70) [70,75) [75,80)
频数 30 40 20 10
表2:注射药物B后皮肤疱疹面积的频数分布表
[60,
疱疹面积 [65,70) [70,75) [75,80) [80,85)
65)频数 10 25 20 30 15(1)完成下面2×2列联表;
疱疹面积小于70 mm2 疱疹面积不小于70 mm2 总计
注射药物A a= b=
注射药物B c= d=
总计 n=
(2)能否在犯错误概率不超过0.01的前提下,认为“注射药物A后的疱疹面积与注射药物B后的疱疹面
积有差异”?
【答案】
(1)列联表见解析
(2)能在犯错误概率不超过0.01的前提下,认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积
有差异”.
【分析】
(1)根据表格1和表格2中的数据,分别求得 的值,即可得到 列联表;
(2)由(1)中 列联表中的数据,利用公式求得 ,结合 ,即可得到结论.
(1)
解:根据题意,利用表格1和表格2中的数据,
则注射药物 且疱疹面积小于70 mm2,可得 ;
注射药物 且疱疹面积不小于70 mm2,可得 ;
注射药物 且疱疹面积小于70 mm2,可得 ;
注射药物 且疱疹面积不小于70 mm2,可得 ;
可得 列联表,如图下表所示:
疱疹面积小于70 mm2 疱疹面积不小于70 mm2 总计
注射药物A 100
注射药物B 100
总计 105 95 200(2)解:由 列联表中的数据,可得 ,
由于 ,所以有99 %的把握认为两者有关系,
即在犯错误概率不超过0.01的前提下,认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差
异”.
37.(2022·全国·高三专题练习)某淘宝店经过对春节七天假期的消费者进行统计,发现在金额不超过
1000元的消费者中男女比例为 ,该店按此比例抽取了100名消费者进行进一步分析,得到下表女性消
费情况:
消费金额(元)
人数 5 10 15 47 3
男性消费情况:
消费金额(元)
人数 2 3 10 3 2
若消费金额不低于600元的网购者为“网购达人”,低于600元的网购者为“非网购达人”
(1)分别计算女性和男性消费的平均数,并判断平均消费水平高的一方“网购达人”出手是否更阔绰?
(2)根据以上统计数据填写如下 列联表,并回答能否在犯错误的概率不超过 的前提下认为“是否
为‘网购达人’与性别有关”.
女性 男性 合计
“网购达人”
“非网购达人”
合计
附: .【答案】(1)女消费者消费平均数为582.5元,男消费者消费平均数为500元,“平均消费水平”高的一
方“网购达人”出手不一定更阔绰;
(2)列联表略,可以认为“是否为‘网购达人’与性别有关”
【详解】
(1)女消费者消费平均数
(元).
男消费者消费平均数 .
虽然女消费者消费水平较高,但“女网购达人”平均消费水平(为712元),低于“男网购达人”平均消费
水平(为780元),所以“平均消费水平”高的一方“网购达人”出手不一定更阔绰.
(2) 列联表如下所示:
女性 男性 合计
“网购达人” 50 5 55
“非网购达人” 30 15 45
合计 80 20 100
假设“是否为‘网购达人’与性别无关”,
则 ,
因为 ,
所以在犯错误的概率不超过 的前提下可以认为“是否为‘网购达人’与性别有关”.