文档内容
§9.2 变量间的相关关系、统计案例
考试要求 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.
了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立
性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及其简单应用.
1.相关关系与回归方程
(1)相关关系的分类
①正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它
称为正相关.
②负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(2)线性相关关系
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关
关系,这条直线叫做回归直线.
(3)回归方程
①最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.
②回归方程
方程y=bx+a是两个具有线性相关关系的变量的一组数据(x ,y),(x ,y),…,(x ,y)的
1 1 2 2 n n
回归方程,其中a,b是待定参数.
(4)回归分析
①定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
②样本点的中心
对于一组具有线性相关关系的数据(x,y),(x,y),…,(x,y),其中(,)称为样本点的中
1 1 2 2 n n
心.
③相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个
变量之间几乎不存在线性相关关系.通常|r|大于0.75 时,认为两个变量有很强的线性相关性.2.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们
的可能取值分别为{x,x}和{y,y},其样本频数列联表(称为2×2列联表)为
1 2 1 2
2×2列联表
y y 总计
1 2
x a b a + b
1
x c d c+d
2
总计 a+c b + d a+b+c+d
构造一个随机变量K2=,其中n=a+b+c+d为样本容量.
(3)独立性检验:利用随机变量 K 2 来判断“两个分类变量有关系”的方法称为独立性检验.
微思考
1.变量的相关关系与变量的函数关系有什么区别?
提示 相同点:两者均是指两个变量的关系.
不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系.
②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
2.线性回归方程是否都有实际意义?根据回归方程进行预报是否一定准确?
提示 (1)不一定都有实际意义.回归分析是对具有相关关系的两个变量进行统计分析的方
法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回
归方程毫无意义.
(2)根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.
题组一 思考辨析
1.判断下列结论是否正确(请在括号中打“√”或“×”)
(1)散点图是判断两个变量相关关系的一种重要方法和手段.( √ )
(2)回归直线y=bx+a至少经过点(x,y),(x,y),…,(x,y)中的一个点.( × )
1 1 2 2 n n
(3)相关系数的绝对值越接近1,样本数据的线性相关程度越强.( √ )
(4)若事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越小.( × )
题组二 教材改编
2.下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )答案 D
解析 观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关
系.
3.下面是2×2列联表:
y y 总计
1 2
x a 21 73
1
x 22 25 47
2
总计 b 46 120
则表中a,b的值分别为( )
A.94,72 B.52,50
C.52,74 D.74,52
答案 C
解析 ∵a+21=73,∴a=52.
又a+22=b,∴b=74.
4.已知x,y的对应取值如下表,从散点图可以看出y与x线性相关,且线性回归方程为y=
0.95x+a,则a等于( )
x 0 1 3 4
y 2.2 4.3 4.8 6.7
A.3.25 B.2.6 C.2.2 D.0
答案 B
解析 回归直线过点(2,4.5),
∴4.5=0.95×2+a,
∴a=2.6.
题组三 易错自纠5.在统计中,由一组样本数据(x,y),(x,y),…,(x,y)利用最小二乘法得到两个变量
1 1 2 2 n n
的回归方程为y=bx+a,那么下列说法不正确的是( )
A.相关系数r不可能等于1
B.回归直线y=bx+a必经过点(,)
C.回归直线y=bx+a表示最接近y与x之间真实关系的一条直线
D.相关系数为r,且|r|越接近1,样本数据的线性相关程度越强;|r|越接近0,样本数据的
线性相关程度越弱
答案 A
解析 相关系数的取值范围是|r|≤1,故A错;回归直线y=bx+a必过样本点的中心,即点
(,),故B正确;回归直线y=bx+a是利用最小二乘法求解出的直线方程,接近真实关系,
故C正确;相关系数r的绝对值越接近1,表示样本数据的线性相关程度越强,越接近0,
样本数据的线性相关程度越弱,故D正确.
6.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机
构用简单随机抽样的方法从不同地区调查了100位育龄妇女,结果如下表.
非一线城市 一线城市 总计
愿生 45 20 65
不愿生 13 22 35
总计 58 42 100
由K2=,
得K2=≈9.616.
参照下表:
P(K2≥k) 0.1 0.05 0.01 0.001
0
k 2.706 3.841 6.635 10.828
0
正确的结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”
C.有99%以上的把握认为“生育意愿与城市级别有关”
D.有99%以上的把握认为“生育意愿与城市级别无关”
答案 C
题型一 相关关系的判断
1.(2021·昆明诊断)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份 1 2 3 4 5 6
人均销售额 6 5 8 3 4 7
利润率(%) 12.6 10.4 18.5 3.0 8.1 16.3
根据表中数据,下列说法正确的是( )
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
答案 A
解析 由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C和
D;其属于正相关关系,A正确,B错误.
2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是(
)
A.r0,r>0,图(2)与图(4)是负相关,故r<0,
1 3 2
r<0,且图(1)与图(2)的样本点集中在一条直线附近,因此r0),所以z=-0.1b x+b+a,-0.1b<0,所以x与z负相关.故选C.
思维升华 判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,
两个变量负相关.
(2)相关系数:当r>0时,两个变量正相关;当r<0时,两个变量负相关.
(3)线性回归方程:当b>0时,两个变量正相关;当b<0时,两个变量负相关.
题型二 回归分析
命题点1 线性回归分析
例1 (2020·福州模拟)随着我国中医学的发展,药用昆虫的使用愈来愈多.每年春暖以后至
寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y(单位:
个)与一定范围内的温度x(单位:℃)有关,于是科研人员在3月份的31天中随机挑选了5天
进行研究,现收集了该种药用昆虫的5组观测数据如下表:
日期 2日 7日 15日 22日 30日
温度x/℃ 10 11 13 12 8
产卵数y/个 23 25 30 26 16
科研人员确定的研究方案是:先从这5组数据中任选2组,用剩下的3组数据建立y关于x
的线性回归方程,再对被选取的2组数据进行检验.
(1)若选取的是3月2日与30日这2组的数据,请根据3月7日、15日和22日这3组的数据,
求出y关于x的线性回归方程;
(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2个,则认为得
到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?
解 (1)由已知数据得=12,=27,
(x-)(y-)=5,(x-)2=2,
i i i所以b==,a=-=27-×12=-3.
所以y关于x的线性回归方程为y=x-3.
(2)由(1)知,y关于x的线性回归方程为y=x-3.
当x=10时,y=×10-3=22,|22-23|<2,
当x=8时,y=×8-3=17,|17-16|<2.
所以(1)中所得的线性回归方程y=x-3是可靠的.
命题点2 非线性回归分析
例2 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费 x(单位:千元)对年销
售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费x 和年销售量y(i=
i i
1,2,…,8)的数据作了初步处理,得到下面的散点图及一些统计量的值.
(x-)2 (w-)2 (x-)·(y-) (w-)·(y-)
i i i i i i
46.6 563 6.8 289.8 1.6 1 469 108.8
表中w=,=.
i i
(1)根据散点图判断y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方
程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u,v),(u,v),…,(u,v),其回归直线v=α+βu的斜率和截距的最
1 1 2 2 n n
小二乘估计分别为
β= ,α=-β.
解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程,由于
d===68,
c=-d=563-68×6.8=100.6,
所以y关于w的线性回归方程为y=100.6+68w,
因此y关于x的回归方程为y=100.6+68.(3)①由(2)知,当x=49时,
年销售量y的预报值y=100.6+68=576.6,
年利润z的预报值z=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
z=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,z取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
思维升华 回归分析问题的类型及解题方法
(1)求回归方程
①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.
②利用公式,求出回归系数b.
③待定系数法:利用回归直线过样本点的中心求系数a.
(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关,决定正相关还是负相关的是系数b.
(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性
越强.
跟踪训练1 (2020·全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有
所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块
中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x,y)(i=1,2,…,20),
i i
其中x和y分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算
i i
得
=60,=1 200,(x-)2=80,
i i i
(y-)2=9 000,(x-)(y-)=800.
i i i
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物
数量的平均数乘以地块数);
(2)求样本(x,y)(i=1,2,…,20)的相关系数(精确到0.01);
i i
(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地
区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r= ,≈1.414.
解 (1)由已知得样本平均数为==60,
i
从而该地区这种野生动物数量的估计值为
60×200=12 000.
(2)样本(x,y)(i=1,2,…,20)的相关系数为
i i
r= ==≈0.94.
(3)分层抽样,根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于
各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽
样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得
该地区这种野生动物数量更准确的估计.
题型三 独立性检验
例3 (2020·湖北荆、荆、襄、宜四地七校联考)为积极响应国家“阳光体育运动”的号召,
某学校在了解到学生的实际运动情况后,发起以“走出教室,走到操场,走到阳光”为口号
的课外活动倡议.为调查该校学生每周平均体育运动时间的情况,从高一高二基础年级与高
三三个年级学生中按照4∶3∶3的比例分层抽样,收集300位学生每周平均体育运动时间的
样本数据(单位:小时),得到如图所示的频率分布直方图.(已知高一年级共有1 200名学生)
(1)据图估计该校学生每周平均体育运动时间,并估计高一年级每周平均体育运动时间不足 4
小时的人数;
(2)规定每周平均体育运动时间不少于6小时记为“优秀”,否则为“非优秀”,在样本数据
中,有30位高三学生的每周平均体育运动时间不少于6小时,请完成下列2×2列联表,并
判断是否有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”.
基础年级 高三 总计
优秀
非优秀
总计 300
附:K2=.
参考数据:
P(K2≥k) 0.100 0.050 0.010 0.005
0
k 2.706 3.841 6.635 7.879
0
解 (1)该校学生每周平均体育运动时间为=1×0.05+3×0.2+5×0.3+7×0.25+9×0.15+
11×0.05=5.8.
样本中高一年级每周平均体育运动时间不足 4小时的人数为300××(0.025×2+0.100×2)=
30(人).又样本中高一的人数有120人,所以估计高一年级每周平均体育运动时间不足4小时的人数
约为1 200×=300(人).
(2)列联表如下:
基础年级 高三 总计
优秀 105 30 135
非优秀 105 60 165
总计 210 90 300
假设该校学生的每周平均体育运动时间是否优秀与年级无关,
则K2的观测值k==≈7.071>6.635.
又P(K2≥6.635)=0.01.
所以有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”.
思维升华 独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式K2=计算K2的观测值k.
(3)比较k与临界值的大小关系,作统计推断.
跟踪训练2 (2020·全国Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和
当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次
[0,200] (200,400] (400,600]
空气质量等级
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3
或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联
表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次≤400 人次>400
空气质量好
空气质量不好
附:K2=,P(K2≥k) 0.050 0.010 0.001
0
k 3.841 6.635 10.828
0
解 (1)由频数分布表可知,该市一天的空气质量等级为1的概率为=0.43;
空气质量等级为2的概率为=0.27;
空气质量等级为3的概率为=0.21;
空气质量等级为4的概率为=0.09.
(2)由频数分布表可知,一天中到该公园锻炼的平均人次的估计值为=350.
(3)2×2列联表如下:
人次≤400 人次>400
空气质量好 33 37
空气质量不好 22 8
K2=≈5.820>3.841,
所以有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
课时精练
1.甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方
法分别求得相关系数r与残差平方和m,如下表:
甲 乙 丙 丁
r 0.82 0.78 0.69 0.85
m 106 115 124 103
则哪位同学的试验结果体现A,B两个变量有更强的线性相关性?( )
A.甲 B.乙 C.丙 D.丁
答案 D
解析 r越大,m越小,线性相关性越强,故选D.
2.根据如下样本数据:
x 3 4 5 6 7 8
y 4.0 2.5 0.5 0.5 0.4 0.1
得到线性回归方程为y=bx+a,则( )
A.a>0,b>0 B.a>0,b<0C.a<0,b>0 D.a<0,b<0
答案 B
解析 根据给出的数据可发现:整体上 y与x呈现负相关,所以b<0,由样本点(3,4.0)及
(4,2.5)可知a>0.
3.某公司由于改进了经营模式,经济效益与日俱增.统计了2018年10月到2019年4月的
纯收益y(单位:万元)的数据,如下表:
月份 十 十一 十二 一 二 三 四
月份代号t 3 4 5 6 7 8 9
纯收益y 66 69 73 81 89 90 91
得到y关于t的线性回归方程为y=4.75t+51.36.请预测该公司2019年6月的纯收益为( )
A.94.11万元 B.98.86万元 C.103.61万元 D.108.36万元
答案 C
解析 将2019年6月代号t=11带入题中的线性回归方程,得y=4.75×11+51.36=103.61.
4.以下五个命题:
①在匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,
这样的抽样是分层抽样;
②两个随机变量相关性越强,则相关系数的绝对值越接近于1;
③回归直线y=bx+a必过点(,);
④在线性回归方程y=0.2x+12中,当解释变量x每增加1个单位时,预报变量平均增加0.2
个单位;
⑤分类变量X与Y,对它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把
握程度越大.
其中假命题为( )
A.①④ B.①⑤ C.②③ D.③④
答案 B
解析 ①为系统抽样;⑤分类变量X与Y,对它们的随机变量K2的观测值k来说,k越大,
“X与Y有关系”的把握程度越大.
5.(多选)(2020·衡水中学调研)已知变量x,y之间的线性回归方程为y=-0.7x+10.3,且变
量x,y之间的一组相关数据如下表所示,则下列说法正确的是( )
x 6 8 10 12
y 6 m 3 2
A.变量x,y之间成负相关关系 B.可以预测,当x=20时,y=-3.7
C.m=4 D.该回归直线必过点(9,4)
答案 ABD
解析 由-0.7<0,得变量x,y之间成负相关关系,故A正确;当x=20时,y=-0.7×20+10.3=-3.7,故B正确;由表格数据可知=×(6+8+10+12)=9,=×(6+m+3+2)=,
则=-0.7×9+10.3,解得m=5,故C错误;由m=5,得==4,所以该回归直线必过点
(9,4),故D正确.
6.(多选)为了解户籍性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量
为100的调查样本,其中城镇户籍与农村户籍各50人,男性60人,女性40人,绘制了不
同群体中倾向选择生育二胎与倾向选择不生育二胎的人数比例图(如图所示),其中阴影部分
表示倾向选择生育二胎的对应比例,则下列叙述中正确的是( )
A.是否倾向选择生育二胎与户籍有关
B.是否倾向选择生育二胎与性别无关
C.倾向选择生育二胎的人员中,男性人数与女性人数相同
D.倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数
答案 ABD
7.某市居民2016~2020年家庭年平均收入x(单位:万元)与年平均支出y(单位:万元)的统
计资料如下表所示:
年份 2016 2017 2018 2019 2020
收入x 11.5 12.1 13 13.3 15
支出y 6.8 8.8 9.8 10 12
根据统计资料,家庭年平均收入与年平均支出有______相关关系.(填“正”或“负”)
答案 正
解析 由相关性知识,根据统计资料可以看出,当年平均收入增多时,年平均支出也增多,
因此两者之间具有正相关关系.
8.经调查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)具有线性相关关系,并得
到y关于x的线性回归方程为y=0.245x+0.321,由线性回归方程可知,家庭年收入每增加1
万元,年饮食支出平均增加________万元.
答案 0.245
9.已知x,y之间的一组数据如下表:
x 2 3 4 5 6
y 3 4 6 8 9
对于表中数据,现给出如下拟合直线:①y=x+1;②y=2x-1;③y=x-;④y=x.则根据最小二乘法的思想求得拟合程度最好的直线是__________.(填序号)
答案 ④
解析 根据最小二乘法的思想得变量x与y间的线性回归直线必过点(,),由数据可知,=
=4,==6,那么必须过点(4,6),经验证可知,①y=x+1不成立;②y=2x-1不成立;③
y=x-,当x=4时,y=6,当x=6时,y=9.2;④y=x,当x=4时,y=6,当x=6时,y
=9.综上,拟合程度最好的直线是④.
10.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根
据收集到的数据(如下表),由最小二乘法求得线性回归方程为y=0.67x+54.9.
零件数x (个) 10 20 30 40 50
加工时间y (min) 62 75 81 89
现发现表中有一个数据看不清,请你推断出该数据的值为________.
答案 68
解析 由=30,得=0.67×30+54.9=75.
设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.
11.根据统计,某蔬菜基地西红柿亩产量的增加量 y(百千克)与某种液体肥料每亩使用量
x(千克)之间的对应数据的散点图,如图所示.
(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数r并
加以说明(若r>0.75,则线性相关程度很高);
(2)求y关于x的回归方程,并预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加
量约为多少?
附:相关系数公式r= = ,回归方程y=bx+a中斜率和截距的最小二乘估计公式分别为b=
=,a=-b.
解 (1)∵==5,==5.
∴(x-)(y-)=(-3)×(-2)+(-1)×(-1)+0×0+1×1+3×2=14,
i i
(x-)2=(-3)2+(-1)2+02+12+32=20,
i
(y-)2=(-2)2+(-1)2+02+12+22=10.
i
∴r===>0.75.
∴可用线性回归模型拟合y与x的关系.
(2)b===0.7,a=-b=5-0.7×5=1.5.∴y=0.7x+1.5.
当x=12时,y=0.7×12+1.5=9.9.
∴预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为9.9百千克.
12.某淘宝店经过对春节七天假期的消费者的消费金额进行统计,发现在消费金额不超过
1 000元的消费者中男女比例为1∶4,该店按此比例抽取了100名消费者进行进一步分析,
得到下表:
女性消费情况:
消费金额/元 (0,200) [200,400) [400,600) [600,800) [800,1 000]
人数 5 10 15 47 3
男性消费情况:
消费金额/元 (0,200) [200,400) [400,600) [600,800) [800,1 000]
人数 2 3 10 3 2
若消费金额不低于600元的网购者为“网购达人”,低于600元的网购者为“非网购达人”.
(1)分别计算女性和男性消费的平均数,并判断平均消费水平高的一方“网购达人”出手是
否更阔绰?
(2)根据列表中统计数据填写如下2×2列联表,并判断能否在犯错误的概率不超过0.005的
前提下认为“是否为‘网购达人’与性别有关”.
女性 男性 总计
“网购达人”
“非网购达人”
总计
附:K2=,其中n=a+b+c+d.
P(K2≥k) 0.10 0.05 0.025 0.010 0.005
0
k 2.706 3.841 5.024 6.635 7.879
0
解 (1)女性消费者消费的平均数为×(100×5+300×10+500×15+700×47+900×3)=
582.5.
男性消费者消费的平均数为×(100×2+300×3+500×10+700×3+900×2)=500.
“女网购达人”消费的平均数为×(700×47+900×3)=712.
“男网购达人”消费的平均数为×(700×3+900×2)=780.
虽然女性消费者平均消费水平较高,但“女网购达人”平均消费水平低于“男网购达人”平
均消费水平,所以“平均消费水平”高的一方“网购达人”出手不一定更阔绰.
(2)2×2列联表如下所示:女性 男性 总计
“网购达人” 50 5 55
“非网购达人” 30 15 45
总计 80 20 100
K2的观测值k=≈9.091,
因为9.091>7.879,
所以能在犯错误的概率不超过0.005的前提下认为“是否为‘网购达人’与性别有关”.
13.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、
物理成绩(单位:分)对应如下表:
学生编号 1 2 3 4 5 6 7 8
数学成绩 60 65 70 75 80 85 90 95
物理成绩 72 77 80 84 88 90 93 95
给出散点图如下:
根据以上信息,判断下列结论:
①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系;
②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;
③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,
则甲同学的物理成绩一定比乙同学的物理成绩高.
其中正确的为________.
答案 ①
解析 由散点图知,各点大致分布在一条直线附近,故可以判断数学成绩与物理成绩具有线
性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲
同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理
成绩高,故③错误.
14.在一组样本数据(x ,y),(x ,y),…,(x ,y)的散点图中,若所有样本点(x,y)(i=
1 1 2 2 6 6 i i
1,2,…,6)都在曲线y=bx2-附近波动.经计算∑x=12,∑y=14,∑x=23,则实数b的值
i i
为________.
答案解析 令t=x2,则非线性回归方程变为线性回归方程,即y=bt-,此时==,==,代入
y=bt-,得=b×-,解得b=.
15.某工厂为了对一种新研究的产品进行合理定价,将该产品按事先拟定的价格进行试销,
得到如下数据:
单价x(元) 4 5 6 7 8 9
销量y(件) 90 84 83 80 75 68
由表中数据,求得线性回归方程为y=-4x+a.若在这些样本点中任取一点,则它在线性回
归直线左下方的概率为________.
答案
解析 由表中数据得=6.5,=80,由=-4+a,得a=106,故线性回归方程为y=-4x+
106.将(4,90),(5,84),(6,83),(7,80),(8,75),(9,68)分别代入线性回归方程,可知有6个样
本点,因为84<-4×5+106=86,68<-4×9+106=70,故(5,84)和(9,68)在线性回归直线的
左下方,满足条件的只有2个,故所求概率为=.
16.某电视厂家准备在国庆期间举行促销活动,现根据近七年的广告费与销售量的数据确定
此次广告费支出.广告费支出x(万元)和销售量y(万台)的数据如下:
年份 2014 2015 2016 2017 2018 2019 2020
广告费支出x 1 2 4 6 11 13 19
销售量y 1.9 3.2 4.0 4.4 5.2 5.3 5.4
(1)若用线性回归模型拟合y与x的关系,求出y关于x的线性回归方程;
(2)若用y=c+d模型拟合y与x的关系,可得回归方程y=1.63+0.99,经计算线性回归模型
和该模型的R2分别为0.75和0.88,请用R2说明选择哪个回归模型更好;
(3)已知利润z与x,y的关系为z=200y-x.根据(2)的结果回答下列问题:
①广告费x=20时,销售量及利润的预报值是多少?
②广告费x为何值时,利润的预报值最大?(精确到0.01)
参考公式:回归直线y=a+bx的斜率和截距的最小二乘估计值分别为
b==,a=-b.
参考数据:≈2.24.
解 (1)∵=8,=4.2,y=279.4,=708,
i i
∴b===0.17,
a=-b=4.2-0.17×8=2.84,
∴y关于x的线性回归方程为y=0.17x+2.84.
(2)∵0.75<0.88且R2越大,反映残差平方和越小,模型的拟合效果越好,∴选用y=1.63+0.99更好.
(3)由(2)知,
①当x=20时,销售量的预报值y=1.63+0.99≈6.06(万台),
利润的预报值z=200×(1.63+0.99)-20≈1 191.48(万元).
②z=200(1.63+0.99)-x=-x+198+326=-()2+198+326
=-(-99)2+10 127,
∴当=99,即x=9 801时,利润的预报值最大,
故广告费为9 801万元时,利润的预报值最大.