文档内容
第 3 节 成对数据的统计分析
考试要求 1.了解样本相关系数的统计含义.2.了解一元线性回归模型和2×2列
联表,会运用这些方法解决简单的实际问题.3.会利用统计软件进行数据分析.
1.变量的相关关系
(1)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,
这种关系称为相关关系.
(2)相关关系的分类:正相关和负相关.
(3)线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近
我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量
非线性相关或曲线相关.
2.样本相关系数
(1)相关系数r的计算
变量x和变量y的样本相关系数r的计算公式如下:
(2)相关系数r的性质
①当r>0时,称成对样本数据正相关;当r<0时,成对样本数据负相关;当r=0时,
成对样本数据间没有线性相关关系.
②样本相关系数r的取值范围为 [ - 1 , 1] .
当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
3.一元线性回归模型(1)经验回归方程与最小二乘法
我们将y=bx+a称为Y关于x的经验回归方程,也称经验回归函数或经验回归公
式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得
的b,a叫做b,a的最小二乘估计,
其中
(2)利用决定系数R2刻画回归效果
,R2越大,即拟合效果越好,R2越小,模型拟合效果越差.
4.列联表与独立性检验
(1)2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为{x ,x }和{y ,y },其2×2
1 2 1 2
列联表为
y
x 合计
y=y y=y
1 2
x=x a b a+b
1
x=x c d c+d
2
合计 a+c b+d n=a+b+c+d
(2)临界值
χ2=.忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到
相应的正实数x ,使得P(χ2≥x )=α成立.我们称x 为α的临界值,这个临界值就
α α α
可作为判断χ2大小的标准.
(3)独立性检验
基于小概率值α的检验规则是:
当χ2≥x 时,我们就推断H 不成立,即认为X和Y不独立,该推断犯错误的概率
α 0
不超过α;
当χ2<x 时,我们没有充分证据推断H 不成立 ,可以认为X和Y独立.
α 0这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读
作“卡方独立性检验”,简称独立性检验.
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值
α 0.1 0.05 0.01 0.005 0.001
x 2.706 3.841 6.635 7.879 10.828
α
1.求解经验回归方程的关键是确定回归系数a,b,应充分利用回归直线过样本点
的中心(x,y).
2.根据经验回归方程计算的y值,仅是一个预报值,不是真实发生的值.
3.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量
有关的把握越大.
1.思考辨析(在括号内打“√”或“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.(
)
(2)通过经验回归方程y=bx+a可以估计预报变量的取值和变化趋势.( )
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( )
(4)事件X,Y关系越密切,则由观测数据计算得到的χ2的值越大.( )
答案 (1)√ (2)√ (3)√ (4)√
2.(多选)在统计中,由一组样本数据(x ,y ),(x ,y ),…,(x ,y )利用最小二乘法得
1 1 2 2 n n
到两个变量的经验回归方程为y=bx+a,那么下列说法正确的是( )
A.相关系数r不可能等于1
B.直线y=bx+a必经过点(x,y)
C.直线y=bx+a表示最接近y与x之间真实关系的一条直线
D.相关系数为r,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小
答案 BCD
解析 相关系数的取值范围是|r|≤1,故A错误;直线y=bx+a必过样本点中心即
点(x,y),故B正确;直线y=bx+a是采用最小二乘法求解出的直线方程,接近真
实关系,故C正确;相关系数r的绝对值越接近于1,表示相关程度越强,越接近
于0,相关程度越弱,故D正确.
3.(2022·烟台模拟)某校为了研究“学生的性别”和“对待某一活动的态度”是
否有关,运用2×2列联表进行独立性检验,经计算χ2=7.069,则认为“学生性别与支持某项活动有关系”的犯错误的概率不超过( )
A.0.1% B.1% C.99% D.99.9%
答案 B
解析 ∵χ2=7.069>6.635=x ,
0.01
∴认为“学生性别与支持某项活动有关系”的犯错误的概率不超过1%.
4.(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率 y和温度
x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据
(x,y)(i=1,2,…,20)得到下面的散点图:
i i
由此散点图,在10 ℃至40 ℃之间,下面四个经验回归方程类型中最适宜作为发
芽率y和温度x的经验回归方程类型的是( )
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+bln x
答案 D
解析 由散点图可以看出,这些点大致分布在对数型函数的图象附近.
5.(易错题)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二
孩生育意愿,某机构用简单随机抽样的方法从不同地区调查了100位育龄妇女,
结果如下表.
城市级别
二孩生育意愿 合计
非一线 一线
愿生 45 20 65
不愿生 13 22 35
合计 58 42 100
由χ2=,
得χ2=≈9.616.
参照下表:
α 0.1 0.05 0.01 0.001
x 2.706 3.841 6.635 10.828
α
根据小概率值α=0.01的独立性检验,可以得到的结论是________.答案 生育意愿与城市级别有关
6.(2021·广州一模)若某商品的广告费支出x(单位:万元)与销售额y(单位:万元)之
间有如下表所示的对应数据:
x 2 4 5 6 8
y 20 40 60 70 80
根据表中数据,利用最小二乘法求得y关于x的经验回归方程为y=bx+1.5,根据
预测,当投入10万元时,销售额的估计值为________万元.
答案 106.5
解析 x=×(2+4+5+6+8)=5,y=×(20+40+60+70+80)=54,
∴样本中心为(5,54),
将其代入经验回归方程y=bx+1.5中,有54=5b+1.5,解得b=10.5,
所以经验回归方程为y=10.5x+1.5,
当x=10时,y=10.5×10+1.5=106.5.
考点一 成对数据的相关性
1.(2022·重庆诊断)某商家今年上半年各月的人均销售额(单位:千元)与利润率统
计表如下:
月份 1 2 3 4 5 6
人均销售额 6 5 8 3 4 7
利润率(%) 12.6 10.4 18.5 3.0 8.1 16.3
根据表中数据,下列说法正确的是( )
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
答案 A
解析 由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,
排除C和D;其属于正相关关系,A正确,B错误.
2.下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )答案 D
解析 观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的
线性相关关系.
3.在一组样本数据(x ,y ),(x ,y ),…,(x ,y )(n≥2,x ,x ,…,x 不全相等)的散点
1 1 2 2 n n 1 2 n
图中,若所有样本点(x,y)(i=1,2,…,n)都在直线y=-x+1上,则这组样本数据
i i
的样本相关系数为( )
A.-1 B.0 C.- D.1
答案 A
解析 因为样本点在直线y=-x+1上,呈现完全负相关,样本相关系数为-1.
4.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的决定系数R2
如下,其中拟合效果最好的模型是( )
A.模型1的决定系数R2为0.98
B.模型2的决定系数R2为0.80
C.模型3的决定系数R2为0.50
D.模型4的决定系数R2为0.25
答案 A
解析 在两个变量y与x的回归模型中,它们的决定系数R2越接近1,模型拟合
效果越好,在四个选项中A的决定系数最大,所以拟合效果最好的是模型1.
感悟提升 判断相关关系的两种方法:
(1)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有
相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线
性相关关系.
(2)决定系数法:利用决定系数判定,R2越趋近1,拟合效果越好,相关性越强.
考点二 回归分析
角度1 线性回归分析例1 (2021·广州模拟)根据统计,某蔬菜基地西红柿亩产量的增加量 y(百千克)与
某种液体肥料每亩使用量x(千克)之间的对应数据的散点图如图所示:
(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相
关系数并加以说明(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合);
(2)求y关于x的经验回归方程,并预测液体肥料每亩使用量为12千克时,西红柿
亩产量的增加量约为多少.
附:相关系数
=,
经验回归直线y=bx+a的斜率和截距的最小二乘估计分别为b==,a=y-bx.
解 (1)x==5,
y==5.
∑ (x-x)(y-y)=(-3)×(-2)+(-1)×(-1)+0×0+1×1+3×2=14,
i i
∑ (x-x)2=(-3)2+(-1)2+02+12+32=20,
i
∑ (y-y)2=(-2)2+(-1)2+02+12+22=10.
i
==>0.75,
∴可用线性回归模型拟合y与x的关系.
(2)b===0.7,
则a=y-bx=5-0.7×5=1.5,
∴y=0.7x+1.5.
当x=12时,y=0.7×12+1.5=9.9,
∴预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为9.9百千克.
角度2 非线性回归分析
例2 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千
元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费x
i
和年销售量y(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量
i
的值.
∑ (x-x)·(y- ∑ (w-
i i i
x y w ∑ (x-x)2 ∑ (w-w)2
i i
y) w)·(y-y)
i
46.6 563 6.8 289.8 1.6 1 469 108.8
表中w=,w=.
i i
(1)根据散点图判断y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传
费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.
根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u ,v ),(u ,v ),…,(u ,v ),其回归直线v=α+βu的斜率和截
1 1 2 2 n n
距的最小二乘估计分别为:
β=,α=v-β u.
解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归
方程类型.
(2)令w=,先建立y关于w的线性回归方程,由于
d===68,
c=y-dw=563-68×6.8=100.6,
所以y关于w的线性回归方程为y=100.6+68w,因此y关于x的回归方程为y=
100.6+68.(3)①由(2)知,当x=49时,年销售量y的预报值
y=100.6+68=576.6,
年利润z的预报值
z=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
z=0.2×(100.6+68)-x
=-x+13.6+20.12.
所以当==6.8,即x=46.24时,
z取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
感悟提升 (1)求经验回归方程:利用公式b=求b;利用a=y-bx求a,写出经验回
归方程.
(2)经验回归方程的拟合效果,可以利用相关系数|r|判断,当|r|越趋近于1时,两变
量的线性相关性越强.或利用决定系数R2判断,R2越大,拟合效果越好.
(3)非线性经验回归方程转化为线性经验回归方程的方法
①若y=a+b ,设t=,则y=a+bt;②若满足对数式:y=a+bln x,设t=ln x,则y
=a+bt;③若满足指数式:y=c ec2x,两边取对数解ln y=ln c +c x,设z=ln y,a
1 1 2
=ln c ,b=c ,则z=a+bx.
1 2
训练1 下图是某地区2005年至2021年环境基础设施投资额y(单位:亿元)的折
线图.
为了预测该地区2023年的环境基础设施投资额,建立了y与时间变量t的两个线
性回归模型.根据2005年至2021年的数据(时间变量t的值依次为1,2,…,17)建
立模型①:y=-30.4+13.5t;根据2015年至2021年的数据(时间变量t的值依次
为1,2,…,7)建立模型②:y=99+17.5t.
(1)分别利用这两个模型,求该地区2023年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解 (1)利用模型①,该地区2023年的环境基础设施投资额的预测值为y=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2023年的环境基础设施投资额的预测值为
y=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2005年至2021年的数据对应的点没有随机散布在直线y
=-30.4+13.5t上下,这说明利用2005年至2021年的数据建立的线性模型①不
能很好地描述环境基础设施投资额的变化趋势.2015年相对2014年的环境基础
设施投资额有明显增加,2015年至2021年的数据对应的点位于一条直线的附近,
这说明从2015年开始环境基础设施投资额的变化规律呈线性增长趋势,利用
2015年至2021年的数据建立的线性模型y=99+17.5t可以较好地描述2015年
以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2021年的环境基础设施投资额220亿元,由模型①得
到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较
合理,说明利用模型②得到的预测值更可靠.
考点三 独立性检验
例3 (2020·全国Ⅲ卷)某学生兴趣小组随机调查了某市 100天中每天的空气质量
等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次
[0,200] (200,400] (400,600]
空气质量等级
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中
点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质
量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列
联表,并根据列联表,能否在犯错误的概率不超过0.05的前提下,认为一天中到该公
园锻炼的人次与该市当天的空气质量有关?
人次≤400 人次>400
空气质量好空气质量不好
附:χ2=,
解 (1)由所给数据,得该市一天的空气质量等级为1,2,3,4的概率的估计值如
下表:
空气质量等级 1 2 3 4
概率的估计值 0.43 0.27 0.21 0.09
(2)一天中到该公园锻炼的平均人次的估计值为
(100×20+300×35+500×45)=350.
(3)根据所给数据,可得2×2列联表:
人次≤400 人次>400
空气质量好 33 37
空气质量不好 22 8
零假设为H :
0
一天中到该公园锻炼的人次与该市当天的空气质量无关.
根据列联表得
χ2=≈5.820>3.841=x .
α
根据小概率值α=0.050的χ2独立性检验,可推断H 不成立,所以在犯错误的概
0
率不超过0.05的前提下,可认为一天中到该公园锻炼的人次与该市当天的空气
质量有关.
感悟提升 1.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad
-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越
强.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检
验的一般步骤:
(1)根据样本数据制成2×2列联表:
(2)根据公式χ2=
计算χ2;
(3)通过比较χ2与临界值的大小关系来作统计推断.
训练2 (2021·全国甲卷改编)甲、乙两台机床生产同种产品,产品按质量分为一级品和二
级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)依据小概率值α=0.01的独立性检验分析甲机床的产品质量与乙机床的产品
质量有差异.
附:χ2=,
α 0.1 0.05 0.01 0.005
x 2.706 3.841 6.635 7.879
α
解 (1)根据题表中数据知,甲机床生产的产品中一级品的频率是=0.75,乙机床
生产的产品中一级品的频率是=0.6.
(2)需假设H 为:甲机床的产品质量与乙机床的产品质量无差异.
0
根据题表中的数据可得
χ2==≈10.256>6.635=x .
0.01
根据小概率值α=0.01的独立性检验,我们推断H 不成立,即认为甲机床的产品
0
质量与乙机床的产品质量有差异.
此推断犯错误的概率不大于0.01.
1.在一次对人体脂肪含量和年龄的关系的研究中,研究人员获得了一组样本数据
并制成如图所示的人体脂肪含量与年龄的关系的散点图,下列结论中正确的是(
)
A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%
B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%
C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%
答案 B
解析 观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于
20%.
2.甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分
析方法分别求得样本相关系数r与残差平方和m,如下表:
甲 乙 丙 丁
r 0.82 0.78 0.69 0.85
m 106 115 124 103
则哪位同学的试验结果体现A,B两个变量有更强的线性相关性?
A.甲 B.乙 C.丙 D.丁
答案 D
解析 r越大,m越小,线性相关性越强.
3.(2022·南昌模拟)某公司在2015~2019年的收入与支出情况如下表所示:
收入x(亿元) 2.2 2.6 4.0 5.3 5.9
支出y(亿元) 0.2 1.5 2.0 2.5 3.8
根据表中数据可得经验回归方程为y=0.8x+a,依此估计该公司收入为8亿元时
的支出为( )
A.4.2亿元 B.4.4亿元
C.5.2亿元 D.5.4亿元
答案 C
解析 根据表中数据,计算x=×(2.2+2.6+4.0+5.3+5.9)=4,y=×(0.2+1.5+
2.0+2.5+3.8)=2,
∴a=y-0.8x=2-0.8×4=-1.2,
经验回归方程为y=0.8x-1.2,
当x=8时,y=0.8×8-1.2=5.2.
4.已知某地的财政收入x与支出y满足经验回归方程y=bx+a+e(单位:亿元),其
中b=0.8,a=2,|e|≤0.5,如果今年该地区的财政收入为10亿元,那么支出预计不
会超过( )
A.9亿元 B.10亿元
C.9.5亿元 D.10.5亿元
答案 D解析 y=0.8×10+2+e=10+e≤10.5.
5.(多选)(2022·衡水调研)已知变量x,y之间的线性经验回归方程为y=-0.7x+
10.3,且变量x,y之间的一组相关数据如下表所示,则下列说法正确的是( )
x 6 8 10 12
y 6 m 3 2
A.变量x,y之间成负相关关系
B.可以预测,当x=20时,y=-3.7
C.m=4
D.该经验回归直线必过点(9,4)
答案 ABD
解析 由-0.7<0,得变量x,y之间成负相关关系,故A正确;
当x=20时,y=-0.7×20+10.3=-3.7,故B正确;
由表格数据可知x=×(6+8+10+12)=9,y=×(6+m+3+2)=,则=-0.7×9
+10.3,解得m=5,故C错误;
由m=5,得y==4,所以该回归直线必过点(9,4),故D正确.
6.(多选)(2021·枣庄模拟)某大学为了解学生对学校食堂服务的满意度,随机调查
了50名男生和50名女生,每位学生对食堂的服务给出满意或不满意的评价,得
到如下所示的列联表,经计算χ2≈4.762,则可以推断出( )
满意 不满意
男 30 20
女 40 10
α 0.100 0.050 0.010
x 2.706 3.841 6.635
α
A.该学校男生对食堂服务满意的概率的估计值为
B.调研结果显示,该学校男生比女生对食堂服务更满意
C.认为男、女生对该食堂服务的评价有差异此推断犯错误的概率不超过0.05
D.认为男、女生对该食堂服务的评价有差异此推断犯错误的概率不超过0.01
答案 AC
解析 对于A,该学校男生对食堂服务满意的概率的估计值为=,故A正确;
对于B,该学校女生对食堂服务满意的概率的估计值为=>,故B错误;
因为χ2≈4.762>3.841=x ,认为男、女生对该食堂服务的评价有差异,此推断
0.05犯错误的概率不超过0.05,故C正确,D错误.
7.已知x和y的散点图如图所示,在相关关系中,若用y=c ec2x拟合时的决定系数
1
为R,用y=bx+a拟合时的决定系数为R,则R,R中较大的是________.
答案 R
解析 由散点图知,用y=c ec2x拟合的效果比y=bx+a拟合的效果要好,所以
1
R>R,故较大者为R.
8.某市物价部门对本市的5家商场的某商品一天的销售量及其价格进行调查,5
家商场的售价x(元/件)和销售量y(件)的数据如下表所示:
售价x 9 9.5 m 10.5 11
销售量y 11 n 8 6 5
由散点图可知,销售量y与售价x之间有较强的线性相关关系,其经验回归方程
是y=-3.2x+40,且m+n=20,则其中的n=________.
答案 10
解析 x==8+,
y==6+,
回归直线一定经过点(x,y),
即6+=-3.2+40,即3.2m+n=42.
又m+n=20,所以m=10,n=10.
9.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另
外500名未使用血清的人一年中的感冒记录作比较,提出假设H :“这种血清不
0
能起到预防感冒的作用”,利用2×2列联表计算得χ2≈3.918,经查临界值表知
x =3.841.则下列结论中,正确结论的序号是________.
0.05
①认为“这种血清能起到预防感冒的作用”犯错误的概率不超过0.05;②若某人
未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的
有效率为95%;④这种血清预防感冒的有效率为5%.
答案 ①
解析 χ2≈3.918≥3.841=x ,所以认为“这种血清能起到预防感冒的作用”,这
0.05
种推断犯错误的概率不超过0.05.要注意我们检验的是假设是否成立和该血清预
防感冒的有效率是没有关系的,不是同一个问题,不要混淆.10.某城市地铁将于2023年6月开始运营,为此召开了一个价格听证会,拟定价
格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:
月收入(单 [15, [25, [35, [45, [55, [65,
位:百元) 25) 35) 45) 55) 65) 75]
赞成定价
1 2 3 5 3 4
者人数
认为价格偏
4 8 12 5 2 1
高者人数
(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定
价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);
(2)由以上统计数据填下面2×2列联表,依据小概率值α=0.01的独立性检验,可
否认为“月收入以55百元为分界点对地铁定价的态度有差异”.
人均月收入
对地铁定
不低于55百 低于55百
价的态度 合计
元的人数 元的人数
认为价格偏高者
赞成定价者
合计
附:χ2=,其中n=a+b+c+d.
参考数据:
α 0.1 0.05 0.01 0.005
x 2.706 3.841 6.635 7.879
α
解 (1)“赞成定价者”的月平均收入为x =
1
≈50.56.
“认为价格偏高者”的月平均收入为x =
2
=38.75,
∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x -x =50.56
1 2
-38.75=11.81(百元).
(2)根据条件可得2×2列联表如下:
人均月收入
对地铁定 合计
不低于55百 低于55百元元的人数 的人数
价的态度
认为价格偏高者 3 29 32
赞成定价者 7 11 18
合计 10 40 50
零假设为H :月收入以55百元为分界点对地铁定价的态度无差异.
0
χ2=≈6.27<6.635=x ,
0.01
∴根据小概率值α=0.01的独立性检验,没有充分证据推断H 不成立,因此可以
0
认为“月收入以55百元为分界点对地铁定价的态度没有差异”.
11.(2020·全国Ⅱ卷)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量
有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,
从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x,
i
y)(i=1,2,…,20),其中x 和y 分别表示第i个样区的植物覆盖面积(单位:公顷)
i i i
和这种野生动物的数量,并计算得∑x=60,∑y=1 200,∑ (x-x)2=80,∑ (y-y)2
i i i i
=9 000,∑ (x-x)(y-y)=800.
i i
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这
种野生动物数量的平均数乘以地块数);
(2)求样本(x,y)(i=1,2,…,20)的相关系数(精确到0.01);
i i
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以
获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方
法,并说明理由.
附:样本相关系数r=
,≈1.414.
解 (1)由已知得样本平均数为y=∑y=60,从而该地区这种野生动物数量的估计
i
值为60×200=12 000.
(2)样本(x,y)(i=1,2,…,20)的相关系数为
i i
r=
==≈0.94.
(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分
层随机抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关
关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差
异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性
提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.12.在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是(
)
A.若χ2=6.635,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,
那么在100个吸烟的人中必有99人患有肺癌
B.由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌
有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌
C.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有
关系,是指有1%的可能性使得判断出现错误
D.以上三种说法都不正确
答案 C
解析 独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大
而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这
点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解
释.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有
关系,是指有1%的可能性使得判断出现错误.
13.(2022·海南调研)在一组样本数据(x ,y ),(x ,y ),…,(x ,y )的散点图中,若所
1 1 2 2 6 6
有样本点(x,y)(i=1,2,…,6)都在曲线y=bx2-附近波动.经计算∑x=12,∑y=
i i i i
14,∑x=23,则实数b的值为________.
答案
解析 令t=x2,则曲线的经验回归方程变为线性的经验回归方程,即y=bt-,此
时t==,y==,代入y=bt-,得=b×-,解得b=.
14.《中国经济周刊》主办的第十八届中国经济论坛在人民日报社举行,就中国企
业如何提升全球行业竞争力进行了研讨.数据显示,某企业近年加大了科技研发
资金的投入,其科技投入x(百万元)与收益y(百万元)的数据统计如下:
科技投入x 1 2 3 4 5 6 7
收益y 19 20 22 31 40 50 70
根据数据特点,甲认为样本点分布在指数型曲线y=2bx+a的周围,据此他对数据
进行了一些初步处理.如下表:
z ∑x ∑xy ∑xz ∑ (y-y)2 ∑ (y-y)2
i i i i i i
5 140 1 239 149 2 134 130
其中z=log y,z=∑z.
i 2 i i
(1)请根据表中数据,建立y关于x的回归方程(系数b精确到0.1);(2)①乙认为样本点分布在直线y=mx+n的周围,并计算得回归方程为y=8.25x
+3,以及该回归模型的决定系数(即相关指数)R=0.893,试比较甲、乙两人所建
立的模型,谁的拟合效果更好?
②由①所得的结论,计算该企业欲使收益达到1亿元,科技投入的费用至少要多
少百万元?(精确到0.1)
附:对于一组数据(u ,v ),(u ,v ),…,(u ,v ),其回归直线方程v=βu+α的斜率和
1 1 2 2 n n
截距的最小二乘法估计分别为β==,α=v-βu,决定系数:R2=1-.
参考数据:log 5≈2.3.
2
解 (1)将y=2bx+a两边取对数得log y=bx+a,令z=log y,则z=bx+a,
2 2
∵x=4,∴根据最小二乘估计可知
=≈0.3,
∴a=z-bx=5-0.3×4=3.8,
∴回归方程为z=0.3x+3.8,即y=20.3x+3.8.
(2)①甲建立的回归模型:R=1-≈0.939>R=0.893.
∴甲建立的回归模型拟合效果更好.
②由①知,甲建立的回归模型拟合效果更好.
设20.3x+3.8≥100,解得0.3x+3.8≥log 100=2+2log 5,解得x≥9.3.
2 2
∴科技投入的费用至少要9.3百万元,下一年的收益才能达到1亿.