文档内容
第 03 讲 成对数据的统计分析 (精讲)
目录
第一部分:知识点精准记忆
第二部分:课前自我评估测试
第三部分:典型例题剖析
题型一:成对数据的相关性
题型二:回归分析
角度1:经验回归方程及应用
角度2:非线性经验回归方程及应用
角度3:相关系数
角度4:残差分析
题型三:列联表与独立性检验
第四部分:高考真题感悟
第一部分:知 识 点 精 准 记 忆
知识点一:变量的相关关系
(1)两个变量有关系,但又没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)正相关、负相关
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如
果当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量负相关.
(3)线性相关、非线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相
关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
知识点二:样本相关系数
(1)相关系数 的计算
变量 与变量 的样本相关系数 的计算公式如下:(2)相关系数 的性质
①当 时,称成对样本数据正相关;当 时,称成对样本数据负相关.
当 时,成对样本数据间没有线性相关关系.
②样本相关系数 的取值范围为 ,当 越接近1时,成对样本数据的线性相关程度越强;当 越接近0
时,成对样本数据的线性相关程度越弱.
知识点三:一元线性回归模型
(1)数学表述式:如果两个变量之间的关系可以表示为
我们称该式为 关于 的一元线性回归模型.
其中, 称为因变量或响应变量, 称为自变量或解释变量; 和 为模型的未知参数, 称为截距参数, 称为
斜率参数; 是 与 之间的随机误差.
(2)经验回归方程
我们将 称为 关于 的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回
归直线,其中
(3)利用 刻画回归效果
的计算公式为 ,其意义是 越大,残差平方和 越小,即模型的拟
合效果越好; 越小,残差平方和越大,即模型的拟合效果越差.
知识点四:列联表与独立性检验
(1)2×2列联表
如图,给出成对分类变量数据的交叉分类频数的数据统计表称为2×2列联表.
合计合计
(2)独立性检验
依据上述 列联表构造统计量
利用 的取值推断分类变量 和 是否独立的方法称为 独立性检验,读作“卡方独立性检验”,简称独
立性检验.
常用的小概率值和临界值表
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
第二部分:课 前 自 我 评 估 测 试
1.(2022·重庆·高二阶段练习)甲、乙、丙、丁四位同学各自对 两变量的线性相关性做试验,分别求得
样本相关系数 ,如下表:
甲 乙 丙 丁
则试验结果中 两变量有更强线性相关性的是( )
A.甲 B.乙 C.丙 D.丁
【答案】B
【详解】由已知,乙的相关系数的绝对值为 ,是四人中最大的,因此乙同学有更强的相关性.
故选:B.
2.(2022·全国·长垣市第一中学高三开学考试(文))在研究线性回归模型时,样本数据
所对应的点均在直线 上,用 表示解释变量对于预报变量变化的贡献率,
则 ( )
A. B. C.1 D.2
【答案】C
【详解】因为样本数据所对应的点都在直线 上,所以 .
故选:C3.(2022·河南南阳·高二期末(文))对两个变量 与 进行回归分析,有 个不同模型可供选择,其中
拟合效果最好的是( )
A.模型 的相关系数 为 B.模型 的相关系数 为
C.模型 的相关系数 为 D.模型 的相关系数 为
【答案】A
【详解】对于模型而言,当 越接近于 ,则模型的拟合效果越好,故拟合效果最好的模型 .
故选:A.
4.(多选)(2022·全国·高二课时练习)下列散点图中,变量X,Y可用直线拟合的是( )
A. B.
C. D.
【答案】AB
【详解】由题可知A,B中的点落在一条直线附近,故其变量X,Y有近似的线性关系;
C,D中的点没有落在一条直线附近,故其变量X,Y不具有近似的线性关系.
故选:AB.
5.(2022·山东济宁·高二期末)下列命题中正确的是( )
A.在回归分析中,成对样本数据的样本相关系数r的绝对值越大,成对样本数据的线性相关程度越强
B.在回归分析中,可用决定系数 的值判断模型的拟合效果, 越大,模型的拟合效果越好
C.比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型拟合效果越差
D.对分类变量X与Y,统计量 的值越大,则判断“X与Y有关系”的把握程度越大
【答案】ABD
【详解】相关系数的绝对值越大,相关程度越强,A正确;
决定系数越大,拟合效果越好,故B正确;
残差平方和越小,模拟效果越好,故C错误;
统计量 的值越大,分类变量X与Y相互独立的概率越小,即判断“X与Y有关系”的把握程度越大,故
D正确.
故选:ABD
6.(2022·全国·高二课时练习)中国射击队在东京奥运会上共获得4金1银6铜,共11枚奖牌的成绩,创
下了中国射击队奥运参赛史上奖牌数最多的新纪录.现从某射击训练基地随机抽取了20名学员(男、女各
10人),统计他们的射击环数,数据如下表所示:男生 8 9 7 9 7 6 10 10 8 6
1
女生 9 8 6 8 7 9 7 8 8
0
若射击环数大于或等于9环,则认为成绩优异;否则,认为成绩不优异.根据所给数据,建立 列联表,
并判断是否有90%的把握认为成绩优异与性别有关.
参考公式和数据: ,
【答案】列联表见解析;没有90%的把握认为成绩优异与性别有关.
【详解】由已知数据可得 列联表如下:
男
女生 总计
生
成绩优异
成绩不优异
总计
,
没有 的把握认为“成绩优异”与性别有关.
第三部分:典 型 例 题 剖 析
题型一:成对数据的相关性
典型例题
例题1.(2022·北京通州·高二期末)对三组数据进行统计,获得以下散点图,关于其相关系数依次是 ,
, ,则它们的大小关系是( )A. B. C. D.
【答案】A
【详解】解:由散点图可知,图一两个变量成正相关,且线性相关性较强,故 ,
图二两个变量成负相关,且线性相关性较强,故 ,
图三两个变量线性相关性较弱,故 ,
所以 ;
故选:A
例题2.(2022·江苏淮安·高二期末)对四组数据进行统计后,获得了如下图所示的散点图,对于其相关系
数的比较,下列说法正确的是( )
A. B.
C. D.
【答案】C
【详解】由题意可知,第一、四组数据正相关,第二、三组负相关,
当相关系数的绝对值越大,数据的线性相关性越强,
且第一组数据的线性相关性较第四组强,则 ,
第二组数据的线性相关性较第三组强,则 且 , ,则 .
因此, .
故选:C.
例题3.(2022·河南信阳·高二期末(文))若一组观测值 , ,…, ( )对
应的点位于同一直线上,则x,y的相关系数为______.
【答案】
【详解】由已知条件和相关系数的定义得,x,y的相关系数为 .
故答案为:
同类题型归类练
1.(2022·河南驻马店·高二期末(理))相关变量x,y的散点图如图所示,现对这两个变量进行线性相
关分析.方案一:根据图中所有数据,得到回归直线方程 ,相关系数为 ;方案二:剔除点
,根据剩下的数据得到回归直线方程 ,相关系数为 .则( )A. B.
C. D.
【答案】D
【详解】由散点图可知这两个变量为负相关,所以 .
因为剔除点 后,剩下点的数据更具有线性相关性, 更接近1,
所以 .
故选:D.
2.(2022·陕西西安·高二期末(理))小华为了研究数学名次和物理名次的相关关系,记录了本班五名同
学的数学和物理的名次,如图.后来发现第四名同学数据记录有误,那么去掉数据 后,下列说法
错误的是( )
A.样本线性相关系数 变大 B.残差平方和变大
C.变量 、 的相关程度变强 D.线性相关系数 越趋近于
【答案】B
【详解】由散点图知,去掉 后, 与 的线性相关程度变强,且为正相关,
所以 变大,且线性相关系数 越趋近于 ,
去掉 后,散点分布更均匀,残差平方和变小.
故ACD正确,B错误.
故选:B.
3.(多选)(2022·广东潮州·高二期末)对四组数据进行统计,获得如图所示的散点图,关于其相关系数
的关系,正确的有( )A. B. C. D.
【答案】AC
【详解】由图形特征可知 都是负相关,都是负数, 比 的相关系数更强,所以 , , 都
是正相关, 比 的相关系数更强,所以 ,
所以AC正确.
故选:AC
4.(2022·福建厦门·高二期末)厦门中学生助手的甲、乙研究某人1-18周岁的身高y(单位:厘米)与
年龄x(单位:周岁)的关系.甲用 拟合得图1,记x与y的样本相关系数为 ,决定系数为 ;
乙用 拟合得图2,记x与y的样本相关系数为 ,得y与x的关系 ,决定系数
为 ,则( )
A. B. C. D.
【答案】BD
【详解】根据拟合图可知,图1直线斜率比图2的小,且为正相关,所以 ,
又决定系数是相关系数的二次幂,所以 ,(或者从图中可以看出图2的观察点在回归直线附近比图
1更密集).
故选:BD.
题型二:回归分析
角度1:经验回归方程及应用
典型例题
例题1.(2022·陕西西安·高一期末)打好脱贫攻坚战,稳步实施乡村振兴,离不开农村基层党组织的坚强战斗堡垒作用的发挥.某村村党支部书记为改良盐碱地土壤,从省城请来专家进行技术指导,并从某农业大
学引进富硒草莓.功夫不负有心人,富硒草莓种植成功,村里建起了草苺采摘园,到了年底,种植草莓的收
入连同合作社的其他经营项目一起,成了贫困户的主要经济来源.该村对近几年草莓的采摘价格和采摘人数
情况进行了统计,发现草莓的采摘价格 (元/斤)和采摘人数 (千人)的关系如下表:
2
草莓采摘价格 (元/斤) 20 30 35 40
5
5
采摘人数 (千人) 58 45 32 28
2
(1)已知 与 之间有较强的线性相关性,试用最小二乘法求出 关于 的回归直线方程 ;
(2)该村根据2022年草莓的产量,估计约34千人采摘,那么2022年草莓的采摘价格应定为多少元/斤?
(结果保留整数)
参考公式:线性回归方程 的斜率和截距的棷小二乘估计分别为 .
参考数据: .
【答案】(1)
(2)36元/斤
(1)由表中数据得: ,
关于 的线性回归方程为 .
(2)令 ,得 ,解得 (元/斤),
年草苺的价格应定为36元/斤.
例题2.(2022·全国·高二课时练习)随着我国中医学的发展,药用昆虫的使用愈来愈多,每年春暖以后至
寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫.已知一只药用昆虫的产卵数 (单位:个)与温
度 (单位:℃)有关,于是科研人员在3月份中随机挑选了5天进行研究,现收集了该种药用昆虫的5
组观测数据,如表所示.
日期 2日 7日 15日 22日 30日
温度 /℃ 10 11 13 12 6
产卵数 /个 21 25 30 26 13科研人员确定的研究方案是:先从这5组数据中任选2组,用剩下的3组数据建立 关于 的线性回归方
程,再用选取的2组数据进行检验.
(1)若选取的是2日与30日这2组数据,请根据7日、15日和22日这3组数据,求出 关于 的线性回归
方程.
(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2个,则认为得到的线性回归方
程是可靠的.试问(1)中所得的线性回归方程是否可靠?
附:回归直线方程的斜率和截距的最小二乘估计公式分别为 , .
【答案】(1) ;
(2)可靠.
(1)根据表格中7日、15日和22日的数据,可得 ,
,
, ,
所以 ,
所以 ,
所以 关于 的线性回归方程为 ;
(2)当 时, , ;
当 时, , ,
所以(1)中所得的线性回归方程是可靠的.
例题3.(2022·重庆巴蜀中学高三阶段练习)炎炎夏日,酷暑难耐!一种新型的清凉饮料十分畅销,如图是
某商店 月 日至 日售卖该种饮料的累计销售量(单位:十瓶)的散点图:(参考数据: , , )
(1)由散点图可知, 日的数据偏差较大,请用前 组数据求出累计销售量 (单位:十瓶)关于日期
(单位:日)的经验回归方程;
(2)请用(1)中求出的经验回归方程预测该商店 月份(共 天)售卖这种饮料的累计销售量.
附:经验回归方程 中斜率和截距的最小二乘估计公式分别为: , .
【答案】(1)
(2)约为 瓶
(1)解:由题意可得 , , ,
,所以, , ,因此,经
验回归方程为 .
(2)解: 月份共有 天,于是累加销售量为 (十瓶),因此,预测该商店 月份
(共 天)售卖这种饮料的累计销售量约为 瓶.
同类题型归类练
1.(2022·内蒙古·满洲里市第一中学高二期末(文))某大型企业响应政府“节能环保,还人民一个蔚蓝
的天空”的号召,对生产过程进行了节能降耗的环保技术改造.下表提供了技术改造后生产甲产品过程中记
录的产量 与相应的生产能耗 标准煤的几组对照数据:
1 2 3 4 5
3 6 8 10 13
(1)请根据上表提供的数据,用最小二乘法求出 关于 的线性回归方程 ;(参考公式:, )
(2)已知该企业技术改造前生产 甲产品耗能为 标准煤,试根据(1)求出的线性回归方程,预测
生产 甲产品的耗能比技术改造前降低多少 标准煤?
【答案】(1) (2)59.2
(1)由已知可得 , ,
,- ,所以
, ,所以 关于 的线性回归方程为
;-
(2)当 时, , ,所以预测生产 甲产品的耗能比技
术改造前降低59.2 标准煤.
2.(2022·新疆·新和县实验中学高二期末(文))某研究机构对高三学生的记忆力x和判断力y进行统计
分析,得下表数据:
x 6 8 10 12
y 2 3 5 6
相关公式: ,
(1)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程:
(2)试根据(1)求出的线性回归方程,预测记忆力为9的同学的判断力.
【答案】(1)
(2)4
(1)由题意知 ,
y关于x的线性回归方程为:
(2)当 时 ,所以记忆力为9的同学的判断力为4.
3.(2022·陕西汉中·高一期末)2021年5月习近平总书记到某地的医圣祠考察,总书记说,过去中华民族
几千年都是靠中医药治病救人,特别是经过抗击新冠肺炎疫情、非典等重大传染病之后,我们对中医药的
作用有了更深的认识,我们要发展中医药,注重用现代科学解读中医药学原理,走中西医结合的道路.某
农科所经过实地考察和研究,发现某地适合种植甲、乙两种药材,通过大量考察研究,得到如下统计数据;
药材甲的亩产量约为300公斤,其收购价格处于上涨趋势,最近五年的价格如表:
年份 2017 2018 2019 2020 2021
年份编号 1 2 3 4 5
单价/元/公斤) 17 19 23 26 30
药材乙的收购价格始终为21元/公斤,其亩产量的频率分布直方图如图:
(1)若药材甲的单价y(单位;元/公斤)与年份编号x具有线性相关关系,请求出y关于x的线性回归方程;
(2)用上述频率分布直方图估计药材乙的平均亩产量,若不考虑其他因素,试判断2022年该地区种植哪种
药材收益更高?并说明理由.
参考公式:线性回归方程 的斜率和截距的最小二乘估计分别为 , .
【答案】(1)
(2)甲种药材,理由见解析
(1)由表中数据, , , ,. , ,∴y关于x的线性回归
方程 .
(2)当 时 .即2022年药材甲的收购价约为32.9元.药材乙的平均亩产量约为
,若种植甲种药材每亩地的收入约为
,若种植乙种药材每亩堆的收入约为 ,故应该种植甲种药材.
角度2:非线性经验回归方程及应用
典型例题
例题1.(2022·陕西·千阳县中学一模(理))某公司为确定下一年度投入某种产品的宣传费,需了解年宣
传费 (单位:千元)对年销售量 (单位:t)和年利润 (单位:千元)的影响,对近8年的年宣传费
和年销售量 ( =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
108.8
46.6 563 6.8 289.8 1.6 1469
表中 , .
(1)根据散点图判断, 与 哪一个适宜作为年销售量 关于年宣传费 的回归方程类型?
(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立 关于 的回归方程;
附:对于一组数据 , ,……, ,其回归线 的斜率和截距的最小二乘估计分别为:
【答案】(1) 适合
(2)
(1)解:由散点图可以判断, 适合作为年销售 关于年宣传费用 的回归方程类型.
(2)解:令 ,先建立 关于 的线性回归方程,由于 ,
,所以 关于 的线性回归方程为 ,所以 关于 的回归方
程为 ;
例题2.(2022·河南南阳·高二期末(文))在中国文娱消费中,视听付费市场规模不断增长,从2013年
到2021年,在线音乐市场规模变化情况如下表所示:
年份 2013 2014 2015 2016 2017 2018 2019 2020 2021
市场规模(亿元) 0.5 0.9 1.6 2.8 4.7 10.5 18.8 29.9 43.7
将2013年作为第1年,设第 年的市场规模为 ( ,2,3,…,9)亿元.
(1) 与 哪一个更适宜作为市场规模 关于 的回归方程?(给出判断即可,不必说明理
由)
(2)根据(1)中的判断及表中的数据,求市场规模 关于 的回归方程.(系数精确到0.0001)
参考数据:令 , , , , ,
, , .附:对于一组数据 , ,…, ,
其回归直线方程 中, , .
【答案】(1)
(2)
(1)根据表中数据可得,随着年份的增加,市场规模增长明显加快,所以选择 更适宜;
(2)令 ,则回归方程为 ,,
则 ,
,
所以y关于i的回归方程为 .
例题3.(2022·四川·成都七中模拟预测(理))新冠肺炎疫情发生以来,我国某科研机构开展应急科研攻
关,研制了一种新型冠状病毒疫苗,并已进入二期临床试验.根据普遍规律.志愿者接种疫苗后体内会产
生抗体,人体中检测到抗体,说明有抵御病毒的能力.通过检测,用 表示注射疫苗后的天数. 表示人
体中抗体含量水平(单位: ,即:百万国际单位毫升),现测得某志愿者的相关数据如下表所示:
天数 1 2 3 4 5 6
抗体含量水平 5 10 26 50 96 195
根据以上数据,绘制了散点图.
(1)根据散点图判断, 与 ( , , , 均为大于零的常数)哪一个更适宜作为描述
与 关系的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果求出 关于 的回归方程,并预测该志愿者在注射疫苗后的第10天的抗体含量水
平值;
(3)从这位志愿者的前6天的检测数据中随机抽取4天的数据作进一步的分析,记其中的 值大于50的天数
为 ,求 的分布列与数学期望.
参考数据:
3.50 63.67 3.49 17.50 9.49 12.95 519.01 4023.87
其中 .参考公式:用最小二乘法求经过点 , , ,…, 的线性回归方程 的系数
公式, , .
【答案】(1) 更适合
(2) ,
(3)分布列见解析;期望为
(1)根据散点图,点的分布呈现曲线状,所以 更适合作为描述 与 关系的回归方程类型.
(2)设 ,变换后可得 ,
设 ,建立 关于 的回归方程 ,
,
,
所以 关于 的回归方程为 ,
所以 ,
当 时, ,
即该志愿者在注射疫苗后的第10天的抗体含量水平值约为
(3)由表格数据可知,第5,6天的 值大于50,
故 的可能取值为0,1,2,
, ,
的分布列为
0 1 2
.
同类题型归类练
1.(2022·江苏泰州·高二期末)2022年初某公司研发一种新产品并投入市场,开始销量较少,经推广,销
量逐月增加,下表为2022年1月份到7月份,销量y(单位:百件)与月份x之间的关系.月份x 1 2 3 4 5 6 7
10
销量y 6 11 21 34 66 196
1
(1)根据散点图判断 与 (c,d均为大于零的常数)哪一个适合作为销量y与月份x的回归
方程类型(给出判断即可,不必说明理由)?
(2)根据(1)的判断结果及表中的数据,求y关于x的回归方程,并预测2022年8月份的销量;
(3)考虑销量、产品更新及价格逐渐下降等因素,预测从2022年1月份到12月份(x的取值依次记作1到
12),每百件该产品的利润为 元,求2022年几月份该产品的利润Q最大.
参考数据:
62.14 1.54 2535 50.12 3.47
其中 , .参考公式:
对于一组数据 ,其回归直线 的斜率和截距的最小二乘估计公式分别为:
, .
【答案】(1)
(2) ,预测2022年8月份的销量为347百件(34700件)
(3)2022年8月份或9月份利润最大
(1)根据散点图判断, 适合作为销量y与月份x的回归方程类型.
(2)对 两边同时取常用对数得: ,
设 ,则 ,因为 , , ,所以 ,
把样本中心点 代入 ,得: ,所以 ,
即 ,
所以y关于x的回归方程为 ,
把 代入上式,得 ,
所以预测2022年8月份的销量为347百件(34700件).
(3)由题意得 ( 且 ),
构造函数 ,
所以当 或9时, 取最大值,
即2022年8月份或9月份利润最大.
2.(2022·河南·新蔡县第一高级中学高二阶段练习(文))为了帮助移民人口尽快脱贫,党中央作出对口
扶贫的战略部署,在对口扶贫政策的帮扶下,某移民村庄100位移民近5年以来的人均年收入统计如下表:
201
年份 2016 2017 2019 2020
8
年份代码 1 2 3 4 5
人均年收入 (千
1.3 2.8 5.7 8.9 13.8
元)
现要建立 关于 的回归方程,有两个不同回归模型可以选择,模型一: ,模型二:
.现用最小二乘法原理,已经求得模型一的方程为 .
(1)用最小二乘法原理,结合下面的参考数据及参考公式求出模型二的方程(结果最后保留到小数点后一
位);
(2)若画出 关于 的散点图,无法确定上述哪个模型拟合效果更好,现计算出模型一的残差平方和为
,请计算模型二的残差平方和,并用它来判断哪个模型拟合效果更好.
附:参考数据: ,其中 , .参考公式:对于一组数据
,其回归直线 的斜率和截距的最小二乘法估计公式分别为, .
【答案】(1)
(2)答案见解析
(1)令 ,则 ,所以 ,
,
, ,
所以 .
(2)
当 时, ,
当 时, ,
当 时, ,
当 时, ,
当 时, ,
模型二的残差平方和 ,
因为 ,所以模型二拟合效果更好.
角度3:相关系数
典型例题
例题1.(2022·福建省福安市第一中学高三阶段练习)根据统计,某蔬菜亩产量的增加量 (百千克)与
某种液体肥料每亩使用量 (千克)之间对应数据的散点图如图所示.(1)请从相关系数 (精确到 );
(2)建立 关于 的线性回归方程,并用其估计当该种液体肥料每亩使用量为 千克时,该蔬菜亩产量的增
加量约为多少百千克?
参考公式:对于一组数据 ,相关系数 ,其回归直线
中, , ,参考数据: , .
【答案】(1)
(2) , 百千克
(1)由已知数据可得 ,
,
所以 ,
,
,
所以相关系数 ,
(2)由于 ,,
所以 关于 的线性回归方程为 ,
当 时, ,所以西红柿亩产量的增加量约为 百千克.
例题2.(2022·陕西渭南·高二期末(文))近年来,随着互联网的发展,网约车服务在我国各城市迅猛发
展,为人们出行提供了便利,但也给城市交通管理带来了一些困难.为了解网约车在某省的发展情况,调
查机构从该省抽取了5个城市,分别收集和分析了网约车的 两项指标数 ,数据如下
表所示:
城市1 城市2 城市3 城市4 城市5
指标数 3 5 6 7 9
指标数 5 6 7 8 9
(1)由表中数据可知, 与 具有较强的线性相关关系,请利用相关系数 加以说明;(精确到0.01)
(2)建立 关于 的线性回归方程,并预测当 指标数为8时, 指标数的估计值.
相关系数 参考值:当 时,线性相关程度一般;当 时,线性相关程度较高.
参考公式: ,线性回归方程 的斜率和截距的最小二乘法估计分别为
, .
参考数据: , .
【答案】(1)答案见解析
(2) ,预测当 指标数为8时, 指标数的估计值为8.4
(1)由表得 , ,∴ , ,
,∴该 指标 与 指标 具有较高的线性相关程度.
(2) ,则 ,∴ 关于 的线性回归方程为
,将 代入,得 ,故预测当 指标数为8时, 指标数的估计值为8.4.
例题3.(2022·江西·高三阶段练习(文))北京时间2022年4月5日,CBA官方公布了2021—2022赛季
CBA季后赛1/4决赛赛程表.赛程表显示,1/4决赛将在4月7日(周四)15:00打响,首场比赛是上半区
的辽宁本钢迎战山西汾酒股份.其中辽宁队当家球星郭艾伦信心满满,球迷们终于可以一饱眼福.为了更
好地预测球员郭艾伦在首战中的发挥情况,球迷们收集了郭艾伦赛前的一场比赛的数据如表所示.
上场时间 (分钟) 6 11 18 24 32 35
累计得分 分) 5 12 16 22 31 40
由上表数据可知,可用线性回归模型拟合 与 的关系.
(1)请用相关系数说明 与 具有很强的线性相关关系;(精确到0.01)
(2)求出 关于 的线性回归方程,并预测球员郭艾伦在首战中出场时间40分钟的累计得分.(回归方程
的斜率与纵截距精确到0.1,累计得分保留整数)
附:相关系数
线性回归方程 的斜率与截距的最小二乘法公式分别为 , .
参考数据: , .
【答案】(1)说明见解析
(2) ,累计得分约为42分
(1)由题知 , , ,
,
所以 ,
即y与x具有很强的线性相关关系.
(2)由 ,
,得到回归直线方程为 ,则当 时, ,所以球员郭艾伦在首战中出场时间为40分钟时,他的累计得
分约为42分.
同类题型归类练
1.(2022·陕西西安·高二期末(文))近年来,随着物质生活水平的提高以及中国社会人口老龄化加速,
家政服务市场规模逐年增长,2017~2021年中国家政市场规模数据(单位:百亿元)如下表:
201 202
年份 2018 2019 2021
7 0
年份代码x 1 2 3 4 5
市场规模y(百亿元) 35 44 58 70 88
(1)计算变量x,y的相关系数r;(结果精确到0.01)
(2)求变量x,y之间的线性回归方程,并据此预测2025年中国家政市场规模有多少亿元?
参考数据: , , , , .
参考公式:相关系数 ,
线性回归方程的斜率 ,截距 .
【答案】(1)0.99
(2) ,预测2025年中国家政市场规模有13820亿元
(1) ;
(2)∵ , , , ,∴
, .∴变量x,y之间的线性回归方程为
,∵2025年的年份代码为9,∴当 时, ,∴预测2025年中国
家政市场规模有13820亿元.
2.(2022·福建省福州第一中学高二期末)在对10个同类工场的研究后,某工场获得投入与纯利润的简单随机样本数据 ( ,2,…,10),x,y,分别表示第i个工场的投入(单位:万元)和纯利润
(单位:万元).
第i个工场 1 2 3 4 5 6 7 8 9 10
3 3 4
投入 /万元 32 33 36 37 39 43 46
1 8 5
3 4 4
纯利润 /万元 25 34 37 39 42 44 50
0 1 8
参考数据: , , , , ,
.
(1)请用相关系数说明该组数据中y与x之间的线性相关程度;
(2)求y关于x的经验回归方程(精确到0.01);
(3)现有甲、乙两种大型机器供工场选择,甲型机器价位是60万元,乙型机器价位是50万元,下表是甲、
乙两种大型机器各30台的使用年限(整年)统计表:
1年 2年 3年 4年 合计
甲型/台 3 12 9 6 30
乙型/台 6 12 9 3 30
据以往经验可知,每年使用任一型号都可获利润30万元,若仅考虑购置成本和每台机器的使用年限(使用
年限均为整年),以频率估计概率,该工场选择买哪一款型号机器更划算?
参考公式:相关系数 ,对于一组具有线性相关关系的数据 ( ,
2,…,n),其回归直线 的斜率和截距的最小二乘估计公式分别为 ,
.
【答案】(1)y与x之间具有较强的线性相关关系;
(2) ;
(3)该工场应选择购买乙型号机器更划算.
(1)依题意知, , ,且相关系数,
因为y与x的相关系数接近于1,所以y与x之间具有较强的线性相关关系.
(2)依题意知, , ,
所以y关于x的经验回归方程为 .
(3)以频率估计概率,购买一台甲型号机器的利润X(单位:万元)的概率分布列为:
X -30 0 30 60
P 0.1 0.4 0.3 0.2
(万元)
购买一台乙型号机器的利润Y(单位:万元)的概率分布列为:
Y -20 10 40 70
P 0.2 0.4 0.3 0.1
(万元)
因为 ,所以该工场应选择购买乙型号机器更划算.
3.(2022·山东枣庄·高二期末)某公司对其产品研发的年投资额x(单位:百万元)与其年销售量y(单
位:千件)的数据进行统计,整理后得到如下统计表:
x 1 2 3 4 5
y 1.5 2 3.5 8 15
(1)求变量x和y的样本相关系数r(精确到0.01),并推断变量x和y的线性相关程度(参考:若 ,
则线性相关程度很强;若 ,则线性相关程度一般;如果 ,则线性相关程度较弱);
(2)求年销售量y关于年投资额x的线性回归方程;
(3)当公司对其产品研发的年投资额为600万元时,估计产品的年销售量.
参考公式:对于变量x和变量y,设经过随机抽样获得的成对样本数据为 , ,…, ,
其中 , ,…, 和 , ,…, 的均值分别为 和 ;称 为变量x和y的样本相关系数;
线性回归方程 中, , ;
参考数据: .
【答案】(1) ,变量x和y的线性相关程度很强
(2)
(3)15.9千件
(1)由题意, , ,
,
,
所以 ,
因为 ,所以变量x和y的线性相关程度很强.
(2) , .
所以年销售量y关于年投资额x的线性回归方程为 .
(3)当x=6时,由(2) .
所以研发的年投资额为600万元时,产品的年销售量约为15.9千件.
角度4:残差分析
典型例题
例题1.(2022·四川眉山·高二期末(文))某种农作物可以生长在滩涂和盐碱地,它的灌溉方式是将海水
稀释后进行灌溉.某实验基地为了研究海水浓度 (%)对亩产量 (t)的影响,通过在试验田的种植实
验,测得了该农作物的亩产量与海水浓度的数据如下表海水浓度 (%) 3 4 5 6 7
亩产量 (t) 0.56 0.52 0.46 0.35 0.31
残差 0.01 0.01
绘制散点图发现,可以用线性回归模型拟合亩产量 (t)与海水浓度 (%)之间的相关关系,用最小二
乘法计算得 与 之间的线性回归方程为
(1)求 , , 的值;
(2)统计学中常用相关指数 来刻画回归效果, 越大,回归效果越好,如假设 ,就说明预报变
量 的差异有85%是解释变量 引起的.请计算相关指数 (精确到0.01),并指出亩产量的变化多大程度
上是由浇灌海水浓度引起的?
附:残差 ,相关指数 ,其中
【答案】(1) , , ;
(2) ,亩产量的变化有 是由浇灌海水浓度引起的.
(1)由题设, , ,
所以 ,可得 ,
,
.
(2)由(1)知: , ,
所以 ,
故亩产量的变化有 是由浇灌海水浓度引起的.
例题2.(2022·黑龙江·哈九中模拟预测(文))医学中判断男生的体重是否超标有一种简易方法,就是用
一个人身高的厘米数减去105所得差值即为该人的标准体重.比如身高175cm的人,其标准体重为
公斤,一个人实际体重超过了标准体重,我们就说该人体重超标了.已知某班共有30名男生,
从这30名男生中随机选取6名,其身高和体重的数据如表所示:
编号 1 2 3 4 5 6
身高(cm) 165 171 160 173 178 167
体重(kg) 60 63 62 70 71 58
(1)从编号为1,2,3,4,5的这5人中任选2人,求恰有1人体重超标的概率;(2)依据上述表格信息,用最小二乘法求出了体重y对身高x的线性回归方程 ,但在用回归方
程预报其他同学的体重时,预报值与实际值吻合不好,需要对上述数据进行残差分析.按经验,对残差在
区间 之外的同学要重新采集数据.问上述随机抽取的编号为3,4,5,6的四人中,有哪几位同
学要重新采集数据?
【答案】(1)0.6
(2)3号,4号和6号同学需要重新采集数据
(1)由表可知:
1号同学的标准体重为 ;
2号同学的标准体重为 ;
3号同学的标准体重为 ;
4号同学的标准体重为 ;
5号同学的标准体重为 ;
故3号、4号同学体重超标
所有基本事件为(1,2),(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,
4),(3,5),(4,5)共10个
恰有1人体重超标包含基本事件为(1,3),(1,4),(2,3),(2,4),(3,5),(4,5)共6
个,
恰有1人体重超标记为A,则 ;
(2)因为 ,
,
回归直线方程必过样本中心 ,得 ,即 ,
所以回归直线方程为 ,
残差分析:
,
,
,
,
故3号,4号和6号同学需要重新采集数据.
同类题型归类练
1.(2021·全国·高二课时练习)为研究质量x(单位:g)对弹簧长度y(单位:cm)的影响,对不同质量的6个
物体进行测量,数据如下表:x 5 10 15 20 25 30
y 7.25 8.12 8.95 9.90 10.9 11.8
(1)作出散点图并求回归直线方程;
(2)求出R2并说明回归模型拟合的程度;
(3)进行残差分析.
【答案】(1)图象见解析,
(2)R2≈0.9991,回归模型的拟合效果较好
(3)答案见解析
(1)作出散点图如下:
,
.
.
.
, .
关于 的线性回归方程是
(2) , , , , , .
.
.
.
(3) ,非常接近1,故用回归方程 模拟 , 间的关系的拟合效果非常好.
2.(2022·福建省泉州市培元中学高二期中)为了提高智慧城市水平,某市公交公司推出支付宝和微信扫
码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,x表示活动推出的天数,
y表示每天使用扫码支付的人次(单位:十人次),统计数据如表下所示:
x 1 2 3 4 5 6 7
3
y 6 11 21 66 101 196
4
同学甲选择指数型函数模型 (c,d均为大于零的常数)来建立经验回归方程,据此,他对数据进
行了一些初步处理,如下表:其中 , ,
62.14 1.54 140 2535 50.12 27694 3.47
(1)根据表中相关数据,利用同学甲的模型建立y关于x的经验回归方程;
(2)若同学甲求得其非线性经验回归方程的残差平方和为 ;同学乙选择线性回归模型
,并计算得经验回归方程为 ,以及该回归模型的决定系数 ;
①用决定系数 比较甲乙两人所建立的模型,谁的拟合效果更好?
②用你认为拟合效果较好的模型预测活动推出第8天使用扫码支付的人次;
参考公式:对于一组数据 , ,…, ,其回归直线 的斜率和截距的最小二乘
估计公式分别为: , .决定系数:
【答案】(1)
(2)①甲建立的回归模型拟合效果更好;②3470人次
(1)对 两边取对数得: ,其中 , , ,
,
∴ , ,
所以 , ,
所以(2)①甲建立的回归模型的 ,
∴甲建立的回归模型拟合效果更好.
②利用甲建立的模型预测,当 时, ,
∴活动推出第8天使用扫码支付的人次为3470人次;
题型三:列联表与独立性检验
典型例题
例题1.(2021·山东·临沂市兰山区教学研究室高三开学考试)某公司推出了一款针对中学生的智能学习软
件,为了解学生对该学习软件的满意程度,随机抽取了正在使用软件的200名学生(男生与女生的人数均
为100)对学习软件进行评价打分,若评分不低于80分视为满意.其得分情况的频率分布直方图如图所示,
若根据频率分布直方图得到的评分低于70分的频率为0.15.
(1)求a,b的值,并估计这200名学生对该学习软件评分的平均值与中位数;
(2)结合频率分布直方图,完成以下列联表,并根据小概率值 的独立性检验,判断“对该学习软件
满意是否与性别有关”.
态度
满意 不满意 合计
性别
男生 40
女生
合计
附:随机变量 .
0.25 0.15 0.10 0.05 0.025 0.01 0.005 0.001
1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828【答案】(1) , ,平均值80,中位数81.25
(2)表格见解析,该学习软件是否满意与性别有关联
(1)由已知得 解得
,解得 ,
所以评分的平均值为 .
因为前3组的频率和 ,前4组4 频率和
,所以中位数在第4组,
设中位数为x,则 ,解得 .
(2)由题意可得, 列联表如下表:
态度性 不满
满意 合计
别 意
男生 40 60 100
女生 70 30 100
合计 110 90 200
假设 :对该学习软件是否满意与性别无关联
由
∵ ,假设 不成立,对该学习软件是否满意与性别有关联,且犯错误的概率不超过0.001.
例题2.(2022·重庆·高二阶段练习)第24届冬季奥林匹克运动会( ),
即2022年北京冬季奥运会,是由中国举办的国际性奥林匹克赛事,于2022年2月4日开幕,2月20日闭
幕.2022年北京冬季奥运会共设7个大项,15个分项,109个小项.北京赛区承办所有的冰上项目,延庆赛
区承办雪车、雪橇及高山滑雪项目,张家口赛区承办除雪车、雪橇、高山滑雪之外的所有雪上项目.为调查学
生对冬季奥运会项目的了解情况,某中学进行了一次抽样调查,统计得到以下 列联表.
了解 不了解 合计
男生 60 200
女生 110 200
合计
(1)先完成 列联表,并依据 的独立性检验,分析该校学生对冬季奥运会项目了解情况与性别是否有关;
(2)①为弄清学生不了解冬季奥运会项目的原因,按照性别采用分层抽样的方法,从样本中不了解冬季奥运
会项目的学生中随机抽取5人,再从这5人中抽取3人进行面对面交流,求“男、女生至少各抽到一名”的
概率;
②用样本估计总体,若再从该校全体学生中随机抽取40人,记其中对冬季奥运会项目了解的人数为 ,
求 的数学期望.
附表:
附:
【答案】(1)列联表答案见解析,该校学生对冬季奥运会项目了解情况与性别有关
(2)① ;②
(1)零假设 :该校学生对冬季奥运会项目了解情况与性别无关(独立),
了解 不了解 合计
男生 140 60 200
女生 110 90 200
合计 250 150 400
根据所给数据得 ,
并依据 的独立性检验,零假设 不成立,
即该校学生对冬季奥运会项目了解情况与性别有关,该推断犯错误的概率不超过 .
(2)①采用分层抽样的方法,从样本中不了解冬季奥运会项目的学生中随机抽取5人,由题可得不了解冬
季奥运会项目的学生中男女比例为 ,
故这5人中包含3名女生,2名男生,再从这5人中抽取3人进行面对面交流,
则“男、女生至少各抽到一名”的概率为 ;
②由题意得学生了解冬季奥运会项目的概率为 ,
可知 ,故 .
例题3.(2022·全国·高二单元测试)盲盒里面通常装的是动漫、影视作品的周边,或者设计师单独设计出来的玩偶.由于盒子上没有标注,购买者只有打开后才会知道自己买到了什么,因此这种惊喜吸引了众多
年轻人,形成了“盲盒经济”.某款盲盒内可能装有某一套玩偶的 , , 三种样式,且每个盲盒只装
一个.
(1)某销售网点为调查该款盲盒的受欢迎程度,随机发放了200份问卷,并全部收回.经统计,有30%的人
购买了该款盲盒,在这些购买者当中,女生占 ;而在未购买者当中,男生、女生各占50%.请根据以上
信息填写下表,并分析是否有95%的把握认为购买该款盲盒与性别有关.
女生 男生 总计
购买
未购买
总计
参考公式: ,其中 .
参考数据:
0.10 0.05 0.025 0.010 0.005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
(2)该销售网点已经售卖该款盲盒6周,并记录了销售情况,如下表:
周数x 1 2 3 4 5 6
盒数y 16 ______ 23 25 26 30
由于电脑故障,第二周数据现已丢失,该销售网点负责人决定用第4,5,6周的数据求线性回归方程,再
用第1,3周数据进行检验.
①若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2盒,则认为得到的线性回归方
程是可靠的.请用4,5,6周的数据求出y关于x的线性回归方程 ,并说明所得的线性回归方程
是否可靠.
(参考公式: , )
②如果通过①的检验得到的线性回归方程可靠,我们可以认为第2周卖出的盒数误差也不超过2盒,请你
求出第2周卖出的盒数的可能取值;如果不可靠,请你设计一个估计第2周卖出的盒数的方案.
【答案】(1)表格见解析,有95%的把握认为“购买该款盲盒与性别有关”
(2)① ,可靠;②可能值为18,19,20,21(1) 女生 男生 总计
购买 40 20 60
未购买 70 70 140
总计 110 90 200
根据列联表中的数据,可得 ,
因为 ,所以有95%的把握认为“购买该款盲盒与性别有关”
(2)①由数据,求得 , , ,
,则所求线性回归方程为 .
当 时, , ,
当 时, , ,
所以所得到的线性回归方程是可靠的
②由①可知线性回归方程可靠, 时, .
设第2周卖出的盒数为 ,则 ,即 ,
所以n能取18,19,20,21,即第2周卖出的盒数的可能值为18,19,20,21.
同类题型归类练
1.(2022·贵州·贵阳市白云区第二高级中学高二期末(理))某校设置了篮球挑战项目,现在从本校学生
中随机抽取了60名男生和40名女生共100人进行调查,统计出愿意接受挑战和不愿意接受挑战的男女生
比例情况,具体数据如图表:
(1)根据条件完成下列 列联表:
愿意 不愿意 总计
男生
女生总计
(2)判断是否在犯错误的概率不超过1%的情况下愿意接受挑战与性别有关;
(3)挑战项目共有两关,规定:挑战过程依次进行,每一关都有两次机会挑战,通过第一关后才有资格参与
第二关的挑战,若甲参加每一关的每一次挑战通过的概率均为0.5,记甲通过的关数为 ,求 的分布列
和数学期望.
参考公式与数据:
0.1 0.05 0.025 0.01
2.706 3.841 5.024 6.635
【答案】(1)答案见解析
(2)不能认为犯错误的概率不超过1%的情况下愿意接受挑战与性别有关
(3)分布列见解析,
(1)根据条件 列联表如下:
愿意 不愿意 总计
男生 15 45 60
女生 20 20 40
总计 35 65 100
(2) ,
则不能认为犯错误的概率不超过1%的情况下愿意接受挑战与性别有关;
(3)记甲第 次通过第一关为 ,第 次通过第二关为 ,
的可能取值为 , ,
,
,
的分布列
0 1 2数学期望 .
2.(2022·河南·高三开学考试(文))安全正点、快捷舒适、绿色环保的高速铁路越来越受到中国人民的
青睐.为了解动车的终到正点率,某调查中心分别随机调查了甲、乙两家公司生产的动车的300个车次的
终到正点率,得到如下列联表:
终到正点率低于0.95 终到正点率不低于0.95
甲公司生产的动车 100 200
乙公司生产的动车 110 190
(1)根据上表,分别估计这两家公司生产的动车的终到正点率不低于0.95的概率;
(2)能否有90%的把握认为甲、乙两家公司生产的动车的终到正点率是否低于0.95与生产动车的公司有关?
附: .
0.100 0.050 0.010
k 2.706 3.841 6.635
【答案】(1)甲公司生产的动车的终到正点率不低于0.95的概率约为 ,乙公司生产的动车的终到正点率不
低于0.95的概率约为
(2)没有90%的把握认为甲、乙两家公司生产的动车的终到正点率是否低于0.95与生产动车的公司有关
(1)用频率估计概率,甲公司生产的动车的终到正点率不低于0.95的概率约为 ;
乙公司生产的动车的终到正点率不低于0.95的概率约为 .
(2)因为 ,
所以 ,
所以没有90%的把握认为甲、乙两家公司生产的动车的终到正点率是否低于0.95与生产动车的公司有关.
3.(2022·吉林·长春十一高高二期末)某食品厂为了检查甲、乙两条自动包装流水线的生产情况,随机在
这两条流水线上各抽取100件产品作为样本称出它们的质量(单位:毫克),质量值落在 的产品
为合格品,否则为不合格品.统计数据如下面 列联表:
甲流水线 乙流水线 总计合格品 92 96 188
不合格
8 4 12
品
总计 100 100 200
(1)依据 的独立性检验,能否认为产品的包装合格与流水线的选择有关联?
附: ,其中 .
临界值表:
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
(2)公司工程师抽取几组一小时生产的产品数据进行不合格品情况检查分析,在x(单位:百件)件产品中,
得到不合格品数量y(单位:件)的情况汇总如下表所示:
(百件) 1 4 7 8 10
(件) 2 14 24 35 40
求y关于x的经验回归方程 ,并预测一小时生产2000件时的不合格品数(精确到1).
附: ; .
【答案】(1)不能认为产品的包装合格与装流水线的选择有关联;
(2) ,83件.
(1)根据 列联表可得 依据
的独立性检验,不能认为产品的包装合格与装流水线的选择有关联;
(2)由已知可得: , ,
, ,所以
, ,所以
,当 (百件)时, 件,所以估计一小时生产2000件时的不合格品数约为83件.
第四部分:高考真题感悟
1.(2022·全国·高考真题(文))某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区
某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位: )和材积量
(单位: ),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得 .
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为 .已
知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数 .
【答案】(1) ; (2) (3)
(1)样本中10棵这种树木的根部横截面积的平均值 样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为 ,平均一棵的材积量为
(2)
则
(3)设该林区这种树木的总材积量的估计值为 ,又已知树木的材积量与其根部横截面积近似成正比,可得 ,解之得 .则该林区这种树木的总材积量估计为
2.(2022·全国·高考真题(文))甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公
司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数 未准点班次数
A 240 20
B 210 30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附: ,
0.100 0.050 0.010
2.706 3.841 6.635
【答案】(1)A,B两家公司长途客车准点的概率分别为 ,
(2)有
(1)根据表中数据,A共有班次260次,准点班次有240次,设A家公司长途客车准点事件为M,则
;B共有班次240次,准点班次有210次,设B家公司长途客车准点事件为N,则
.A家公司长途客车准点的概率为 ;B家公司长途客车准点的概率为 .
(2)列联表
准点班次数 未准点班次数 合计
A 240 20 260
B 210 30 240
合计 450 50 500
= ,根据临界值表可知,有 的
把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
3.(2022·全国·高考真题)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分
为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患
该疾病的人群中随机调查了100人(称为对照组),得到如下数据:不够良
良好
好
病例组 40 60
对照组 10 90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该
疾病”. 与 的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标
为R.
(ⅰ)证明: ;
(ⅱ)利用该调查数据,给出 的估计值,并利用(ⅰ)的结果给出R的估计值.
附 ,
0.050 0.010 0.001
k 3.841 6.635 10.828
【答案】(1)答案见解析
(2)(i)证明见解析;(ii) ;
(1)由已知 ,
又 , ,
所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
(2)(i)因为 ,
所以
所以 ,
(ii)
由已知 , ,
又 , ,所以