文档内容
第 02 讲 成对数据的统计分析
目录
01 模拟基础练......................................................................................................................................2
题型一:变量间的相关关系................................................................................................................2
题型二:一元线性回归模型................................................................................................................4
题型三:非线性回归............................................................................................................................7
题型四:列联表与独立性检验..........................................................................................................11
题型五:误差分析..............................................................................................................................16
02 重难创新练....................................................................................................................................21
03 真题实战练....................................................................................................................................37题型一:变量间的相关关系
1.对四组数据进行统计,获得如图散点图,关于其相关系数的比较,正确的是( )
A. B.
C. D.
【答案】B
【解析】由散点图可知,相关系数 所在散点图呈负相关, 所在散点图呈正相关,所以 都为正
数, 都为负数.
所在散点图近似一条直线上,线性相关性比较强,相关系数的绝对值越接近 ,
而 所在散点图比较分散,线性相关性比较弱点,相关系数的绝对值越远离 .
综上所得: .
故答案为:B.
2.(2024·上海·三模)上海百联集团对旗下若干门店的营业额与三个影响因素分别作了相关性分析,绘制
了如下的散点图,则下述大小关系正确的为( ).A. B. C. D.
【答案】C
【解析】由散点图可知,图一两个变量成正相关,且线性相关性较强,故 ,
图二、图三两个变量都成负相关,且图二的线性相关性更强,
故 , , ,故 ,所以 .
故选:C.
3.观察下列散点图,其中两个变量的相关关系判断正确的是( )
A.a为正相关,b为负相关,c为不相关 B.a为负相关,b为不相关,c为正相关
C.a为负相关,b为正相关,c为不相关 D.a为正相关,b为不相关,c为负相关
【答案】A
【解析】根据给定的散点图,可得a中的数据分布在左下方到右上方的区域里,为正相关,
b中的数据分布在左上方到右下方的区域里,为负相关,
c中的数据各点分布不成带状,相关性不明确,不相关.
故选:A.
4.(2024·四川凉山·三模)调查某校高三学生的身高 和体重 得到如图所示散点图,其中身高 和体重
相关系数 ,则下列说法正确的是( )
A.学生身高和体重没有相关性
B.学生身高和体重呈正相关C.学生身高和体重呈负相关
D.若从样本中抽取一部分,则这部分的相关系数一定是
【答案】B
【解析】由散点图可知,散点的分布集中在一条直线附近,
所以学生身高和体重具有相关性, 不正确;
又身高 和体重 的相关系数为 ,相关系数 ,
所以学生身高和体重呈正相关, 正确, 不正确;
从样本中抽取一部分,相关性可能变强,也可能变弱,所以这部分的相关系数不一定是 , 不正确.
故选: .
题型二:一元线性回归模型
5.在2024年8月8日召开的中国操作系统产业大会上,国产操作系统银河麒麟发布了首个人工智能版本,
该系统通过多项技术创新实现了人工智能与操作系统的深度融合,可广泛应用于自动驾驶、医疗健康、教育
等多个领域,标志着中国在自主操作系统领域实现新突破.某新能源车企采用随机调查的方式并统计发现市
面上可以实现自动驾驶的新能源汽车上可为乘客提供的功能数目 与汽车上所安装的人工智能芯片个数
线性相关,且根据样本点 求得的回归直线方程为 ,若 在回归直线上,
则 .
【答案】
【解析】由题意,点 在回归直线上,所以 ,
所以 ,又 ,由 在回归直线上,得 ,
所以 ,
所以 .
故答案为: .
6.(2024·江西·一模)已知变量y与x线性相关,由样本点 求得的回归方程为
,若点 在回归直线上,且 , ,则 .
【答案】6
【解析】由题意,点 在回归直线上,代入 可得, ,解得 ,因 ,且样本中心点 在回归直线上,将条件代入得: ,
故 ,解得 .
故答案为:6.
7.题图所示是某地2014年至2020年生活垃圾无害化处理量(单位:万吨)的折线图.
注:年份代码1~7分别对应年份2014~2020.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以证明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2022年某地生活垃圾无害化处理量.
附注:
参考数据: , , , .
参考公式:相关系数 ,回归方程 中斜率和截距的最小二乘法估计公式
分别为 , .
【解析】(1)由折线图看出,y与t之间存在较强的正相关关系,理由如下:
因为 , ,
,
,
,所以
.
因为 ,故y与t之间存在较强的正相关关系;
(2)由(1)结合题中数据可得 ,
, ,
所以y关于t的回归方程 ,
2022年对应的t值为9,故 ,
预测2022年该地生活垃圾无害化处理量为1.82万吨.
8.(2024·高三·重庆·开学考试)传统燃油汽车与新能源汽车相比,有着明显的缺点:如传统燃油汽车在
行驶过程中会产生尾气排放和噪音污染,环保性能较差、能源效力较低等我国近几年着重强调可持续发展,
加大在新能源项目的支持力度,积极推动新能源汽车产业迅速发展某汽车制造企业对某地区新能源汽车的
销售情况进行调查,得到下面的统计表.
202
年份t 2019 2020 2022 2023
1
年份代码 1 2 3 4 5
销量y(万辆) 11 13 18 21 27
(1)统计表明销量y与年份代码x有较强的线性相关关系,求y关于x的线性同归方程,并预测该地区新能
源汽车的销量最早在哪一年能突破50万辆;
(2)该企业随机调查了该地区2023年的购车情况.据调查,该地区2023年购置新能源汽车与传统燃油汽车
的人数的比例大约为 .从被调查的2023年所有车主中按分层抽样抽取12人,再从12人中随机抽取3
人,记这3人中购置新能源汽车的人数为X,求X的分布列和期望.
参考公式:对于一组数据 ,其回归直线 中斜率和截距的最小二乘估计公式分别为:
.
【解析】(1)设 关于 的线性回归方程 ,
依题意, , ,
, ,
因此 , ,
则 关于 的线性回归方程为 ,
令 ,解得 , ,取 ,
所以该地区新能源汽车的销量最早在 年能突破 万辆.
(2)依题意,按1:3分层抽样知,12人中有9人购置了传统燃油汽车,3人购置了新能源汽车,
所有可能的取值为 , , , ,
, ,
, ,
所以 的分布列为:
期望 .
题型三:非线性回归
9.(2024·四川内江·模拟预测)当前,人工智能技术以前所未有的速度迅猛发展,并逐步影响生活的方方
面面,人工智能被认为是推动未来社会发展和解决人类面临的全球性问题的重要手段.某公司在这个领域逐
年加大投入,以下是近年来该公司对产品研发年投入额 (单位:百万元)与其年销售量 (单位:千
件)的数据统计表.(百万) 1 2 3 4 5
(千
0.5 1 1.5 3 5.5
件)
(1)若该公司科研团队计划用方案① 作为年销售量 关于年投资额 的回归分
析模型,请根据统计表的数据及参考公式,确定该经验回归方程;
(2)若该公司科研团队计划用方案② 作为年销售量 关于年投资额 的回归分析模型,
的残差平方和 ,请根据统计表的数据及参考公式,比较两种模型的拟合效
果哪种更好?并选择拟合精度更高的模型,预测年投入额为6百万元时,产品的销售量约为多少?(计算
结果保留到小数点后两位)
参考公式及数据: ,
【解析】(1)由题意 ,
, ,
所以线性回归方程为 .
(2)按(1)可得 ,
根据题意可得如下数据:
x 1 2 3 4 5
y 0.5 1 1.5 3 5.5
1.1 2.3 3.5 4.7
方案①的残差平方和为 ,
由于 ,故方案②非线性回归方程拟合效果更好.
当 时, (千件),
故当年投入额为6百万元时,产品的销售量约为9.68千件.
10.红铃虫是棉花的主要害虫之一,能对农作物造成严重伤害.每只红铃虫的平均产卵数y(个)和平均温
度x(℃)有关,现收集了7组数据,得到下面的散点图及一些统计量的值.(1)根据散点图判断, 与 (其中e为自然对数的底数)哪一个更适合作为平均产卵数y
(个)关于平均温度 (℃)的回归方程类型?(给出判断即可,不必说明理由)并由判断结果及表中数据,
求出 关于 的回归方程;
附:回归方程 中, .
参考数据
5215 2347.3 33.6 27 81.3 3.6
(2)现在有10根棉花纤维,其中有6根为长纤维,4根为短纤维,从中随机抽取3根棉花纤维,设抽到的长
纤维棉花的根数为X,求X的分布列.
【解析】(1)根据散点图的形状,判断 更适宜作为平均产卵数y关于平均温度x的回归方程类型,
将 两边同时取自然对数,得 ,
依题意, , ,
因此 ,则 ,
于是z关于x的线性回归方程为 ,
所以y关于x的回归方程为 .
(2)依题意,X的可能值为 ,
,,
所以X的分布列为:
0 1 2 3
11.(2024·山东济南·三模)近年来,我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新,
利润稳步提高.统计该企业2019年至2023年的利润(单位:亿元),得到如图所示的散点图.其中2019
年至2023年对应的年份代码依次为1,2,3,4,5.
(1)根据散点图判断, 和 哪一个适宜作为企业利润y(单位:亿元)关于年份代码x的回
归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)中的判断结果,建立y关于x的回归方程;
(3)根据(2)的结果,估计2024年的企业利润.
参考公式及数据;
, ,
, , , ,
【解析】(1)由散点图的变化趋势,知 适宜作为企业利润y(单位:亿元)关于年份代码x的
回归方程类型;
(2)由题意得: , ,
,
,
所以 ;(3)令 , ,
估计2024年的企业利润为99.25亿元.
题型四:列联表与独立性检验
12.为了增强学生的身体素质,提高适应自然环境、克服困难的能力,某校在课外活动中新增了一项登山
活动,并对“学生喜欢登山和性别是否有关”做了一次调查,其中被调查的男女生人数相同,得到如图所
示的等高条形统计图,则下列说法中正确的有 .
①被调查的学生中喜欢登山的男生人数比喜欢登山的女生人数多
②被调查的女生中喜欢登山的人数比不喜欢登山的人数多
③若被调查的男女生均为100人,则可以认为喜欢登山和性别有关
④无论被调查的男女生人数为多少,都可以认为喜欢登山和性别有关
【答案】①③
【解析】因为被调查的男女生人数相同,由等高堆积条形统计图可知,喜欢登山的男生占80%,喜欢登山
的女生占30%,所以A正确,B错误;
设被调查的男女生人数均为n,则由等高堆积条形统计图可得列联表如下
男 女 合计
喜欢 0.8n 0.3n 1.1n
不喜
0.2n 0.7n 0.9n
欢
合计 n n 2n
由公式可得: .
当 时, ,可以判断喜欢登山和性别有关,故C正确;
而 ,所以 的值与n的取值有关.故D错误.故答案为:①③.
13.观察下面频率等高条形图,其中两个分类变量x,y之间的随机变量 的观测值最小的是( )
A. B.
C. D.
【答案】B
【解析】等高的条形图中 所占比例相差越小,随机变量 的观测值越小.
故选:B.
14.为了检测某种抗病毒疫苗的免疫效果,需要进行动物与人体试验.研究人员将疫苗注射到200只小白鼠
体内,一段时间后测量小白鼠的某项指标值,按 分组,绘制频率分
布直方图如图所示.试验发现小白鼠体内产生抗体的共有160只,其中该项指标值不小于60的有110只.假
设小白鼠注射疫苗后是否产生抗体相互独立.
(1)填写下面的 列联表,并根据列联表及 的独立性检验,判断能否认为注射疫苗后小白鼠产生
抗体与指标值不小于60有关;
单位:只
指标值
抗体 合计
小于60 不小于60
有抗体没有抗
体
合计
(2)为检验疫苗二次接种的免疫抗体性,对第一次注射疫苗后没有产生抗体的40只小白鼠进行第二次注射
疫苗,结果又有20只小白鼠产生抗体.
(i)用频率估计概率,求一只小白鼠注射2次疫苗后产生抗体的概率 ;
(ii)以(i)中确定的概率 作为人体注射2次疫苗后产生抗体的概率,进行人体接种试验,记100个人
注射2次疫苗后产生抗体的数量为随机变量 .求 及 取最大值时的 值.
参考公式: (其中 为样本容量)
参考数据:
0.100 0.050 0.010 0.005
2.706 3.841 6.635 7.879
【解析】(1)由频率分布直方图知,200只小白鼠按指标值分布为:
在 内有 (只);
在 )内有 (只);
在 )内有 (只);
在 )内有 (只);
在 内有 (只)
由题意,有抗体且指标值小于60的有50只;而指标值小于60的小白鼠共有 (只),
所以指标值小于60且没有抗体的小白鼠有20只,同理,指标值不小于60且没有抗体的小白鼠有20只,
故列联表如下:单位:只
指标值
抗体 合计
小于60 不小于60
有抗体 50 110 160
没有抗
20 20 40
体
合计 70 130 200
零假设为 :注射疫苗后小白鼠产生抗体与指标值不小于60无关联.
根据列联表中数据,得 .根据 的独立性检验,没有充分证据认为注射疫苗后小白鼠产生抗体与指标值不小于60有关.
(2)(i)令事件 “小白鼠第一次注射疫苗产生抗体”,事件 “小白鼠第二次注射疫苗产生抗体”,
事件 “小白鼠注射2次疫苗后产生抗体”.
记事件 发生的概率分别为 ,则 ,
.
所以一只小白鼠注射2次疫苗后产生抗体的概率 .
(ii)由题意,知随机变量 ,所以 .
又 ,设 时, 最大,
所以
解得 ,因为 是整数,所以 .
15.某市销售商为了解A、B两款手机的款式与购买者性别之间是否有关系,对一些购买者做了问卷调查,
得到 列联表如表所示:
购买A款 购买B款 总计
女 25 20 45
男 15 40 55
总计 40 60 100
(1)根据小概率之值 的独立检验,能否认为购买手机款式与性别有关?
(2)用购买每款手机的频率估计一个顾客购买该款手机的概率,从所有购买两款手机的人中,选出3人作为
幸运顾客,记3人中购买 款手机的人数为 ,求 的分布列与数学期望.
参考公式: (其中 ).临界值表:
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【解析】(1)零假设 :假设购买手机款式与性别无关..
由 .
根据小概率值 的独立检验,我们推断 不成立,即认为购买手机款式与性别有关.
(2)由题设,从所有购买两款手机的人中,选出1人购买 款手机的概率为 ,所以,选出3人作为幸运顾客,其中购买 款手机的人数 ,
故 , ,
, .
分布列如下:
0 1 2 3
所以 .
16.树德中学为了调查中学生周末回家使用智能手机玩耍网络游戏情况,学校德育处随机选取高一年级中
的100名男同学和100名女同学进行无记名问卷调查.问卷调查中设置了两个问题:①你是否为男生?②你
是否使用智能手机玩耍网络游戏?
调查分两个环节:
第一个环节:先确定回答哪一个问题,让被调查的200名同学从装有3个白球,3个黑球(除颜色外完全相
同)的袋子中随机摸取两个球,摸到同色两球的学生如实回答第一个问题,摸到异色两球的学生如实回答第
二个问题;
第二个环节:再填写问卷(只填“是”与“否”).
回收全部问卷,经统计问卷中共有70张答案为“是”.
(1)根据以上的调查结果,利用你所学的知识,估计该校中学生使用智能手机玩耍网络游戏的概率;
(2)据核查以上的200名学生中有30名男学生使用智能手机玩耍网络游戏,按照(1)中的概率计算,依据小
概率值α=0.15的独立性检验,能否认为中学生使用智能手机玩耍网络游戏与性别有关联;若有关联,请解
释所得结论的实际含义.
参考公式和数据如下: .
α 0.15 0.10 0.05 0.025 0.005
xα 2.072 2.706 3.841 5.024 7.879
【解析】(1)因为摸到同色两球的概率 ,
所以回答第一个问题的人数为 人,
回答第二个问题的人数为 人,
因为男女人数相等,是等可能的,所以回答第一个问题,选择“是”的同学人数为 人,
则回答第二个问题,选择“是”的同学人数为 人,
所以估计中学生在考试中有作弊现象的概率为 .
(2)由(1)可知200名学生使用智能手机玩网络游戏估计有50人,
则有20名女生使用智能手机玩网络游戏
男 女 合计
使用智能手机玩游戏 30 20 50
不用智能手机玩游戏 70 80 150
100 100 200
零假设为: 使用智能手机玩耍游戏与性别无关,
根据小概率值 的独立性检验,推断 不成立,
因此认为使用智能手机玩耍网络游戏与性别有关,此推断犯错误的概率不大于 .
在男生中使用智能手机玩耍游戏和不使用智能手机玩耍游戏的概率分别为 ,
在女生中使用智能手机玩耍游戏和不使用智能手机玩耍游戏的概率分别为 ,
在被调查者中男生使用智能手机玩耍游戏是女生的 倍,
于是根据概率稳定概率的原理,
我们可以认为男士使用智能手机玩耍网络游戏的概率大于女生使用智能手机玩耍网络游戏的概率.
题型五:误差分析
17.在建立两个变量 与 的回归模型时,分别选择了4个不同的模型,模型1、2、3、4的决定系数 依
次为0.20,0.48,0.96,0.85,则其中拟合效果最好的模型是( )
A.模型1 B.模型2 C.模型3 D.模型4
【答案】C
【解析】因为 越大,表示残差平方和越小,即模型的拟合效果越好,所以这4个不同的模型拟合效果最
好的模型是模型3.
故选:C
18.已知一系列样本点 的一个经验回归方程为 ,若样本点 的残差为2,
则 ( ).A. B.1 C. D.5
【答案】C
【解析】由题意得 ,得 ,
故选:C.
19.(2024·广西贵港·模拟预测)下列说法中错误的是( )
A.独立性检验的本质是比较观测值与期望值之间的差异
B.两个变量x,y的相关系数为r,若 越接近1,则x与y之间的线性相关程度越强
C.若一组样本数据 ( )的样本点都在直线 上,则这组数据的相关系
数r为0.98
D.由一组样本数据 ( )求得的回归直线方程为 ,设 ,
则
【答案】C
【解析】A,独立性检验的本质是比较观测值与期望值之间的差异,从而确定研究对象是否有关联,A正
确;
B,两个变量x,y的相关系数为r,若 越接近1,则x与y之间的线性相关程度越强,B正确;
C,若一组样本数据 ( )的样本点都在直线 上,则这组数据的相关系数r
为1,C错误;
D,由残差分析可知, 介于0与1之间,D正确.
故选:C
20.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的决定系数 如下,其中拟合效果最
好的模型是( )
A.模型1(决定系数 为0.97) B.模型2(决定系数 为0.85)
C.模型3(决定系数 为0.40) D.模型4(决定系数 为0.25)
【答案】A
【解析】在两个变量 与x的回归模型中,它们的决定系数 越接近 ,模型拟合效果越好,在四个选项
中A的决定系数最大,所以拟合效果最好的是模型 ,
故选:A.
21.(2024·山东·一模)相关变量 的散点图如图所示,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程 ,相关系数为 ;方案二:剔除点 ,根据剩下数
据得到线性回归直线方程: ,相关系数为 .则( )
A.
B.
C.
D.
【答案】D
【解析】由散点图得负相关,所以 ,
因为剔除点 后,剩下点数据更线性相关性更强,则 更接近 ,
所以 .
故选:D.
22.(2024·四川·模拟预测)下表是某工厂记录的一个反应器投料后,连续8天每天某种气体的生成量
(L):
日期代码x 1 2 3 4 5 6 7 8
3 9
生成的气体y(L) 4 8 16 51 71 122
1 7
为了分析该气体生成量变化趋势、工厂分别用两种模型:① ,② 对变量x和y的关系
进行拟合,得到相应的回归方程并进行残差分析,残差图如下:
注:残差 :经计算得 , , ,
,其中 ,
(1)根据残差图、比较模型①,模型②的拟合效果,应该选择哪个模型?并简要说明理由;(2)根据(1)问选定的模型求出相应的回归方程(系数均保留两位小数);
(3)若在第8天要根据(2)问求出的回归方程来对该气体生成量做出预测,那么估计第9天该气体生成量
是多少?(精确到个位)
附:回归直线的斜率和截距的最小二乘估计公式分别为: , .
【解析】(1)选择模型①,理由如下:
根据残差图可以看出:模型①的残差点分布在x轴附近,模型②的残差点距离x轴较远,
所以,模型②的残差明显比模型①大,所以模型①的拟合效果相对较好;
(2)由(1)可知y关于x的回归方程为 ,
令 ,则 ,
由所给的数据可得 ,
,
,
则 ,
所以y关于x的回归方程为 .
(3)将 代入回归方程,可得 ,
所以预测该气体第9天的生成量约为157L.
23.(2024·河北唐山·三模)据统计,某城市居民年收入(所有居民在一年内收入的总和,单位:亿元)
与某类商品销售额(单位:亿元)的10年数据如下表所示:
第 年 1 2 3 4 5 6 7 8 9 10
居民年收入 32.2 31.1 32.9 35.7 37.1 38.0 39.0 43.0 44.6 46.0
商品销售额 25.0 30.0 34.0 37.0 39.0 41.0 42.0 44.0 48.0 51.0
依据表格数据,得到下面一些统计量的值.
379.6 391 247.624 568.9
(1)根据表中数据,得到样本相关系数 .以此推断, 与 的线性相关程度是否很强?(2)根据统计量的值与样本相关系数 ,建立 关于 的经验回归方程(系数精确到0.01);
(3)根据(2)的经验回归方程,计算第1个样本点 对应的残差(精确到0.01);并判断若剔除这
个样本点再进行回归分析, 的值将变大还是变小?(不必说明理由,直接判断即可).
附:样本 的相关系数 ,
, , .
【解析】(1)根据样本相关系数 ,可以推断线性相关程度很强.
(2)由 及 ,
可得 ,
所以 ,
又因为 ,
所以 ,
所以 与 的线性回归方程 .
(3)第一个样本点 的残差为: ,
由于该点在回归直线的左下方,故将其剔除后, 的值将变小.
1.中华人民共和国体育代表团参加夏季奥运会以来,中国健儿们不断取得好成绩,到今天成长为体育大
国,从2000年以来,金牌情况统计如下(不含中国香港、中国台湾):中国体育代表团夏季奥运会获得金牌数
届数 第27届 第28届 第29届 第30届 第31届 第32届
届数代码 1 2 3 4 5 6
2000年 2004年 2008年 2012年 2016年 2021年
地点
悉尼 雅典 北京 伦敦 里约热内卢 东京
金牌数
28 32 48 38 26 38
根据以上数据,建立 关于 的线性回归方程,若不考虑其他因素,根据回归方程预测第33届(2024年巴
黎奥运会)中国体育代表团金牌总数为( )
( 精确到0.01,金牌数精确到1,参考数据: );参考公式:
回归方程 中斜率和截距的最小二乘估计公式分别为: .
A.29 B.33 C.37 D.45
【答案】C
【解析】 ,
,所以 ,
所以 关于 的线性回归方程为 .
2024年对应 ,代入回归方程得 ,
故选:C.
2.某运动制衣品牌为了使成衣尺寸更精准,现选择15名志愿者,对其身高和臂展进行测量(单位:
),图①为选取的15名志愿者身高与臂展的折线图,图②为身高 与臂展 所对应的散点图,并求得
其回归直线方程为 ,则下列结论中不正确的为( )A.15名志愿者身高的极差小于臂展的极差
B.15名志愿者身高和臂展成正相关关系
C.可估计身高为 的人臂展大约为
D.身高相差 的两人臂展都相差
【答案】D
【解析】对于A,身高极差大约为20,臂展极差大约为25,故A正确;
对于B,很明显根据散点图以及回归直线得到,身高矮一些,臂展就可能短一些,身高高一些,臂展就可
能长一些,故B正确;
对于C,身高为 ,代入回归直线方程可得到臂展的预测值为 ,但不是准确值,故C正确;
对于D,身高相差 的两人臂展的预测值相差 ,但并不是准确值,回归直线上的点并不都是准
确的样本点,故D不正确.
故选:D.
3.(2024·高三·上海·单元测试)下图是某地区2010年至2019年污染天数 (单位:天)与年份 的折线
图.根据2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据分别建立线性回归模
型 , , ,则( )
A. , B. ,
C. , D. ,
【答案】C
【解析】根据2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据分别建立线性回归模型 , , ,
∴由图知:2010年至2014年数据为 ;
2015年至2019年数据为 ;
2010年至2019年数据为 ;均成递减趋势.
又 , ,
,且极差分别为6、51、65,
三条回归方程的直线大致图象,如下图示:
∴回归方程的斜率大小关系为 ,且截距 .
故选:C.
4.在研究变量 与 之间的相关关系时,进行实验后得到了一组样本数据 , ,…, ,
,利用此样本数据求得的经验回归方程为 ,现发现数据 误差较大,剔除这对数据
后,求得的经验回归方程为 ,且 ,则 ( )
A.13.5 B.14 C.14.5 D.15
【答案】A
【解析】因为 ,剔除异常数据数据 后, ,
因为点 在直线 上,所以 ,解得 ,
设利用原始数据求得的经验回归直线过点 ,
则 ,
因为 ,所以 .
故选:A.
5.(2024·湖南邵阳·三模)某学习小组对一组数据 进行回归分析,甲同学首先求出回归直线方程 ,样本点的中心为 .乙同学对甲的计算过程进行检查,发现甲将数据 误
输成 ,将这两个数据修正后得到回归直线方程 ,则实数 ( )
A. B. C. D.
【答案】A
【解析】由题意可得 ,即修正前的样本中心点为 ,
假设甲输入的(x ,y )为 ,
1 1
则 ,则 ,
且 ,则 ,
则改为正确数据后,则 , ,
所以修正后的样本中心点为 ,
将点 代入回归直线方程 可得 ,解得 .
故选:A.
6.为考察两个变量 , 的相关性,搜集数据如表,则两个变量的线性相关程度( )
5 10 15 20 25
103 105 110 111 114
(参考数据: , , )
A.很强 B.很弱 C.无相关 D.不确定
【答案】A
【解析】由题可得 , ,
则
,
因为相关系数很接近于1,故两个变量的线性相关程度很强.
故选:A.
7.(2024·高三·上海·课堂例题)为了调查各参赛人员对主办方的满意程度,研究人员随机抽取了500名参
赛运动员进行调查,所得数据如下表所示,现有如下说法:①在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为 ;②在犯错误的概率不超过 的前提下可以认为“是否对
主办方表示满意与运动员的性别有关”;③没有 的把握认为“是否对主办方表示满意与运动员的性
别有关”;则正确命题的个数为( )
男性运动员(人) 女性运动员(人)
对主办方表示满意 200 220
对主办方表示不满意 50 30
注:
0.600 0.050 0.010 0.001
2.706 3.841 6.635 10.828
A.0 B.1 C.2 D.3
【答案】B
【解析】因为对主办方表示满意的男性运动员的人数为 ,
所以在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为 ,
所以命题①错误,
又因为 ,所以命题②错误,命题③正确,
故选:B.
8.(2024·福建宁德·三模)2024海峓两岸各民族欢度“三月三”暨福籽同心爱中华 福建省第十一届“三
月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,
畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入
口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据 ,其中 为第 次
入口人流量数据(单位:百人),由此得到 关于 的回归方程 .已知 ,根据回归方程
(参考数据: ),可顶测下午4点时入口游客的人流量为( )
A.9.6 B.11.0 C.11.3 D.12.0
【答案】C
【解析】设 , ,则
所以 ,
,且
则 ,得 ,所以 ,
下午4点对应的 ,此时预测游客的人流量 .
故选:C
9.(多选题)现统计具有线性相关关系的变量X,Y,Z的n组数据,如下表所示:
变量 1 2 3 … n 平均数 方差
X …
Y …
Z …
并对它们进行相关性分析,得到 ,Z与 的相关系数是 , ,Z与Y的相关系数是
,则下列判断正确的是( )
附:经验回归方程 中斜率和截距的最小二乘估计公式分别为 , ,
相关系数 .
A. B.
C. D.
【答案】ACD
【解析】由已知 得到选项AC正确,
相关系数相等所以 ,D正确,
由方差性质可得 ,B错误.
故选:ACD.
10.(多选题)(2024·高三·河北保定·开学考试)某机构抽样调查一批零件的尺寸 和质量 ,得到样本
数据 ,并计算得该批零件尺寸和质量的平均值分别为3和60,方差分别为4和
400,且 .则( )(参考公式:相关系数 .回归直战的方程是:,其中 )
A.样本数据的相关系数为
B.样本数据 关于 的经验回归方程为
C.样本数据所得回归直线的残差平方和为0
D.若数据 均满足正态分布,则估计
【答案】ABD
【解析】A. ,
,故A正确;
B. 由A可知, ,
,所以 ,故B正确;
C.残差平方和表示随机误差的效应,一组数据的残差平方和越小,其拟合程度越好,不一定等于0,故C
错误;
D.由题意可知, , , ,
,利用对称性可知, ,故D正确.
故选:ABD
11.(多选题)(2024·福建泉州·一模)为了研究青少年长时间玩手机与近视率的关系,现从某校随机抽
查600名学生,经调查,其中有 的学生近视,有 的学生每天玩手机超过1小时,玩手机超过1小
时的学生的近视率为 .用频率估计概率,则( )
(附: ,其中 .)
0.10 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
A.如果抽查的一名学生近视,则他每天玩手机超过1小时的概率为B.如果抽查的一名学生玩手机不超过1小时,则他近视的概率为
C.根据小概率值 的独立性检验,可认为每天玩手机超过1小时会影响视力
D.从该校抽查10位学生,每天玩手机超过1小时且近视的人数的期望为5
【答案】AC
【解析】设 “任选1名学生近视”, “任选1名学生每天使用手机超过1小时”
则 , , ,所以 ,
则 ,故A正确;
因为 , ,
即 ,解得 ,故B错误;
由题意,可得 列联表:
每天使用手机时长
视力 合计
超过1h 不超过1h
近视 60 180 240
不近
60 300 360
视
合计 120 480 600
由上表可知 ,可以认为每天玩手机超过1小时会影响视力,
故C正确;
由题意知,任取1人,取得每天玩手机超过1小时且近视的概率为 ,10人中每天玩手机超
过1小时且近视的人数为 ,则 ,所以 ,故D错误.
故选:AC
12.随着工业化以及城市车辆的增加,城市的空气污染越来越严重,空气质量指数API一直居高不下,对
人体的呼吸系统造成了的严重的影响.现调查了某市500名居民的工作场所和呼吸系统健康状况,得到
列联表如下,则 .(结果精确到0.001)
室外工作 室内工 总计作
有呼吸系统疾病 150
无呼吸系统疾病 100
总计 200
【答案】3.968
【解析】补全列联表
室内工
室外工作 总计
作
有呼吸系统疾病 150 200 350
无呼吸系统疾病 50 100 150
总计 200 300 500
.
故答案为:3.968.
13.(2024·重庆·三模)对具有线性相关关系的变量 有一组观测数据 ,
其经验回归方程 ,则在样本点 处的残差为 .
【答案】0.5/
【解析】将 代入 ,得 ,解得 ,
所以 ,
故当 时, ,
所以残差 .
故答案为:0.5.
14.我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国
家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了了解年研发资金投入额 (单位:
亿元)对年盈利额 (单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近10年年研发
资金投入额 和年盈利额 的数据.通过对比分析,建立了两个函数模型:① ,② ,其
中 , , , 均为常数, 为自然对数的底数.令 , ,经计算得如下数据:
26 215 65 2 680 5.3611250 130 2.6 12
请从相关系数的角度分析,模型拟合程度更好是 ;利用模型拟合程度更好的模型以及表中数
据,建立 关于 的回归方程为 ;(系数精确到0.01)
附:①相关系数 ,回归直线 中: ,
【答案】 模型 的拟合程度更好
【解析】设 和 的相关系数为 , 和 的相关系数为 ,
由题意, ,
,
则 ,因此从相关系数的角度,模型 的拟合程度更好.
先建立 关于 的线性回归方程,由 ,得 ,即 ,
,
,
所以 关于 的线性回归方程为 ,
所以 ,则 .
故答案为:①模型 的拟合程度更好;②
15.(2024·高三·上海·开学考试)为了缓解高三学生学业压力,学校开展健美操活动,高三某班文艺委员
调查班级学生是否愿意参加健美操,得到如下的 列联表.
愿
性别 不愿意
意
男生 6 10女生 18 6
(1)根据该 列联表,并依据显著水平 的独立性检验,判断能否认为“学生性别与是否愿意参加
健美操有关”;
(2)在愿意参加的所有学生中,根据性别,分层抽样选取8位学生组织班级健美操队,并从中随机选取2人
作为领队,记这2人中女生人数为随机变量 ,求 的分布及期望 .
附: .
【解析】(1) 列联表如下:
性别 愿意 不愿意 合计
男生 6 10 16
女生 18 6 24
合计 24 16 40
零假设为 :是否愿意参加健美操与学生性别无关.
根据 列联表中的数据,可得 ,
根据小概率值 的独立性检验,我们推断 不成立,
既认为是否愿意参加健美操与学生性别有关联,此判断犯错误的概率不大于0.005.
(2)根据 列联表可得愿意参加健美操的学生中女生占全部的 ,
∴选取的8人中,女生有 人,男生有 人,
∴随机变量 的可取值:0,1,2.
∴ , , .
∴随机变量 的分布列:
0 1 2
数学期望 .
16.(2024·高三·广西贵港·开学考试)为了研究学生的性别和是否喜欢跳绳的关联性,随机调查了某中学
的100名学生,整理得到如下列联表:
男学生 女学 合计生
喜欢跳绳 35 35 70
不喜欢跳绳 10 20 30
合计 45 55 100
(1)依据 的独立性检验,能否认为学生的性别和是否喜欢跳绳有关联?
(2)已知该校学生每分钟的跳绳个数 ,该校学生经过训练后,跳绳个数都有明显进步.假设经
过训练后每人每分钟的跳绳个数都增加10,该校有1000名学生,预估经过训练后该校每分钟的跳绳个数
在 内的人数(结果精确到整数).
附: ,其中 .
0.1 0.05 0.01
2.706 3.841 6.635
若 ,则 ,
.
【解析】(1) :学生的性别和是否喜欢运动无关.
,
所以根据 的独立性检验,不能认为学生的性别与是否喜欢跳绳有关.
(2)训练前该校学生每人每分钟的跳绳个数 ,
则 , , ,
即训练前学生每分钟的跳绳个数在 , , ,
,
由 (人)
估计训练前该校每分钟的跳绳个数在 内的人数为 .
即预估经过训练后该校每分钟的跳绳个数在 内的人数为 .
17.为了了解高中学生课后自主学习数学时间(x分钟/每天)和他们的数学成绩(y分)的关系,某实验
小组做了调查,得到一些数据(表一).
编号 1 2 3 4 53 6
学习时间x 40 50 70
0 0
6 9
数学成绩y 78 85 108
5 9
(1)求数学成绩 与学习时间 的相关系数(精确到0.001);
(2)请用相关系数说明该组数据中 与 之间的关系可用线性回归模型进行拟合,并求出 关于 的回归直
线方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩(参考数据:
, 的方差为200);
(3)基于上述调查,某校提倡学生周末在校自主学习.经过一学期的实施后,抽样调查了220位学生.按照是
否参与周末在校自主学习以及成绩是否有进步统计,得到 列联表(表二).依据表中数据及小概率值
的独立性检验,分析“周末在校自主学习与成绩进步”是否有关.
没有进步 有进步 合计
参与周末在校自主学习 35 130 165
未参与周末不在校自主学习 25 30 55
合计 60 160 220
附:方差: 相关系数:
回归方程 中斜率和截距的最小二乘估计公式分别为 , ,
.
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【解析】(1) , ,
又 的方差为 ,,
,
.
(2)由(1)知 接近1,故与之间具有极强的线性相关关系,可用线性回归直线方程模型进行拟
合:,
,
,故 当 时, ,
故预测每天课后自主学习数学时间达到100分钟时的数学成绩为140.5分.
(3)零假设 :周末在校自主学习与成绩进步无关,
根据数据,计算得到:
,
因为 ,所以依据 的独立性检验,可以认为“周末自主学习与成绩进步”有关.
18.(2024·河北秦皇岛·三模)将保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中
15个区域进行编号,统计抽取到的每个区域的某种水源指标 和区域内该植物分布的数量 ,
得到数组 .已知 , , .
(1)求样本 的样本相关系数;
(2)假设该植物的寿命为随机变量 ( 可取任意正整数),研究人员统计大量数据后发现,对于任意的
,寿命为 的样本在寿命超过 的样本里的数量占比与寿命为1的样本在全体样本中的数量占比
相同,均为0.1,这种现象被称为“几何分布的无记忆性”.
(i)求 的表达式;
(ii)推导该植物寿命期望 的值(用 表示, 取遍 ),并求当 足够大时, 的值.附:样本相关系数 ;当 足够大时, .
【解析】(1)由 , , .
得样本相关系数 ,.
(2)(i)依题意, ,
又 ,
则 ,
当 时,把 换成 ,
则 ,
两式相减得 ,
即 ,
又 ,
所以 对任意 都成立,
从而 是首项为0.1,公比为0.9的等比数列,
所以 .
(ii)由定义知, ,
而 , ,
显然 ,
于是 ,
两式相减得 ,因此 ,
当 足够大时, ,
则 ,可认为 ,
所以该植物寿命期望 的值是10.
19.(2024·黑龙江哈尔滨·模拟预测)2024年初,冰城哈尔滨充分利用得天独厚的冰雪资源,成为2024年
第一个“火出圈”的网红城市,冰城通过创新营销展示了丰富的文化活动,成功提升了吸引力和知名度,
为其他旅游城市提供了宝贵经验,从2024年1月1日至5日,哈尔滨太平国际机场接待外地游客数量如下:
(日) 1 2 3 4 5
(万 5 6
45 60 80
人) 0 5
(1)计算 的相关系数 (计算结果精确到0.01),并判断是否可以认为日期与游客人数的相关性很强;
(2)请根据上表提供的数据,用最小二乘法求出 关于 的线性回归方程;
(3)为了吸引游客,在冰雪大世界售票处针对各个旅游团进行了现场抽奖的活动,具体抽奖规则为:从该旅
游团中随机同时抽取两名游客,两名游客性别不同则为中奖.已知某个旅游团中有5个男游客和
个女游客,设重复进行三次抽奖中恰有一次中奖的概率为 ,当 取多少时, 最大?
参考公式: , , ,
参考数据: .
【解析】(1)因为 ,
所以
,
,
,
所以 ,由此可以认为两者的相关性很强.
(2)由(1)知 , .
所以 = .
因为 ,所以回归方程为 .
(3)记 ,
,
,即 .
,令 ,
则 ,得 , , , ,
所以 在 上单调递增,在 上单调递减,
当 时, 取得最大值.由 ,解得 或 (舍去),
当 时,恰有一次中奖的概率 最大.
1.(2024年上海秋季高考数学真题)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区
29000名学生中抽取580人,得到日均体育锻炼时长与学业成绩的数据如下表所示:
时间范围学业成绩
优秀 5 44 42 3 1
不优秀 134 147 137 40 27(1)该地区29000名学生中体育锻炼时长不少于1小时人数约为多少?
(2)估计该地区初中学生日均体育锻炼的时长(精确到0.1)
(3)是否有 的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关?
(附: 其中 , .)
【解析】(1)由表可知锻炼时长不少于1小时的人数为占比 ,
则估计该地区29000名学生中体育锻炼时长不少于1小时的人数为 .
(2)估计该地区初中生的日均体育锻炼时长约为
.
则估计该地区初中学生日均体育锻炼的时长为0.9小时.
(3)由题列联表如下:
其他 合计
优秀 45 50 95
不优
177 308 485
秀
合计 222 358 580
提出零假设 :该地区成绩优秀与日均锻炼时长不少于1小时但少于2小时无关.
其中 .
.
则零假设不成立,
即有 的把握认为学业成绩优秀与日均锻炼时长不小于1小时且小于2小时有关.
2.某(2024年高考全国甲卷数学(理)真题)工厂进行生产线智能化升级改造,升级改造后,从该工厂
甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1)填写如下列联表:优级品 非优级品
甲车
间
乙车
间
能否有 的把握认为甲、乙两车间产品的优级品率存在差异?能否有 的把握认为甲,乙两车间产品
的优级品率存在差异?
(2)已知升级改造前该工厂产品的优级品率 ,设 为升级改造后抽取的n件产品的优级品率.如果
,则认为该工厂产品的优级品率提高了,根据抽取的150件产品的数据,能否认为生
产线智能化升级改造后,该工厂产品的优级品率提高了?( )
附:
0.050 0.010 0.001
k 3.841 6.635 10.828
【解析】(1)根据题意可得列联表:
优级品 非优级品
甲车
26 24
间
乙车
70 30
间
可得 ,
因为 ,
所以有 的把握认为甲、乙两车间产品的优级品率存在差异,没有 的把握认为甲,乙两车间产品的
优级品率存在差异.
(2)由题意可知:生产线智能化升级改造后,该工厂产品的优级品的频率为 ,
用频率估计概率可得 ,
又因为升级改造前该工厂产品的优级品率 ,
则 ,可知 ,
所以可以认为生产线智能化升级改造后,该工厂产品的优级品率提高了.
3.(2022年高考全国甲卷数学(文)真题)甲、乙两城之间的长途客车均由A和B两家公司运营,为了
解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数 未准点班次数
A 240 20
B 210 30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附: ,
0.100 0.050 0.010
2.706 3.841 6.635
【解析】(1)根据表中数据,A共有班次260次,准点班次有240次,
设A家公司长途客车准点事件为M,
则 ;
B共有班次240次,准点班次有210次,
设B家公司长途客车准点事件为N,
则 .
A家公司长途客车准点的概率为 ;
B家公司长途客车准点的概率为 .
(2)列联表
未准点班次
准点班次数 合计
数
A 240 20 260
B 210 30 240
合计 450 50 500= ,
根据临界值表可知,有 的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
10(2022年高考全国乙卷数学(理)真题).某地经过多年的环境治理,已将荒山改造成了绿水青山.为
估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位: )
和材积量(单位: ),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得 .
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为 .已
知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数 .
【解析】(1)样本中10棵这种树木的根部横截面积的平均值
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为 ,
平均一棵的材积量为
(2)
则
(3)设该林区这种树木的总材积量的估计值为 ,又已知树木的材积量与其根部横截面积近似成正比,
可得 ,解之得 .
则该林区这种树木的总材积量估计为
4.(2022年新高考全国I卷数学真题)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯
(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),
同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良
良好
好
病例组 40 60
对照组 10 90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该
疾病”. 与 的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标
为R.
(ⅰ)证明: ;
(ⅱ)利用该调查数据,给出 的估计值,并利用(ⅰ)的结果给出R的估计值.
附 ,
0.050 0.010 0.001
k 3.841 6.635 10.828
【解析】(1)由已知 ,
又 , ,
所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
(2)(i)因为 ,
所以
所以 ,
(ii)由已知 , ,
又 , ,
所以
5.(2021年全国高考甲卷数学(理)试题)甲、乙两台机床生产同种产品,产品按质量分为一级品和二
级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级
二级品 合计
品
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:
0.050 0.010 0.001
k 3.841 6.635 10.828
【解析】(1)甲机床生产的产品中的一级品的频率为 ,
乙机床生产的产品中的一级品的频率为 .
(2) ,
故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.
6.(2020年全国统一高考数学试卷(理科)(新课标Ⅲ))某学生兴趣小组随机调查了某市100天中每
天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次空气质量等
[0,200] (200,400] (400,600]
级
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 84(中度污染) 7 2 0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称
这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握
认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次
人次>400
≤400
空气质量好
空气质量不好
附: ,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
【解析】(1)由频数分布表可知,该市一天的空气质量等级为 的概率为 ,等级为 的概
率为 ,等级为 的概率为 ,等级为 的概率为 ;
(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为
(3) 列联表如下:
人次 人次
空气质量好
空气质量不
好
,
因此,有 的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
7.(2020年全国统一高考数学试卷(文科)(新课标Ⅱ))某沙漠地区经过治理,生态系统得到很大改
善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些
地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得 ,
, , , .
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平
均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动
物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r= , ≈1.414.
【解析】(1)样区野生动物平均数为 ,
地块数为200,该地区这种野生动物的估计值为
(2)样本 (i=1,2,…,20)的相关系数为
(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,
由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物的数量差异很大,
采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,
从而可以获得该地区这种野生动物数量更准确的估计.
【点晴】本题主要考查平均数的估计值、相关系数的计算以及抽样方法的选取,考查学生数学运算能力,
是一道容易题.