文档内容
限时跟踪检测(六十一) 成对数据的统计分析
一、单项选择题
1.(2024·河北沧州模拟)下列说法正确的是( )
A.样本中心(,)不一定在经验回归直线上
B.两个随机变量的线性相关性越强,相关系数就越接近于1
C.若所有样本点都在直线y=-2x+1上,则r=-2
D.以y=cekx拟合一组数据时,经z=ln y代换后的线性回归方程为z=0.3x+4,则y=
e0.3x+4
2.(2024·河南郑州质检)某研究机构对儿童记忆能力x和识图能力y进行统计分析,得
到如下数据:
记忆能力x 4 6 8 10
识图能力y 3 5 6 8
由表中数据,求得经验回归方程为y=x+a.若某儿童的记忆能力为12,则他的识图能
力约为( )
A.9.2 B.9.5 C.9.8 D.10
3.已知变量x,y的关系可以用模型y=cekx拟合,设z=ln y,其变换后得到一组数据
如下表:
x 16 17 18 19
z 50 34 41 31
由上表可得线性回归方程为z=-4x+a,则c=( )
A.-4 B.e-4 C.109 D.e109
4.(2024·黑龙江哈师大附中高二期末)两个线性相关变量x与y的统计数据如表:
x 9 9.5 10 10.5 11
y 11 10 8 6 5
其经验回归方程是y=bx+40,则相对应于点(11,5)的残差e(e=y-y)为( )
i i i i
A.0.1 B.0.2
C.-0.1 D.-0.2
5.为考查某种营养品对儿童身高增长的影响,选取部分儿童进行试验,根据 100个有
放回简单随机样本的数据,得到如下列联表,由表可知下列说法正确的是( )
身高
营养品 合计
有明显增长 无明显增长
食用 a 10 50
未食用 b 30 50
合计 60 40 100
参考公式:
χ2=,其中n=a+b+c+d.
参考数据:
α 0.1 0.05 0.01 0.005 0.001
x 2.706 3.841 6.635 7.879 10.828
αA.a=b=30
B.χ2≈12.667
C.从样本中随机抽取1名儿童,抽到食用该营养品且身高有明显增长的儿童的概率
是
D.有不少于99.9%的把握认为该营养品对儿童身高增长有影响
6.某公交公司推出扫码支付乘车优惠活动,活动为期两周,活动前五天的数据如下表:
第x天 1 2 3 4 5
使用人数y 15 173 457 842 1 333
由表中数据可得y关于x的经验回归方程为y=55x2+m,则据此经验回归模型相应于
点(2,173)的残差为( )
A.-5 B.-6 C.3 D.2
二、多项选择题
7.已知由样本数据(x,y),i=1,2,3,4,5,6求得的经验回归方程为y=2x+1,且=3.现
i i
发现一个样本数据(8,12)误差较大,去除该数据后重新求得的经验回归直线l的纵截距依然
是1,则下列说法正确的是( )
A.去除前变量x每增加1个单位,变量y一定增加2个单位
B.去除后剩余样本数据中x的平均数为2
C.去除后的经验回归方程为y=2.5x+1
D.去除后样本相关系数r变大
8.某班级学生开展课外数学探究活动,将一杯冷水从冰箱中取出后静置,在 25 ℃的
室温下测量水温y(单位:℃)随时间x(单位:min)的变化关系,在测量了15个数据后,根
据这些实验数据(x,y)(i=1,2,…,15)得到如下的散点图,现需要选择合适的经验回归方
i i
程进行回归分析,则根据散点图,合适的经验回归方程类型有(c,c 为正实数)( )
1 2
A.y=25-ce-cx
1 2
B.y=25+
C.y=25-
D.y=c(x-25)+c
1 2
9.在一次恶劣天气的飞行航程中,调查男、女乘客在飞机上晕机的情况,得到如下列
联表:(单位:人),则( )
晕机情况
性别 合计
晕机者 未晕机者
男 a 15 c
女 6 b d合计 e 28 46
A.<
B.χ2<2.706
C.至少有99%的把握认为在恶劣天气的飞行航程中,是否晕机与性别有关
D.没有充分的证据显示在恶劣天气的飞行航程中,是否晕机与性别有关
三、填空题与解答题
10.国际青年物理学家竞赛(简称IYPT)是当今最受重视的中学生顶级国际物理赛事,
某中学物理兴趣小组通过实验对其中一道竞赛题的两个物理量u,v进行测量,得到10组
数据(u ,v),(u ,v),…,(u ,v ),通过散点图发现其具有较强的线性相关关系,并且
1 1 2 2 10 10
利用最小二乘法求得经验回归方程为v=1.5u+1,由于数据保存失误导致 丢失,但 =50
i i
被保存,通过所学知识可以求得 =________.
i
11.某学校《统计初步》课程的教师随机调查了选该课的学生情况,调查数据如下表:
非统计专业 统计专业
男 13 10
女 7 20
为了判断是否主修统计专业与性别的关系,根据表中的数据,计算得到
χ2≈________(保留三位小数),所以判定________(填“能”或“不能”)在犯错误的概率不
超过0.05的前提下,认为是否主修统计专业与性别有关.
12.已知由样本数据点(x,y),i=1,2,…,n求得的经验回归方程为y=1.5x+0.5,且
i i
=3.现发现两个数据点(1.1,2.1)和(4.9,7.9)的误差较大,去除后重新求得的经验回归直线l
的斜率为1.2,那么,当x=2时,y的预测值为________.
13.(2024·东北三校联考)某学校号召学生参加“每天锻炼1小时”活动,为了了解学
生参与活动的情况,随机调查了100名学生一个月(30天)完成锻炼活动的天数,制成如下
频数分布表:
[0, (5, (10, (15, (20, (25,
天数
5] 10] 15] 20] 25] 30]
人数 4 15 33 31 11 6
(1)由频数分布表可以认为,学生参加体育锻炼天数X近似服从正态分布N(μ,σ2),其
中μ近似为样本的平均数(每组数据取区间的中间值),且σ=6.1,若全校有3 000名学生,
求参加“每天锻炼1小时”活动超过21天的人数(精确到1).
(2)调查数据表明,参加“每天锻炼1小时”活动的天数在(15,30]的学生中有30名男生,
天数在[0,15]的学生中有20名男生.学校对当月参加“每天锻炼1小时”活动超过15天的
学生授予“运动达人”称号.请填写下面列联表:
活动天数
性别 合计
[0,15] (15,30]
男生
女生
合计并依据小概率值α=0.05的独立性检验,能否认为学生性别与获得“运动达人”称号
有关联.如果结论是有关联,请解释它们之间如何相互影响.
附:参考数据:P(μ-σ≤x≤μ+σ)≈0.682 7;P(μ-2σ≤X≤μ+2σ)≈0.954 5;P(μ-3σ≤X≤μ+
3σ)≈0.997 3.
χ2=(n=a+b+c+d).
α 0.1 0.05 0.01 0.005 0.001
x 2.706 3.841 6.635 7.879 10.828
α
14.(2024·湖北十七所重点中学第一次联考)为调查某地区植被覆盖面积x(单位:公顷)
和野生动物数量y的关系,某研究小组将该地区等面积划分为200个区块,从中随机抽取
20个区块,得到样本数据(x,y)(i=1,2,…,20),部分数据如表所示.
i i
x … 2.7 3.6 3.2 …
y … 57.8 64.7 62.6 …
经计算得 =60,=1 200,(x-)2=80,(x-)(y-)=640.
i i i i i
(1)利用最小二乘法建立y关于x的经验回归方程.
(2)该小组又利用这组数据建立了x关于y的经验回归方程,并把这两条拟合直线画在
同一直角坐标系xOy上,横坐标x,纵坐标y的意义与植被覆盖面积x和野生动物数量y一
致,
①比较前者与后者的斜率大小,并证明;
②求这两条直线的公共点坐标.
附:y关于x的经验回归方程y=a+bx中,斜率和截距的最小二乘估计公式分别为b
=,a=y-b.
高分推荐题
15.(2024·山东临沂模拟)2022年6月5日是世界环境日,第十三届全国人大常委会第
三十二次会议表决通过的《中华人民共和国噪声污染防治法》今起施行.噪声污染已经成
为影响人们身体健康和生活质量的严重问题,为了解声音强度 D(单位:dB)与声音能量
I(单位:W·cm-2)之间的关系,将测量得到的声音强度D和声音能量I的数据作了初步处理,
得到如图所示的散点图:
(1)根据散点图判断,D=a+bI与D=a+blg I哪一个适宜作为声音强度D关于声音
1 1 2 2
能量I的回归模型?(给出判断即可,不必说明理由)
(2)求声音强度D关于声音能量I的非线性经验回归方程(请使用题后参考数据作答).
(3)假定当声音强度大于45 dB时,会产生噪声污染.城市中某点P处共受到两个声源
的影响,这两个声源的声音能量分别是I 和I,且+=1010.已知点P处的声音能量等于I 与
a b a
I 之和,请根据(2)中的非线性经验回归方程,判断点P处是否受到噪声污染,并说明理由.
b参考数据:=1.04×10-11,=36.7,令W=lg I,有=,=-11.4,(I-)2=1.38×10-
i i i i
21,(W-)2=1.48,(W-)·(D-)=7.4,
i i i
(I-)(D-)=6.9×10-11,b=,a=-b,lg 2≈0.3.
i i
解析版
一、单项选择题
1.(2024·河北沧州模拟)下列说法正确的是( )
A.样本中心(,)不一定在经验回归直线上
B.两个随机变量的线性相关性越强,相关系数就越接近于1
C.若所有样本点都在直线y=-2x+1上,则r=-2
D.以y=cekx拟合一组数据时,经z=ln y代换后的线性回归方程为z=0.3x+4,则y=
e0.3x+4
解析:经验回归直线必过样本中心,故A不正确;两个随机变量的线性相关性越强,
相关系数的绝对值就越接近于1,故B不正确;若所有样本点都在直线y=-2x+1上,则
r=-1,故C不正确;以y=cekx拟合一组数据时,经z=ln y代换后的线性回归方程为ln y
=z=0.3x+4,则y=e0.3x+4,故D正确.故选D.
答案:D
2.(2024·河南郑州质检)某研究机构对儿童记忆能力x和识图能力y进行统计分析,得
到如下数据:
记忆能力x 4 6 8 10
识图能力y 3 5 6 8
由表中数据,求得经验回归方程为y=x+a.若某儿童的记忆能力为12,则他的识图能
力约为( )
A.9.2 B.9.5 C.9.8 D.10
解析:由表中数据得=7,=5.5,由点(,)在直线y=x+a上,得a=-,即经验回归方
程为y=x-.所以当x=12时,y=×12-=9.5,即他的识图能力约为9.5.故选B.
答案:B
3.已知变量x,y的关系可以用模型y=cekx拟合,设z=ln y,其变换后得到一组数据
如下表:
x 16 17 18 19
z 50 34 41 31
由上表可得线性回归方程为z=-4x+a,则c=( )
A.-4 B.e-4 C.109 D.e109
解析:由题意知=17.5,=39,代入z=-4x+ a,得a=109,所以z=ln y=ln(cekx)=
kx+ln c,所以ln c=109,故c=e109.故选D.
答案:D
4.(2024·黑龙江哈师大附中高二期末)两个线性相关变量x与y的统计数据如表:
x 9 9.5 10 10.5 11
y 11 10 8 6 5
其经验回归方程是y=bx+40,则相对应于点(11,5)的残差e(e=y-y)为( )
i i i iA.0.1 B.0.2
C.-0.1 D.-0.2
解析:由表得==10,
==8,
所以8=b×10+40,所以b=-3.2,故y=-3.2x+40.
当x=11时,y=-3.2×11+40=4.8,故e=5-4.8=0.2,故选B.
i
答案:B
5.为考查某种营养品对儿童身高增长的影响,选取部分儿童进行试验,根据 100个有
放回简单随机样本的数据,得到如下列联表,由表可知下列说法正确的是( )
身高
营养品 合计
有明显增长 无明显增长
食用 a 10 50
未食用 b 30 50
合计 60 40 100
参考公式:
χ2=,其中n=a+b+c+d.
参考数据:
α 0.1 0.05 0.01 0.005 0.001
x 2.706 3.841 6.635 7.879 10.828
α
A.a=b=30
B.χ2≈12.667
C.从样本中随机抽取1名儿童,抽到食用该营养品且身高有明显增长的儿童的概率
是
D.有不少于99.9%的把握认为该营养品对儿童身高增长有影响
解析:由题可知a=50-10=40,
b=50-30=20,所以A错误;
χ2=
≈16.667>10.828,
所以有不少于99.9%的把握认为该营养品对儿童身高增长有影响,所以 B错误,D正
确;
从样本中随机抽取1名儿童,抽到食用该营养品且身高有明显增长的儿童的概率是=,
所以C错误.
答案:D
6.某公交公司推出扫码支付乘车优惠活动,活动为期两周,活动前五天的数据如下表:
第x天 1 2 3 4 5
使用人数y 15 173 457 842 1 333
由表中数据可得y关于x的经验回归方程为y=55x2+m,则据此经验回归模型相应于
点(2,173)的残差为( )
A.-5 B.-6 C.3 D.2解析:令t=x2,则y=55t+m,
t=x2 1 4 9 16 25
使用人数y 15 173 457 842 1 333
==11,
==564,
所以564=55×11+m,得m=-41,所以y=55x2-41,
当x=2时,y=55×22-41=179,所以残差为173-179=-6.故选B.
答案:B
二、多项选择题
7.已知由样本数据(x,y),i=1,2,3,4,5,6求得的经验回归方程为y=2x+1,且=3.现
i i
发现一个样本数据(8,12)误差较大,去除该数据后重新求得的经验回归直线l的纵截距依然
是1,则下列说法正确的是( )
A.去除前变量x每增加1个单位,变量y一定增加2个单位
B.去除后剩余样本数据中x的平均数为2
C.去除后的经验回归方程为y=2.5x+1
D.去除后样本相关系数r变大
解析:对于C选项,当=3时,=2×3+1=7,则=6=18,=6=42,去除样本数据
i i
(8,12)后的新数据的′==2,′==6,设去除样本数据(8,12)后重新求得的经验回归直线方程
为y=ax+1,则2a+1=6,解得a=2.5,故去除后的经验回归方程为y=2.5x+1,C对;对
于A选项,去除前变量x每增加1个单位,变量y大约增加2个单位,A错;对于B选项,
去除后剩余样本数据中x的平均数为2,B对;对于D选项,去除了误差较大的样本数据后,
线性相关性变强,因为y关于x呈正相关,则r>0,所以样本相关系数r变大,D对.故选
BCD.
答案:BCD
8.某班级学生开展课外数学探究活动,将一杯冷水从冰箱中取出后静置,在 25 ℃的
室温下测量水温y(单位:℃)随时间x(单位:min)的变化关系,在测量了15个数据后,根
据这些实验数据(x,y)(i=1,2,…,15)得到如下的散点图,现需要选择合适的经验回归方
i i
程进行回归分析,则根据散点图,合适的经验回归方程类型有(c,c 为正实数)( )
1 2
A.y=25-ce-cx
1 2
B.y=25+
C.y=25-
D.y=c(x-25)+c
1 2解析:散点图中的点是递增的,增长速度越来越慢,且y<25.对于A,符合散点图的特
点;对于B,y=25+≥25,不符合散点图的特点;对于C,符合散点图的特点;对于D,y
=c(x-25)+c 的增长速度不变,不符合散点图的特点.
1 2
答案:AC
9.在一次恶劣天气的飞行航程中,调查男、女乘客在飞机上晕机的情况,得到如下列
联表:(单位:人),则( )
晕机情况
性别 合计
晕机者 未晕机者
男 a 15 c
女 6 b d
合计 e 28 46
A.<
B.χ2<2.706
C.至少有99%的把握认为在恶劣天气的飞行航程中,是否晕机与性别有关
D.没有充分的证据显示在恶劣天气的飞行航程中,是否晕机与性别有关
解析:由题中列联表数据,知
解得
所以得到如下列联表:
晕机情况
性别 合计
晕机者 未晕机者
男 12 15 27
女 6 13 19
合计 18 28 46
所以==>=,所以A错误;
提出零假设H:在恶劣天气的飞行航程中,是否晕机与性别无关,由列联表中的数据,
0
得χ2=≈0.775<3.841.
所以没有充分的证据显示在恶劣天气的飞行航程中,是否晕机与性别有关,所以B,
D正确,C错误.
答案:BD
三、填空题与解答题
10.国际青年物理学家竞赛(简称IYPT)是当今最受重视的中学生顶级国际物理赛事,
某中学物理兴趣小组通过实验对其中一道竞赛题的两个物理量u,v进行测量,得到10组
数据(u ,v),(u ,v),…,(u ,v ),通过散点图发现其具有较强的线性相关关系,并且
1 1 2 2 10 10
利用最小二乘法求得经验回归方程为v=1.5u+1,由于数据保存失误导致 丢失,但 =50
i i
被保存,通过所学知识可以求得 =________.
i
解析:由 =50,得==50×=5,再由经验回归方程恒过样本点的中心可得,=1.5×+
i i
1=1.5×5+1=8.5,
∴=10=10×8.5=85.
i答案:85
11.某学校《统计初步》课程的教师随机调查了选该课的学生情况,调查数据如下表:
非统计专业 统计专业
男 13 10
女 7 20
为了判断是否主修统计专业与性别的关系,根据表中的数据,计算得到
χ2≈________(保留三位小数),所以判定________(填“能”或“不能”)在犯错误的概率不
超过0.05的前提下,认为是否主修统计专业与性别有关.
解析:由题意可知,χ2=
≈4.844>3.841=x ,所以能在犯错误的概率不超过0.05的前提下,认为是否主修统计
0.05
专业与性别有关.
答案:4.844'能
12.已知由样本数据点(x,y),i=1,2,…,n求得的经验回归方程为y=1.5x+0.5,且
i i
=3.现发现两个数据点(1.1,2.1)和(4.9,7.9)的误差较大,去除后重新求得的经验回归直线l
的斜率为1.2,那么,当x=2时,y的预测值为________.
解析:将=3代入y=1.5x+0.5,得=5.所以样本点的中心为(3,5),由数据点(1.1,2.1)
和(4.9,7.9)知,=3,=5,故去除这两个数据点后,样本点的中心不变.
设新的经验回归方程为y=1.2x+b,将样本点的中心坐标代入得b=1.4,
所以当x=2时,y的预测值为3.8.
答案:3.8
13.(2024·东北三校联考)某学校号召学生参加“每天锻炼1小时”活动,为了了解学
生参与活动的情况,随机调查了100名学生一个月(30天)完成锻炼活动的天数,制成如下
频数分布表:
[0, (5, (10, (15, (20, (25,
天数
5] 10] 15] 20] 25] 30]
人数 4 15 33 31 11 6
(1)由频数分布表可以认为,学生参加体育锻炼天数X近似服从正态分布N(μ,σ2),其
中μ近似为样本的平均数(每组数据取区间的中间值),且σ=6.1,若全校有3 000名学生,
求参加“每天锻炼1小时”活动超过21天的人数(精确到1).
(2)调查数据表明,参加“每天锻炼1小时”活动的天数在(15,30]的学生中有30名男生,
天数在[0,15]的学生中有20名男生.学校对当月参加“每天锻炼1小时”活动超过15天的
学生授予“运动达人”称号.请填写下面列联表:
活动天数
性别 合计
[0,15] (15,30]
男生
女生
合计
并依据小概率值α=0.05的独立性检验,能否认为学生性别与获得“运动达人”称号有关联.如果结论是有关联,请解释它们之间如何相互影响.
附:参考数据:P(μ-σ≤x≤μ+σ)≈0.682 7;P(μ-2σ≤X≤μ+2σ)≈0.954 5;P(μ-3σ≤X≤μ+
3σ)≈0.997 3.
χ2=(n=a+b+c+d).
α 0.1 0.05 0.01 0.005 0.001
x 2.706 3.841 6.635 7.879 10.828
α
解:(1)由频数分布表知μ=
=14.9,则X~N(14.9,6.12),
∵P(μ-σ≤X≤μ+σ)≈0.682 7,
∴P(X>21)=P(X>14.9+6.1)≈=0.158 65,
∴3 000×0.158 65=475.95≈476,
∴参加“每天锻炼1小时”活动超过21天的人数约为476.
(2)由频数分布表知,锻炼活动的天数在[0,15]的人数为4+15+33=52,
∵参加“每天锻炼1小时”活动的天数在[0,15]的学生中有20名男生,
∴参加“每天锻炼1小时”活动的天数在[0,15]的学生中女生人数为52-20=32.
由频数分布表知,锻炼活动的天数在(15,30]的人数为31+11+6=48,
∵参加“每天锻炼1小时”活动的天数在(15,30]的学生中有30名男生,
∴参加“每天锻炼1小时”活动的天数在(15,30]的学生中女生人数为48-30=18.
得列联表如下:
活动天数
性别 合计
[0,15] (15,30]
男生 20 30 50
女生 32 18 50
合计 52 48 100
零假设为H:学生性别与获得“运动达人”称号无关.则χ2=≈5.769>3.841,
0
依据α=0.05的独立性检验,我们推断H 不成立,即可以认为学生性别与获得“运动
0
达人”称号有关;而且此推断犯错误的概率不大于0.05.根据列联表中的数据得到,男生、
女生中活动天数超过15天的频率分别为=0.6和=0.36,可见男生中获得“运动达人”称
号的频率是女生中获得“运动达人”称号的频率的≈1.67倍,于是依据频率稳定于概率的
原理,我们可以认为男生获得“运动达人”的概率大于女生,即男生更容易获得运动达人
称号.
14.(2024·湖北十七所重点中学第一次联考)为调查某地区植被覆盖面积x(单位:公顷)
和野生动物数量y的关系,某研究小组将该地区等面积划分为200个区块,从中随机抽取
20个区块,得到样本数据(x,y)(i=1,2,…,20),部分数据如表所示.
i i
x … 2.7 3.6 3.2 …
y … 57.8 64.7 62.6 …
经计算得 =60,=1 200,(x-)2=80,(x-)(y-)=640.
i i i i i(1)利用最小二乘法建立y关于x的经验回归方程.
(2)该小组又利用这组数据建立了x关于y的经验回归方程,并把这两条拟合直线画在
同一直角坐标系xOy上,横坐标x,纵坐标y的意义与植被覆盖面积x和野生动物数量y一
致,
①比较前者与后者的斜率大小,并证明;
②求这两条直线的公共点坐标.
附:y关于x的经验回归方程y=a+bx中,斜率和截距的最小二乘估计公式分别为b
=,a=y-b.
解:(1)==3,==60,
b==8,a=60-8×3=36,
故经验回归方程为y=8x+36.
(2)①设前者和后者的斜率分别为k,k,
1 2
x关于y的经验回归方程为x=a+by,
1 1
b=,
1
k=b=,k==,
1 2
则==r2,r为y与x的相关系数.
又|r|≤1,k,k>0,故≤1,即k≤k.
1 2 1 2
下面证k≠k.
1 2
若k=k,则|r|=1,即y=8x+36(i=1,2,…,20)恒成立,
1 2 i i
代入表格中的一组数据得57.8≠8×2.7+36,矛盾,故k0,I>0,+=1010,
a b
所以I=I+I=10-10(I+I)=10-10≥10-10=16×10-10,
1 a b a b
当且仅当I=3I,即I=,I=时等号成立,
b a a b
所以D=93.7+5lg I≥93.7+5lg(16×10-10)=20lg 2+43.7≈49.7>45,
1
所以点P处会受到噪声污染.