文档内容
专题 9.3 统计与统计案例
一、单选题
1、(江苏金陵中学开学初调研)已知变量 与 正相关,且由观测数据算得样本平均数 , ,则
由该观测的数据算得的线性回归方程可能是( )
A. B.
C. D.
【答案】A
【解析】
因为 与 正相关,排除选项C、D,又因为线性回归方程恒过样本点的中心 ,故排除选项B;故
选A.
2、(山东青岛中学调研)已知两个变量 和 之间有线性相关关系,经调查得到如下样本数据,
3 4 5 6 7
3.5 2.4 1.1 -0.2 -1.3
根据表格中的数据求得同归方程 ,则下列说法正确的是( )
A. , B. ,
C. , D. ,
【答案】B
【解析】由已知数据,可知 随着 的增大而减小,
则变量 和变量 之间存在负相关的关系, ,
当 时,则 ,
即: , .
故选:B.
3、(2020届山东省济宁市高三3月月考)下列说法正确的是( )A.回归直线 至少经过其样本数据 中的一个点
B.从独立性检验可知有99%的把握认为吃地沟油与患胃肠癌有关系时,我们就说如果某人吃地沟油,那
么他有99%可能患胃肠癌
C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D.将一组数据的每一个数据都加上或减去同一个常数后,其方差也要加上或减去这个常数
【答案】C
【解析】回归直线 可以不经过其样本数据 中的一个点,则A错误;
从独立性检验可知有99%的把握认为吃地沟油与患胃肠癌有关系时,我们就说如果某人吃地沟油,那么他
有99%可能患胃肠癌,则B错误;
在残差图中,残差点分布的带状区域的宽度越窄,表示数据的残差越小,其模型拟合的精度越高,即C正
确;
将一组数据的每一个数据都加上或减去同一个常数后,其平均数也加上或减去同一个常数,则其方差不变,
故D错误,
故选:C
4、(江西省抚州市临川区第一中学2017-2018学年高二下学期期末)临川一中舞蹈社为了研究男女学生对舞
蹈的喜爱程度,随机调查学校110名学生是否喜欢跳舞,由列联表和公式
计算出 ,并由此作出结论:“有 的可能性认为学生喜欢跳舞
与性别有关”,则 可以为( )
0.10 0.05 0.025 0.010
2.706 3.841 5.024 6.635
A.3.565 B.4.204 C.5.233 D.6.842
【答案】D
【解析】
利用所给数据,在 时,可作出结论:“有99%的可能性认为学生喜欢跳舞与性别有关”,只有D满足.
故选D.
5、(2020年高考全国Ⅰ卷理数)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:°C)的关
系,在20个不同的温度条件下进行种子发芽实验,由实验数据 得到下面的散点图:
由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率 y和温度x的回归方程
类型的是( )
A. B.
C. D.
【答案】D
【解析】由散点图分布可知,散点图分布在一个对数函数的图象附近,
因此,最适合作为发芽率 和温度 的回归方程类型的是 .
故选:D.
6、(2020届山东省济宁市第一中学高三一轮检测)某次考试,班主任从全班同学中随机抽取一个容量为8的
样本,他们的数学、物理分数对应如下表:
学生编号 1 2 3 4 5 6 7 8
x
数学分数 60 65 70 75 80 85 90 95
y
物理分数 72 77 80 84 88 90 93 95
绘出散点图如下:根据以上信息,判断下列结论:
①根据此散点图,可以判断数学成绩与物理成绩具有线性相关关系;
②根据此散点图,可以判断数学成绩与物理成绩具有一次函数关系;
③甲同学数学考了80分,那么,他的物理成绩一定比数学只考了60分的乙同学的物理成绩要高.
其中正确的个数为( ).
A.0 B.3 C.2 D.1
【答案】D
【解析】对于①,根据此散点图知,各点都分布在一条直线附近,可以判断数学成绩与物理成绩具有较强
的线性相关关系,①正确;
对于②,根据此散点图,可以判断数学成绩与物理成绩具有较强的线性相关关系,
不是一次函数关系,②错误;
对于③,甲同学数学考了80分,他的物理成绩可能比数学只考了60分的乙同学的物理成绩要高,所以③
错误.
综上,正确的命题是①,只有1个.
故选:D.
7、(2020年山东一中调研)学生会为了调查学生对 年俄罗斯世界杯的关注是否与性别有关,抽样调查
人,得到如下数据:
不关注 关注 总计
男生 30 15 45
女生 45 10 55
总计 75 25 100根据表中数据,通过计算统计量 ,并参考以下临界数据:
0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 2.706 3.84 5.024 6.635 7.879 10.828
若由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”,则此结论出错的概率不超过( )
A. B. C. D.
【答案】A
【解析】因为 ,所以若由
此认为“学生对2018年俄罗斯世界杯的关注与性别有关”,则此结论出错的概率不超过 ,
故选A..
8、(江苏淮阴中学调研)通过随机询问110名不同的大学生是否爱好某项运动,得到如下的列联表:
男 女 总计
爱好 40 20 60
不爱好 20 30 50
总计 60 50 110
由
附表:
0.050 0.010 0.001
3.841 6.635 10.828
参照附表,得到的正确结论是( )
A.有99%以上的把握认为“爱好该项运动与性别有关”
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
【答案】A
【解析】
由 ,而 ,故由独立性检验的意义可知选A
9、(江苏南通中学开学初调研)下列说法中,正确说法的个数是( )
①在用 列联表分析两个分类变量 与 之间的关系时,随机变量 的观测值 越大,说明“ 与
有关系”的可信度越大
②以模型 去拟合一组数据时,为了求出回归方程,设 ,将其变换后得到线性方程
,则 的值分别是 和0. 3
③已知两个变量具有线性相关关系,其回归直线方程为 ,若 , ,则
A.0 B.1 C.2 D.3
【答案】D
【解析】对于①,分类变量A与B的随机变量 越大,说明“A与B有关系”的可信度越大,正确;
对于②, , 两边取对数,可得 ,
令 ,可得 , .即②正确;
对于③,根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为 中, ,
,则 .故 ③正确
因此,本题正确答案是:①②③
答案选D
10、(南京一中学情调研)某科研机构为了研究中年人秃发与心脏病是否有关,随机调查了一些中年人的情
况,具体数据如下表:根据表中数据得到≈15.968,
因为 ≥10.828,则断定秃发与心脏病有关系,那么这种判断出错的可能性为( )
附表:
0.050 0.010 0.001
3.841 6.635 10.828
A. 0.1 B. 0.05 C. 0.01 D. 0.001
【答案】D
点睛:独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结
论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能
对统计计算的结果作出错误的解释.
二、多选题
11、(2021年山东日照一中开学调研)经过对 的统计量的研究,得到了若干个临界值,当 的观测值
时,我们
A.在犯错误的概率不超过0.05的前提下可认为 与 有关
B.在犯错误的概率不超过0.05的前提下可认为 与 无关
C.有 的把握说 与 有关
D.有 的把握说 与 有关
【答案】 .
【解析】:根据独立性检验原理知,当 的观测值 时,
我们有以下结论:在犯错误的概率不超过0.05的前提下可认为 与 有关;即有 的把握说 与 有关;
所以选项 、 正确.
故选: .
12、(2020届山东省德州市高三上期末)针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有
关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的 ,女生喜欢抖音
的人数占女生人数 ,若有 的把握认为是否喜欢抖音和性别有关则调查人数中男生可能有( )人
附表:
附:
A. B. C. D.
【答案】BC
【解析】设男生的人数为 ,根据题意列出 列联表如下表所示:
男生 女生 合计
喜欢抖音
不喜欢抖音
合计
则 ,
由于有 的把握认为是否喜欢抖音和性别有关,则 ,即 ,得 ,
,则 的可能取值有 、 、 、 ,
因此,调查人数中男生人数的可能值为 或 .
故选:BC.
13、(2020届山东省烟台市高三上期末)某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生
和50名女生,每位学生对食堂的服务给出满意或不满意的评价,得到如图所示的列联表.经计算 的观测
值 ,则可以推断出( )
满意 不满意
男 30 20
女 40 10
0.100 0.050 0.010
2.706 3.841 6.635
A.该学校男生对食堂服务满意的概率的估计值为
B.调研结果显示,该学校男生比女生对食堂服务更满意
C.有95%的把握认为男、女生对该食堂服务的评价有差异
D.有99%的把握认为男、女生对该食堂服务的评价有差异
【答案】AC
【解析】对于选项A,该学校男生对食堂服务满意的概率的估计值为 ,故A正确;
对于选项B,该学校女生对食堂服务满意的概率的估计值为 ,故B错误;因为 ,所以有 的把握认为男、女生对该食堂服务的评价有差异,故C正确,D错误
故选:AC
14、(2010德州期末)针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,
其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的 ,女生喜欢抖音的人数占女生人数 ,
若有 的把握认为是否喜欢抖音和性别有关则调查人数中男生可能有 人
附表:
0.050 0.010
3.841 6.635
附:
A.25 B.45 C.60 D.75
【答案】 .
【解析】:设男生可能有 人,依题意可得列联表如下;
喜欢抖音 不喜欢抖音 总计
男生
女生
总计
若有 的把握认为是否喜欢抖音和性别有关,则 ,
由 ,解得 ,
由题意知 ,且 是5的整数倍,所以45,60,和75都满足题意.
故选: .
15、(2020·山东滕州市第一中学高三3月模拟)(多选题)下列说法中,正确的命题是( )A.已知随机变量 服从正态分布 , ,则 .
B.以模型 去拟合一组数据时,为了求出回归方程,设 ,将其变换后得到线性方程
,则 , 的值分别是 和0.3.
C.已知两个变量具有线性相关关系,其回归直线方程为 ,若 , , ,则 .
D.若样本数据 , ,…, 的方差为2,则数据 , ,…, 的方差为16.
【答案】BC
【解析】因为随机变量 服从正态分布 , ,
所以 ,即A错;
, ,从而
,即B正确;
过 , ,即C正确;
因为样本数据 , ,…, 的方差为2,所以数据 , ,…, 的方差为 ,
即D错误;
故选:BC
16、下列命题中正确的命题是
A.标准差越小,则反映样本数据的离散程度越大
B.在回归直线方程 中,当解释变量 每增加1个单位时,则预报变量 减少0.4个单位
C.对分类变量 与 来说,它们的随机变量 的观测值 越小,“ 与 有关系”的把握程度越大
D.在回归分析模型中,残差平方和越小,说明模型的拟合效果越好
【答案】【解析】:标准差越小,则反映样本数据的离散程度越小,因此 不正确;
在回归直线方程 中,当解释变量 每增加1个单位时,则预报变量 减少0.4个单位, 正确;
对分类变量 与 来说,它们的随机变量 的观测值 越小,“ 与 有关系”的把握程度越小,因此
不正确;
在回归分析模型中,残差平方和越小,说明模型的拟合效果越好, 正确.
故选: .
三、填空题
17、(山东师范大学附属中学调研)某设备的使用年限 与所支出的维修费用 的统计数据如下表:
使用年限 (单位:年)
维修费用 (单位:万元)
根据上表可得回归直线方程为 ,据此模型预测,若使用年限为 年,估计维修费约为
__________万元.
【答案】
【解析】
,
则中心点为 ,代入回归直线方程可得 , .
当 时, (万元),
即估计使用14年时,维修费用是18万元.
故答案为:18.
18、(江苏南通一中调研)如果根据性别与是否爱好运动的列联表得到K2≈3.852>3.841,则判断性别与
是否爱好运动有关,那么这种判断犯错的可能性不超过________.
【答案】19、(江苏栟茶中学开学初调研)某部门通过随机调查89名工作人员的休闲方式是读书还是健身,得到的数
据如下表:
读书 健身 总计
女 24 31 55
男 8 26 34
总计 32 57 89
在犯错误的概率不超过________的前提下性别与休闲方式有关系.
【答案】0.10
【解析】由列联表中的数据,得K2的观测值为
k= ≈3.689>2.706,
因此,在犯错误的概率不超过0.10的前提下认为性别与休闲方式有关系.
故答案:0.10
20、(江苏徐州一中调研)为了了解司机开车时礼让斑马线行人的情况,交警部门调查了100名机动车司机,
得到以下统计数据:
礼让斑马线行人 不礼让斑马线行人
男性司机人数 40 15
女性司机人数 20 25
若以 为统计量进行独立性检验,则 的值是__________.(结果保留2位小数)
参考公式
【答案】
【解析】填写2×2列联表,如下:根据数表,计算 = ≈8.25>7.879,
所以有99.5%的把握认为开车时使用手机与司机的性别有关;
21、(2021年江苏淮阴中学调研)某单位为了了解用电量y度与气温 之间的关系,随机统计了某4天的用
电量与当天气温,并制作了对照表:
气温(°C) 18 13 10 -1
用电量(度) 24 34 28 64
由表中数据得线性回归方程 中, ,预测当气温为 时,用电量的度数约为
。
【答案】65.5
【解析】
由题得
所以回归直线经过(10,40),所以 ,
令x=-4,所以
所以当气温为-4 ℃时,用电量约为68千瓦时.故答案为: 68.
四、解答题
22、(2020届山东省潍坊市高三上期末)读书可以使人保持思想活力,让人得到智慧启发,让人滋养浩然正
气书籍是文化的重要载体,读书是承继文化的重要方式某地区为了解学生课余时间的读书情况,随机抽取
了 名学生进行调查,根据调查得到的学生日均课余读书时间绘制成如图所示的频率分布直方图,将日均课余读书时间不低于 分钟的学生称为“读书之星”,日均课余读书时间低于 分钟的学生称为“非读
书之星”:已知抽取的样本中日均课余读书时间低于 分钟的有 人
(1)求 的值;
(2)根据已知条件完成下面的 列联表,并判断是否有 以上的把握认为“读书之星”与性别有关?
非读书之星 读书之星 总计
男
女
总计
(3)将上述调查所得到的频率视为概率,现从该地区大量学生中,随机抽取 名学生,每次抽取 名,已知
每个人是否被抽到互不影响,记被抽取的“读书之星”人数为随机变量 ,求 的分布列和期望
附: ,其中 .
【解析】(1)
解得: ,所以 .
(2)因为 ,所以“读书之星”有
从而 列联表如下图所示:
非读书之星 读书之星 总计
男
女
总计
将 列联表中的数据代入公式计算得
因为 ,所以没有 以上的把握认为“读书之星”与性别有关
(3)将频率视为概率,即从该地区学生中抽取一名学生是“读书之星”的概率为 .
由题意可知
所以
,
所以 的分布列为故 .
23、(2020年高考全国Ⅰ卷理数)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.
为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样
的方法抽取20个作为样区,调查得到样本数据(x,y)(i=1,2,…,20),其中x和y分别表示第i个样
i i i i
区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得 , ,
, , .
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均
数乘以地块数);
(2)求样本(x,y) (i=1,2,…,20)的相关系数(精确到0.01);
i i
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生
动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数 , .
【解析】(1)由已知得样本平均数 ,从而该地区这种野生动物数量的估计值为
60×200=12000.
(2)样本 的相关系数.
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面
积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与
总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
24、(2020·山东省淄博实验中学高三上期末)近年来,国资委.党委高度重视扶贫开发工作,坚决贯彻落实中
央扶贫工作重大决策部署,在各个贫困县全力推进定点扶贫各项工作,取得了积极成效,某贫困县为了响
应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表所
示:
土地使用面积 (单位:亩) 1 2 3 4 5
管理时间 (单位:月) 8 10 13 25 24
并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:
愿意参与管理 不愿意参与管理
男性村民 150 50
女性村民 50
(1)求出相关系数 的大小,并判断管理时间 与土地使用面积 是否线性相关?
(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?
(3)若以该村的村民的性别与参与管理意愿的情况估计贫困县的情况,则从该贫困县中任取3人,记取到不
愿意参与管理的男性村民的人数为 ,求 的分布列及数学期望.
参考公式:
其中 .临界值表:0.100 0.050 0.025 0.010 0.001
2.706 3.841 5.024 6.635 10.828
参考数据:
【解析】(1)依题意:
故
则 ,
故管理时间 与土地使用面积 线性相关.
(2)依题意,完善表格如下:
愿意参与管理 不愿意参与管理 总计
男性村民 150 50 200
女性村民 50 50 100
总计 200 100 300
计算得 的观测值为
故有99.9%的把握认为村民的性别与参与管理的意愿具有相关性.
(3)依题意, 的可能取值为0,1,2,3,从该贫困县中随机抽取一名,则取到不愿意参与管理的男性村民的概率为 ,
故
故 的分布列为
X 0 1 2 3
P
则数学期望为
(或由 ,得
25、(2020年高考全国III卷理数)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某
公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次
锻炼人次
空气质量等级
[0,200] (200,400] (400,600]
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的
把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次≤400 人次>400
空气质量好
空气质量不好
P(K2≥k) 0.050 0.010 0.001
附:K2= k 3.841 6.635 10.828 .
,
【解析】(1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:
空气质量等级 1 2 3 4
概率的估计值 0.43 0.27 0.21 0.09
(2)一天中到该公园锻炼的平均人次的估计值为
.
(3)根据所给数据,可得 列联表:
人次≤400 人次>400
空气质量好 33 37
空气质量不好 22 8
根据列联表得
.
由于 ,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
26、(2020年高考山东)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽
查了 天空气中的 和 浓度(单位: ),得下表:
32 18 4
6 8 12
3 7 10(1)估计事件“该市一天空气中 浓度不超过 ,且 浓度不超过 ”的概率;
(2)根据所给数据,完成下面的 列联表:
(3)根据(2)中的列联表,判断是否有 的把握认为该市一天空气中 浓度与 浓度有关?
附: ,
0.050 0.010 0.001
3.841 6.635 10.828
【解析】(1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且 浓度不超过150的天数
为 ,因此,该市一天空气中PM2.5浓度不超过75,且 浓度不超过150的概率的估
计值为 .
(2)根据抽查数据,可得 列联表:
64 16
10 10
(3)根据(2)的列联表得 .
由于 ,故有 的把握认为该市一天空气中 浓度与 浓度有关
27、(2020届山东省潍坊市高三上学期统考)班主任为了对本班学生的考试成绩进行分析,决定从本班24名
女同学,18名男同学中随机抽取一个容量为7的样本进行分析.
(1)如果按照性别比例分层抽样,可以得到多少个不同的样本?(写出算式即可,不必计算出结果)
(2)如果随机抽取的7名同学的数学,物理成绩(单位:分)对应如下表:学生序号i 1 2 3 4 5 6 7
数学成绩x
60 65 70 75 85 87 90
i
物理成绩y
70 77 80 85 90 86 93
i
①若规定85分以上(包括85分)为优秀,从这7名同学中抽取3名同学,记3名同学中数学和物理成绩均为
优秀的人数为 ,求 的分布列和数学期望;
y x
②根据上表数据,求物理成绩 关于数学成绩 的线性回归方程(系数精确到0.01);若班上某位同学的数
学成绩为96分,预测该同学的物理成绩为多少分?
y bxa
附:线性回归方程 ,
n
(x x)(y y)
i i
b i1
其中 n , .
(x x)2
i a ybx
i1
7 7
x y (x x)2 (x x)(y y)
i i i
i1 i1
76 83 812 526
7
244
【解析】(1)依据分层抽样的方法,24名女同学中应抽取的人数为42 名,
7
183
18名男同学中应抽取的人数为42 名,
C4C3
故不同的样本的个数为 24 19.
(2)①∵7名同学中数学和物理成绩均为优秀的人数为3名,
∴ 的取值为0,1,2,3.C3 4 C2C1 18
P0 4 P1 4 3
∴ C3 35, C3 35,
7 7
C1C2 12 C3 1
P2 4 3 P3 3
C3 35 , C3 35.
7 7
∴ 的分布列为
0 1 2 3
4 18 12 1
P
35 35 35 35
4 18 12 1 9
E0 1 2 3
∴ 35 35 35 35 7 .
526
b 0.65
②∵ 912 ,a ybx 830.657633.60 .
y 0.65x33.60
∴线性回归方程为 .
x 96 y 0.659633.6096
当 时, .
可预测该同学的物理成绩为96分.
x y
28、(2020届山东省德州市高三上期末)某公司为了了解年研发资金投人量 (单位:亿元)对年销售额 (单
x y
位:亿元)的影响.对公司近 12 年的年研发资金投入量 i和年销售额 i的数据,进行了对比分析,建立了两
yx2 y ext t e
个函数模型:① ,② ,其中 、 、 、 均为常数, 为自然对数的底数.并得到一
u x2 v ln y i 1,2,,12
些统计量的值.令 i i , i i ,经计算得如下数据:
x y 12 x x 2 12 y y 2 u v
i i
i1 i120 66 77 2 460 4.20
12 u u 2 12 u u y y 12 v v 2 12 x x v v
i i i i i i
i1 i1 i1 i1
31250 215 3.08 14
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
y x
(2)(ⅰ)根据(1)的选择及表中数据,建立 关于 的回归方程;
y 90 x
(ⅱ)若下一年销售额 需达到 亿元,预测下一年的研发资金投入量 是多少亿元?
n
x x
y y
i i
r i1
附:①相关系数 n x x 2 n y y 2 ,
i i
i1 i1
n
x x
y y
i i
b i1
回归直线 中公式分别为: n x x 2 , ;
y a bx i $ a y $ bx
i1
308477 90 9.4868 e4.4998 90
②参考数据: , , .
u y r x v r
【解析】(1)设 i 和 i 的相关系数为 1, i 和 i 的相关系数为 2,由题意,
12
u u
y y
i i 215 43
r i1 0.86
1 12 u u 2 12 y y 2 312502 50 ,
i i
i1 i1
12
x x
v v
i i 14 10
r i1 0.91
2 12 x x 2 12 v v 2 773.08 11 ,
i i
i1 i1r r y ext
则 1 2 ,因此从相关系数的角度,模型 的拟合程度更好;
v x
(2)(ⅰ)先建立 关于 的线性回归方程,
y ext lnytx vtx
由 ,得 ,即 ;
12
x x
v v
i i 2
i1 0.182
由于 12 x x 2 11 , t vx4.20 2 200.56 ,
i
11
i1
v x v 0.18x0.56
所以 关于 的线性回归方程为 ,
ln y 0.18x0.56 y e0.18x0.56
所以 ,则 ;
y 90 y 90 y e0.18x0.56 90e0.18x0.56
(ⅱ)下一年销售额 需达到 亿元,即 ,代入 ,得 ,
4.49980.56
x 21.89
又e44998 90,所以4.49980.18x0.56,所以 0.18 ,
21.89
所以预测下一年的研发资金投入量约是 亿元.
29、(2020·湖北高三期末(理))某土特产超市为预估2020年元旦期间游客购买土特产的情况,对2019年元旦
期间的90位游客购买情况进行统计,得到如下人数分布表.
购买金额(元)
0,15 15,30 30,45 45,60 60,75 75,90
人数 10 15 20 15 20 10
22 95%
(1)根据以上数据完成 列联表,并判断是否有 的把握认为购买金额是否少于60元与性别有关.
不少于60元 少于60元 合计
男 40
女 18
合计p
(2)为吸引游客,该超市推出一种优惠方案,购买金额不少于60元可抽奖3次,每次中奖概率为 (每次抽
p
奖互不影响,且 的值等于人数分布表中购买金额不少于60元的频率),中奖1次减5元,中奖2次减10
元,中奖3次减15元.若游客甲计划购买80元的土特产,请列出实际付款数X (元)的分布列并求其数学期
望.
nad bc2
K2
附:参考公式和数据: abcdacbd, .
nabcd
附表:
k 2.072 2.706 3.841 6.635 7.879
0
P K2�k 0.150 0.100 0.050 0.010 0.005
0
【解析】(1)22列联表如下:
不少于60元 少于60元 合计
男 12 40 52
女 18 20 38
合计 30 60 90
90122040182
1440
K2 53.841
,
30605238 247
95%
因此有 的把握认为购买金额是否少于60元与性别有关.
1020 1
p
(2)X 可能取值为65,70,75,80,且 90 3.
3 2
1 1 1 2 2
PX 65C3 PX 70C2
3 3 27 , 3 3 3 9 ,
2 3
1 2 4 2 8
PX 75C1 PX 80C0
3 3 3 9 , 3 3 27 ,
所以X 的分布列为X 65 70 75 80
1 2 4 8
PX
27 9 9 27
1 2 4 8
EX 65 70 75 80 75
27 9 9 27 .
30、(2020届山东省滨州市高三上期末)近年,国家逐步推行全新的高考制度.新高考不再分文理科,某省采
33 150
用 模式,其中语文、数学、外语三科为必考科目,每门科目满分均为 分.另外考生还要依据想考
取的高校及专业的要求,结合自己的兴趣爱好等因素,在思想政治、历史、地理、物理、化学、生物6门
3 6 3 100 1000
科目中自选 门参加考试( 选 ),每门科目满分均为 分.为了应对新高考,某高中从高一年级 名
550 450 n
学生(其中男生 人,女生 人)中,采用分层抽样的方法从中抽取 名学生进行调查,其中,女生抽
45
取 人.
n
(1)求 的值;
(2)学校计划在高一上学期开设选修中的“物理”和“地理”两个科目,为了了解学生对这两个科目的选课
n
情况,对抽取到的 名学生进行问卷调查(假定每名学生在“物理”和“地理”这两个科目中必须选择一个
科目且只能选择一个科目),下表是根据调查结果得到的一个不完整的22列联表,请将下面的22列联
表补充完整,并判断是否有99%的把握认为选择科目与性别有关?说明你的理由;
选择“物理” 选择“地理” 总计
男生 10
女生 25
总计
45 9 9
(3)在抽取到的 名女生中,按(2)中的选课情况进行分层抽样,从中抽出 名女生,再从这 名女生中抽取4人,设这4人中选择“物理”的人数为X ,求X 的分布列及期望.附:
n(ad bc)2
K2
(ab)(ac)(cd)(bd),
nabcd
P K2 k 0.05 0.01 0.005 0.001
0
k 3.841 6.635 7.879 10.828
0
n 45
【解析】(1)由题意得1000 450,
n100
解得 .
(2)2×2列联表为:
选择“物理” 选择“地理” 总计
男生 45 10 55
女生 25 20 45
总计 70 30 100
100(45202510)2
K2 8.12896.635
55457030 ,
99%
故有 的把握认为选择科目与性别有关.
45 9 9 5 4 9
(3)从 名女生中分层抽样抽 名女生,所以这 女生中有 人选择“物理”, 人选择“地理”. 名女
生中再选择4名女生,则这4名女生中选择“物理”的人数X 可为0,1,2,3,4,
C4 1 C1C3 20 10
P(X 0) 4 P(X 1) 5 4
设事件 发生的概率为PX,则 C4 126, C4 126 63,
X
9 9C2C2 60 10 C3C1 40 20 C4 5
P(X 2) 5 4 P(X 3) 5 4 P(X 4) 5
C4 126 21, C4 126 63, C4 126 所以 的分布
X
9 9 9
列为:
X 0 1 2 3 4
1 10 10 20 5
P
126 63 21 63 126
1 20 60 40 5 20
E(X)0 1 2 3 4
期望 126 126 126 126 126 9 .
33
31、(2020·山东高三模拟)新高考,取消文理科,实行“ ”,成绩由语文、数学、外语统一高考成绩和
自主选考的3门普通高中学业水平考试等级性考试科目成绩构成.为了解各年龄层对新高考的了解情况,随
[15,45) [45,75)
机调查50人(把年龄在 称为中青年,年龄在 称为中老年),并把调查结果制成下表:
年龄(岁) [15,25) [25,35) [35,45) [45,55) [55,65) [65,75)
频数 5 15 10 10 5 5
了解 4 12 6 5 2 1
(1)分别估计中青年和中老年对新高考了解的概率;
(2)请根据上表完成下面22列联表,是否有95%的把握判断对新高考的了解与年龄(中青年、中老年)有关?
不了解新高
了解新高考 总计
考
中青年
中老年
总计
n(ad bc)2
K2
附: (ab)(cd)(ac)(bd) .
P K2 k 0.050 0.010 0.001k 3.841 6.635 10.828
[55,65) X
(3)若从年龄在 的被调查者中随机选取3人进行调查,记选中的3人中了解新高考的人数为 ,求
X E(X)
的分布列以及 .
8 2
【解析】中老年对新高考了解的概率P .
20 5
(2)22列联表如图所示
不了解新高
了解新高考 总计
考
中青年 22 8 30
老年 8 12 20
总计 30 20 50
50(221288)2
K2 5.563.841
30202030 ,
所以有95%的把握判断了解新高考与年龄(中青年、中老年)有关联.
[55,65)
(3)年龄在 的被调查者共5人,其中了解新高考的有2人,
则抽取的3人中了解新高考的人数X 可能取值为0,1,2,
C0C3 1 C1C2 6 3
P(X 0) 2 3 P(X 1) 2 3
则 C3 10 ; C3 10 5;
5 5
C2C1 3
P(X 2) 2 3
C3 10.
5
所以X 的分布列为
X 0 1 2
1 3 3
P
10 5 10
1 3 3 6
E(X)0 1 2
10 5 10 5.