文档内容
02 卷 第九章 统计与统计案例《真题模拟卷》
-2022 年高考一轮数学单元复习(新高考专用)
第I卷(选择题)
一、单选题
1.(2021·天津高考真题)从某网络平台推荐的影视作品中抽取 部,统计其评分分数据,将所得
个评分数据分为 组: 、 、 、 ,并整理得到如下的费率分布直方图,
则评分在区间 内的影视作品数量是( )
A. B. C. D.
【答案】D
【分析】
利用频率分布直方图可计算出评分在区间 内的影视作品数量.
【详解】
由频率分布直方图可知,评分在区间 内的影视作品数量为 .
故选:D.
2.(2021·全国高考真题(文))为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农
户家庭年收入的调查数据整理得到如下频率分布直方图:根据此频率分布直方图,下面结论中不正确的是( )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
【答案】C
【分析】
根据直方图的意义直接计算相应范围内的频率,即可判定ABD,以各组的中间值作为代表乘以相应的频率,
然后求和即得到样本的平均数的估计值,也就是总体平均值的估计值,计算后即可判定C.
【详解】
因为频率直方图中的组距为1,所以各组的直方图的高度等于频率.样本频率直方图中的频率即可作为总体
的相应比率的估计值.
该地农户家庭年收入低于4.5万元的农户的比率估计值为 ,故A正确;
该地农户家庭年收入不低于10.5万元的农户比率估计值为 ,故B正确;
该地农户家庭年收入介于4.5万元至8.5万元之间的比例估计值为
,故D正确;
该地农户家庭年收入的平均值的估计值为
(万元),超过6.5万元,故C错误.
综上,给出结论中不正确的是C.
故选:C.
【点睛】
本题考查利用样本频率直方图估计总体频率和平均值,属基础题,样本的频率可作为总体的频率的估计值,
样本的平均值的估计值是各组的中间值乘以其相应频率然后求和所得值,可以作为总体的平均值的估计值.
注意各组的频率等于 .
3.(2008·山东高考真题(文))从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩
的标准差为( )
分数 5 4 3 2 1
人数 20 10 30 30 10
A. B. C.3 D.
【答案】B
【详解】
试题分析:根据平均数、方差、标准差的概念直接运算即可.
解:∵ ,
∴
=
= , .
故选B.
4.(2020·天津高考真题)从一批零件中抽取80个,测量其直径(单位: ),将所得数据分为9组:,并整理得到如下频率分布直方图,则在被抽取的
零件中,直径落在区间 内的个数为( )
A.10 B.18 C.20 D.36
【答案】B
【分析】
根据直方图确定直径落在区间 之间的零件频率,然后结合样本总数计算其个数即可.
【详解】
根据直方图,直径落在区间 之间的零件频率为: ,
则区间 内零件的个数为: .
故选:B.
【点睛】
本题主要考查频率分布直方图的计算与实际应用,属于中等题.
5.(2020·全国高考真题(文))设一组样本数据x,x,…,x 的方差为0.01,则数据10x,10x,…,
1 2 n 1 2
10x 的方差为( )
n
A.0.01 B.0.1 C.1 D.10
【答案】C
【分析】
根据新数据与原数据关系确定方差关系,即得结果.
【详解】因为数据 的方差是数据 的方差的 倍,
所以所求数据方差为
故选:C
【点睛】
本题考查方差,考查基本分析求解能力,属基础题.
6.(2019·全国高考真题(理))演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成
绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评
分相比,不变的数字特征是
A.中位数 B.平均数
C.方差 D.极差
【答案】A
【分析】
可不用动笔,直接得到答案,亦可采用特殊数据,特值法筛选答案.
【详解】
设9位评委评分按从小到大排列为 .
则①原始中位数为 ,去掉最低分 ,最高分 ,后剩余 ,
中位数仍为 , A正确.
②原始平均数 ,后来平均数
平均数受极端值影响较大, 与 不一定相同,B不正确
③
由②易知,C不正确.
④原极差 ,后来极差 可能相等可能变小,D不正确.
【点睛】本题旨在考查学生对中位数、平均数、方差、极差本质的理解.
7.(重庆市第八中学2020-2021学年高二下学期期中数学试题)随机调查了相同数量的男、女学生,发现
有 的男生喜欢网络课程,有 的女生不喜欢网络课程,且有 的把握但没有 的把握认为
是否喜欢网络课程与性别有关,则被调查的男、女学生总数量可能为( )
附: ,其中 .
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
A. B. C. D.
【答案】B
【分析】
设被调查的男、女学生总数量为 ,列出 列联表,计算出 关于 的表达式,结合临界值表
可得出 ,求出 的取值范围,即可得解.
【详解】
设被调查的男、女学生总数量为 ,
根据题意可得出 列联表如下表所示:
喜欢网络课程 不喜欢网络课程 合计
男生
女生
合计
,由题意可得 ,即 ,可得 .
故 的可能取值为 .
故选:B.
8.(2021·云南高二期末(文))由数据 , ,…, 可得 关于 的线性回归方程
为 ,若 ,则 ( )
A.48 B.52 C.56 D.80
【答案】A
【分析】
根据回归直线方程必过样本中心 即可求出结果.
【详解】
因为 ,所以 ,所以 ,所以 .
故选:A.
9.(2021·重庆西南大学附中高二期末)下列说法中正确的个数是( )
①某校共有女生2021人,用简单随机抽样的方法先剔除21人,再按简单随机抽样的方法抽取为200人,
则每个女生被抽到的概率为 ;
②设有一个回归方程 ,变量 增加1个单位时, 平均增加5个单位;
③将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;
④具有线性相关关系的两个变量 , 的相关系数为r.则 越接近于0, , 之间的线性相关程度越高;
⑤在一个 列联表中,由计算得出 ,而 ,则在犯错误的概率不超过
0.001的前提下认为这两个变量之间有相关关系A.1 B.2 C.3 D.4
【答案】B
【分析】
利用系统抽样,回归直线的方程,方差,拟合效果, 列联表的应用,逐个判断,即可得出答案.
【详解】
解:对于①,某校共有女生2021人,用简单随机抽样的方法先剔除21人,再按系统抽样的方法抽取为
200人,古典概率中,每个个体被抽的概率都是一样的,都等于 ,故①错误;
对于②,一个回归方程 ,变量 增加1个单位时, 平均减小5个单位,故②不正确;
对于③:方差的计算公式 ,
一组数据中的每一个数据都加上或减去同一个常数后,它的平均数也会都加上或减去同一个常数,故方差
不变,故③正确;
对于④:设具有线性相关关系的两个变量 , 的相关系数为 .则 越接近于0, , 之间的线性相
关程度越低,故④不正确;
对于⑤,在一个 列联表中,由计算得出 ,而 ,则在犯错误的概率不
超过0.001的前提下认为这两个变量之间有相关关系,故⑤正确.
故选:B.
10.(2020·黑龙江省哈尔滨市双城区兆麟中学高二期末(文))下列说法错误的是( )
A.回归直线过样本点的中心
B.在残差图中,残差点分布的带状区域的宽度越窄,其模型拟合的精度越高
C.线性回归方程对应的直线 至少经过其样本数据点 , ,…, 中的一
个点
D.在回归分析中, 的模型比 的模型拟合的效果好
【答案】C
【分析】利用线性回归的相关定义即可得出答案
【详解】
样本中心点一定在线性回归方程上,则A正确;
残差点分布越窄越均匀,拟合程度越高,则B正确;
样本点不一定在线性回归直线上,则C错误;
越接近于1,模拟程度越好,则D正确.
故选:C.
11.(2021·重庆南开中学高二期末)“绿水青山就是金山银山”,某城市发起了“减少碳排放行动”,通
过增加植树面积,逐步实现碳中和,为调查民众对减碳行动的参与情况,在某社区随机调查了90位市民,
每位市民对减碳行动给出认可或不认可的评价,得到如图所示的列联表、经计算 的观测值 ,则可
以推断出( )
认可 不认可
40岁以下 20 20
40岁以上(含40岁) 40 10
附:
A.该社区居民中约有99%的人认可“减碳行动”
B.该社区居民中约有99.5%的人认可“减碳行动
C.在犯错率不超过0.005的前提下,认为“减碳行动"的认可情况与年龄有关
D.在犯错率不超过0.001的前提下,认为“减碳行动"的认可情况与年龄有关
【答案】C
【分析】
直接用 观测值与临界值表中的数据比较可得答案
【详解】解:该社区居民中认可“减碳行动”的比例为 ,所以AB错误,
因为 的观测值 , , ,
所以在犯错率不超过0.005的前提下,认为“减碳行动"的认可情况与年龄有关,所以C正确,D错误,
故选:C
二、多选题
12.(2021·全国高考真题)下列统计量中,能度量样本 的离散程度的是( )
A.样本 的标准差 B.样本 的中位数
C.样本 的极差 D.样本 的平均数
【答案】AC
【分析】
考查所给的选项哪些是考查数据的离散程度,哪些是考查数据的集中趋势即可确定正确选项.
【详解】
由标准差的定义可知,标准差考查的是数据的离散程度;
由中位数的定义可知,中位数考查的是数据的集中趋势;
由极差的定义可知,极差考查的是数据的离散程度;
由平均数的定义可知,平均数考查的是数据的集中趋势;
故选:AC.
13.(2021·全国高考真题)有一组样本数据 , ,…, ,由这组数据得到新样本数据 , ,…,
,其中 ( 为非零常数,则( )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样数据的样本极差相同
【答案】CD
【分析】A、C利用两组数据的线性关系有 、 ,即可判断正误;根据中位数、极差的
定义,结合已知线性关系可判断B、D的正误.
【详解】
A: 且 ,故平均数不相同,错误;
B:若第一组中位数为 ,则第二组的中位数为 ,显然不相同,错误;
C: ,故方差相同,正确;
D:由极差的定义知:若第一组的极差为 ,则第二组的极差为
,故极差相同,正确;
故选:CD
14.(2021·广东高二期中)下列说法正确的是( )
A.对于独立性检验,随机变量 的观测值 值越小,判定“两变量有关系”犯错误的概率越小
B.在回归分析中,相关指数 越大,说明回归模型拟合的效果越好
C.随机变量 ,若 , ,则
D.甲、乙、丙、丁 个人到 个景点旅游,每人只去一个景点且每个景点都有人去,设事件 为“ 个
人去的景点各不相同”,事件 为“甲不去其中的 景点”,则
【答案】BD
【分析】
利用独立性检验可判断A选项;利用相关指数与回归模型的拟合效果可判断B选项;利用二项分布的期望
和方差公式可判断C选项;利用分步计数原理结合古典概型的概率公式可判断D选项.
【详解】
对于A选项,对于独立性检验,随机变量 的观测值 值越小,判定“两变量有关系”犯错误的概率越
大,A选项错误;对于B选项,在回归分析中,相关指数 越大,说明回归模型拟合的效果越好,B选项正确;
对于C选项,随机变量 ,则 ,解得 ,C选项错误;
对于D选项,利用分步计数原理结合古典概型的概率公式可得 ,D选项正确.
故选:BD.
15.(2021·江苏省天一中学高二期末)晚上睡眠充足是提高学习效率的必要条件.某高中高二的学生分为
寄宿生和走读生两类,其中寄宿生晚上9:50必须休息,睡眠能得到充分的保证;走读生晚上大多10:30
休息,甚至更晚.为了了解这两类学生的学习效率情况,该校有关部门分别对这两类学生学习总成绩的前
50名进行问卷调查,得到如下表所示的统计数据,则( )
寄宿生 走读生
学习效率高 30 10
学习效率低 20 40
附: ,
0.050 0.010 0.005 0.001
3.841 6.635 7.879 10.828
A.走读生前50名学生中有40%的学生学习效率高
B.寄宿生前50名学生中有60%的学生学习效率高
C.认为“学生学习效率高低与晚上睡眠是否充足有关”的犯错概率超过0.05
D.有99.9%的把握认为“学生学习效率高低与晚上睡眠是否充足有关”
【答案】BD
【分析】
根据频数除以总数得到频率,即可判断A、B,完善列联表,计算观测值,对照附表得出结论,判断 、
是否正确.【详解】
解:依题意走读生前50名学生中有10人学习效率高,即 ,所以 错误;
寄宿生前50名学生中有 人学习效率高,即 ,故B正确;
依题意得到如下列联表:
寄宿生 走读生 合计
学习效率高 30 10 40
学习效率低 20 40 60
合计 50 50 100
则
所以有 的把握认为“学生学习效率高低与晚上睡眠是否充足有关”, 正确;
认为“学生学习效率高低与晚上睡眠是否充足有关”的犯错概率不超过0.05,所以 错误.
故选: .
16.(2021·沙坪坝区·重庆一中高二期中)针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是
否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的 ,女生喜欢
抖音的人数占女生人数 ,若在犯错误概率不超过0.05的前提下认为是否喜欢抖音和性别有关,则调查人
数中男生可能有( )人
0.050 0.010
3.841 6.635附:
A.25 B.40 C.45 D.60
【答案】CD
【分析】
设男生的人数为 ,列出 列联表,计算出 的观测值,结合题中条件可得出关于 的不等
式,解出 的取值范围,即可得出男生人数的可能值.
【详解】
设男生的人数为 ,根据题意列出 列联表如下表所示:
男生 女生 合计
喜欢抖音
不喜欢抖音
合计
则 ,
由于在犯错误概率不超过0.05的前提下认为是否喜欢抖音和性别有关,则 ,
即 ,得 ,
,则 的可能取值有 、 、 、 ,
因此,调查人数中男生人数的可能值为 、50、55、 .
故选:CD.
17.(2021·镇江崇实女子中学高二期中)关于变量x,y的n个样本点 及其线
性回归方程 ,下列说法正确的有( )A.相关系数r的绝对值 越接近0,表示x,y的线性相关程度越强
B.相关系数r的绝对值 越接近1,表示x,y的线性相关程度越强
C.残差平方和越大,表示线性回归方程拟合效果越好
D.若 ,则点 一定在线性回归方程 上
【答案】BD
【分析】
根据相关系数绝对值大小,判断向量 相关性强弱,可判定选项A,B;根据残差分析,判断线性回归方
程的拟合效果,可判定选项C;根据样本中心点与线性回归直线的关系,即可判定选项D.
【详解】
当相关系数r的绝对值 越接近1,表示x,y的线性相关程度越强,
选项A错误,选项B正确;
残差平方和越小,表示线性回归方程拟合效果越好,选项C错误;
样本中心点 一定在线性回归直线 上,选项D正确.
故选:BD.
18.(2021·河南高二期中(文))有一散点图如图所示,在5个 数据中去掉 后,下列说法
不正确的是( )
A.残差平方和变小 B.相关系数r变小
C.相关指数 变小 D.解释变量x与预报变量y的相关性变弱
【答案】BCD【分析】
利用散点图分析数据,判断相关系数,相关指数,残差的平方和的变化情况.
【详解】
解: 从散点图可分析得出:只有 点偏离直线远,若去掉 点,
则变量 与变量 的线性相关性变强,
相关系数 变大,相关指数 变大,残差的平方和变小,解释变量x与预报变量y的相关性变强;
故选: .
19.(2021·全国高二专题练习)(多选题)对相关系数r来说,下列说法错误的有( )
A.|r|≤1,|r|越接近0,相关程度越大;|r|越接近1,相关程度越小
B.|r|≥1,|r|越接近1,相关程度越大;|r|越大,相关程度越小
C.|r|≤1,|r|越接近1,相关程度越大;|r|越接近0,相关程度越小
D.|r|≥1,|r|越接近1,相关程度越小;|r|越大,相关程度越大
【答案】ABD
【分析】
利用相关系数的取值范围以及衡量两个变量之间的强弱规律即可判断作答.
【详解】
相关系数r的取值范围是 ,即选项B,D都是错误的;
相关系数r衡量两个变量之间的相关关系的强弱时,r的绝对值越接近于1,表示两个变量的线性相关性越
强,r的绝对值接近于0时,表示两个变量之间几乎不存在相关关系,
所以“对于相关系数r来说,|r|≤1,|r|越接近1,相关程度越大;|r|越接近0,相关程度越小”,选项A是
错误的,选项C正确.
故选:ABD
20.(【新教材精创】8.2一元线性回归模型及其应用-A基础练)(多选题)在用最小二乘法进行线性回
归分析时,下列说法中正确的是( )
A.由样本数据得到的线性回归方程 必过样本点的中心 ;
B.由样本点 , ,…, 得到回归直线,则这些样本点都在回归直线上;C.利用 来刻画回归的效果, 比 的模型回归效果好;
D.残差图中的残差点比较均匀地落在水平的带状区域中,宽度越窄,则说明模型拟合精度越低;
【答案】AC
【分析】
样本点未必在回归直线上,所以A正确,B错误;相关指数 越大,拟合效果越好,所以C正确;残差
图宽度越窄,说明模型拟合精度越高,所以D错误.
【详解】
线性回归直线必过样本点的中心,而样本点未必在回归直线上,所以A正确,B错误;
相关指数 越大,拟合效果越好,所以C正确;
残差图中的残差点比较均匀地落在水平的带状区域中,宽度越窄,说明模型拟合精度越高,所以D错误.
故选:AC
第II卷(非选择题)
三、填空题
21.(2012·浙江高考真题(文))某个年级有男生560人,女生420人,用分层抽样的方法从该年级全体
学生中抽取一个容量为280的样本,则此样本中男生人数为____________.
【答案】160
【详解】
∵某个年级共有980人,要从中抽取280人,
∴抽取比例为 ,
∴此样本中男生人数为 ,
故答案为160.
考点:本题考查了分层抽样的应用
点评:掌握分层抽样的概念是解决此类问题的关键,属基础题22.(2020·江苏高考真题)已知一组数据 的平均数为4,则 的值是_____.
【答案】2
【分析】
根据平均数的公式进行求解即可.
【详解】
∵数据 的平均数为4
∴ ,即 .
故答案为:2.
【点睛】
本题主要考查平均数的计算和应用,比较基础.
23.(2019·全国高考真题(文))我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有
10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁
列车所有车次的平均正点率的估计值为___________.
【答案】0.98.
【分析】
本题考查通过统计数据进行概率的估计,采取估算法,利用概率思想解题.
【详解】
由题意得,经停该高铁站的列车正点数约为 ,其中高铁个数为
10+20+10=40,所以该站所有高铁平均正点率约为 .
【点睛】
本题考点为概率统计,渗透了数据处理和数学运算素养.侧重统计数据的概率估算,难度不大.易忽视概
率的估算值不是精确值而失误,根据分类抽样的统计数据,估算出正点列车数量与列车总数的比值.
24.(2010·安徽高考真题(文))某地有居民100 000户,其中普通家庭99 000户,高收入家庭1 000户.
从普通家庭中以简单随机抽样方式抽取990户,从高收入家庭中以简单随机抽样方式抽取l00户进行调查,
发现共有120户家庭拥有3套或3套以上住房,其中普通家庭50户,高收入家庭70户.依据这些数据并
结合所掌握的统计知识,你认为该地拥有3套或3套以上住房的家庭所占比例的合理估计是 .
【答案】5.7%【分析】
首先根据拥有3套或3套以上住房的家庭所占的比例,得出100 000户中居民中拥有3套或3套以上住房的
户数,它除以100 000得到的值,为该地拥有3套或3套以上住房的家庭所占比例的合理估计.
【详解】
该地拥有3套或3套以上住房的家庭可以估计有:
则该地拥有3套或3套以上住房的家庭所占比例的合理估计为
故答案为
【点睛】
本题考查了分层抽样问题的运用,首先要注意分层抽样的方法与特点,进而根据合理估计的计算方法,得
到答案.
25.(2009·浙江高考真题(文))某个容量为 的样本的频率分布直方图如下,则在区间 上的数
据的频数为_________.
【答案】 30
【解析】
试题分析:区间 对应的频率为 ,所以在区间 上数据的频数
为 .
考点:频率分布直方图.
26.(2011·辽宁高考真题(文))调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线
方程: =0.245x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加_______万
元.
【答案】0.245
【详解】
当 变为 时, =0.245(x+1)+0.321=0.245x+0.321+0.245,而0.245x+0.321+0.245-(0.245x+0.321)
=0.245.因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元,本题填写0.245.
27.(2014·天津高考真题(文))某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层
抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、
三年级、四年级的本科生人数之比为4:5:5:6,则应从一年级本科生中抽取_______名学生.
【答案】60
【分析】
采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查的.
【详解】
∵该校一年级、二年级、三年级、四年级的本科生人数之比为4:5:5:6,
∴应从一年级本科生中抽取学生人数为: .
故答案为60.
28.(2021·重庆字水中学高二期末)某工厂为研究某种产品的产量 (吨)与所需某种原材料的质量
(吨)的相关性,在生产过程中收集4组对应数据 ,如下表所示.(残差=观测值-预测值)
3 4 5 6
2.5 3 4
根据表中数据,得出 关于 的经验回归方程为 .据此计算出在样本 处的残差为 ,
则表中 的值为______.【答案】
【分析】
首先由已知条件求出 的值,再由回归直线过样本中心点即可求解.
【详解】
因为样本 处的残差为 ,即 ,
所以 ,
所以回归方程为: ,
因为 , ,
因为样本中心点 在回归直线上,所以 ,
解得: ,
故答案为: .
29.(2021·四川高三零模(文))有人发现,多看手机容易使人近视,下表是调查机构对此现象的调查数
据:
近视 不近视 总计
少看手机
多看手机
总计
则在犯错误的概率不超过__________的前提下认为近视与多看手机有关系.
附表:参考公式: ,其中 .
【答案】
【分析】
根据列联表计算得 ,进而得答案.
【详解】
解:根据列联表计算 ,
所以在犯错误的概率不超过 的前提下认为近视与多看手机有关系.
故答案为:
30.(2021·河南高二期中(文))某企业计划通过广告宣传来提高销售额,经统计,产品的广告费 (单
位:百万元)与销售额 (单位:百万元)之间有如下对应数据:
0 1 2 3 4
14.8 30.4 36.2 39.6 51
由表中的数据得线性回归方程为 .投入的广告费 时,销售额的预报值为______百万元.
【答案】66.4
【分析】
先求平均值,再代入线性回归方程得 ,最后利用线性回归方程估计结果.
【详解】
因为 ;
所以 ,∴因此 时,
故答案为:66.4
31.(2021·天津高二期末)对两个变量x,y进行回归分析.
①残差的平方和越小,模型的拟合效果越好;
②相关系数 的绝对值接近于0,两个随机变量的线性相关性越强;
③在经验回归方程 中,当解释变量x每增加1个单位时,相应变量 平均增加 个单位;
④某人研究儿子身高 与父亲身高 的关系,得到经验回归方程 ,当
时, ,即:如果一个父亲的身高为 ,则儿子的升高一定为 .
则以上结论中正确的序号为__________.
【答案】①③
【分析】
根据残差和相关系数的意义判定①②;根据线性回归方程的意义判定③④.
【详解】
根据残差的定义,可知①正确;相关系数绝对值越接近于1,线性相关性越强,故②错误;
由回归方程的意义,根据回归方程的解释变量的系数为0.3, 变量 平均增加 个单位,
故③正确;
回归方程是表示一种统计规律,具有随机的不确定性,不能说一定是,故④错误;
故答案为:①③.
32.(2021·全国高二专题练习)某公交公司推出扫码支付乘车优惠活动,活动为期两周,活动的前五天数
据如下表:
第 天 1 2 3 4 5
使用人数( ) 15 173 457 842 1333
由表中数据可得y关于x的回归方程为 ,则据此回归模型相应于点(2,173)的残差为
________.
【答案】
【分析】先计算样本中心点坐标,可得回归方程,计算出 的值,然后求出估计值,最后计算残差即可.
【详解】
令 ,则 ,
由题意可得, ,
,
则样本中心为 ,
故 经过点 ,
所以 ,解得 ,
则 ,
当 时, ,
所以残差为 .
故答案为: .
33.(2021·全国高二专题练习)甲、乙、丙、丁四位同学各自对 两变量的线性相关性做试验,并用
回归分析方法分别求得相关系数 如下表:
甲 乙 丙 丁
-0.78
则____________同学的试验结果体现A,B两变量有更强的线性相关性.
【答案】丁
【分析】
根据相关系数的特点,相关系数的绝对值越接近1,则两个变量的线性相关性越强,
即可得到答案.
【详解】
,且相关系数的绝对值越接近1,
则两个变量的线性相关性越强,所以能体现出A,B两变量有更强的线性相关性的是丁.
故答案为:丁
四、双空题
34.(2017·北京高考真题(理))三名工人加工同一种零件,他们在一天中的工作情况如图所示,其中点
A的横、纵坐标分别为第i名工人上午的工作时间和加工的零件数,点B的横、纵坐标分别为第i名工人下
i i
午的工作时间和加工的零件数,i=1,2,3.
①记Q为第i名工人在这一天中加工的零件总数,则Q,Q,Q 中最大的是_________.
i 1 2 3
②记p为第i名工人在这一天中平均每小时加工的零件数,则p,p,p 中最大的是_________.
i 1 2 3
【答案】Q p
1 2
【详解】
试题分析:作图可得 中点的纵坐标比 中点的纵坐标大,所以Q,Q,Q 中最大的是 ,
1 2 3
分别作 关于原点的对称点 ,比较直线 的斜率(即为第i名工人在这
一天中平均每小时加工的零件数),可得 最大,所以p,p,p 中最大的是
1 2 3
【考点】图象的应用,实际应用问题
【名师点睛】本题考查了根据实际问题分析和解决问题的能力,以及转化与化归的能力,因为第 名工人
加工总的零件数是 ,比较总的零件数的大小,即可转化为比较 的大小,而 表示
中点连线的纵坐标,第二问也可转化为 中点与原点连线的斜率.
35.(2009·广东高考真题(文))某单位200名职工的年龄分布情况如图,现要从中抽取40名职工作样
本,用系统抽样法,将全体职工随机按1-200编号,并按编号顺序平均分为40组(1-5号,6-10号…,196-200号).若第5组抽出的号码为22,则第8组抽出的号码应是____.若用分层抽样方法,则40岁以
下年龄段应抽取_____人.
【答案】37 20
【解析】
由系统抽样知识可知,将总体分成均等的若干部分指的是将总体分段,且分段的间隔相等.在第1段内采
用简单随机抽样的方法确定一个起始编号,在此编号的基础上加上分段间隔的整数倍即为抽样编号.由题
意,第5组抽出的号码为22,因为2+(5-1)×5=22,则第1组抽出的号码应该为2,第8组抽出的号码应
该为2+(8-1)×5=37.由分层抽样知识可知,40岁以下年龄段的职工占50%,按比例应抽取40×50%=
20(人).
36.(2021·北京朝阳区·高二期末)判断对错,并在相应横线处划“√”或“×”.①样本相关系数 时,
称成对数据正相关, 时,称成对数据负相关___________.②样本相关系数的绝对值 越接近于1,线
性相关程度越弱, 越接近于0,线性相关程度越强___________.
【答案】√ ×
【分析】
根据样本相关系数的意义及性质即可判断作答.
【详解】
由成对数据正负相关与相关系数的对应关系知,①正确,在横线处划“√”;
因样本相关系数的绝对值 越接近于1,线性相关程度越强, 越接近于0,线性相关程度越弱,则②不
正确,在横线处划“×”.
故答案为:√;×
37.(2021·浙江高二课时练习)某产品的广告费用x(万元)与销售额y(万元)的统计数据如下表:
广告费用 (万元) 4 2 3 5销售额 (万元) 49 26 39 54
根据上表可得回归方程 中的 为9.4,则:
①回归方程 中 ___________;
②据此模型预报广告费用为6万元时销售额为___________万元.
【答案】9.1 65.5
【分析】
利用线性回归直线必定经过样本中心点求出 ,再将 代入回归方程可得据此模型预报广告费用为6
万元时销售额.
【详解】
∵回归方程 中的 为9.4,
根据线性回归直线过样本中心点, , ,
∴ ,得 ,即回归方程为 ,
据此模型预报广告费用为6万元时,销售额为 .
故答案为:9.1,65.5.
38.(2021·江苏高三专题练习)我国探月工程嫦娥五号探测器于2020年12月1日23时11分降落在月球
表面预选着陆区,在顺利完成月面自动采样之后,成功将携带样品的上升器送入到预定环月轨道,这是我
国首次实现月球无人采样和地外天体起飞,对我国航天事业具有重大而深远的影响,为进一步培养中学生
对航空航天的兴趣爱好,某学校航空航天社团在本校高一年级进行了纳新工作,前五天的报名情况为:第
1天3人,第2天6人,第3天10人,第4天13人,第5天18人,通过数据分析已知,报名人数与报名时
间具有线性相关关系.已知第 天的报名人数为 ,则 关于 的线性回归方程为___________,该社团为
了解中学生对航空航天的兴趣爱好和性别是否有关系,随机调查了100名学生,并得到如下 列联表:
有兴趣 无兴趣 合计
男生 45 5 50
女生 30 20 50合计 75 25 100
请根据上面的列联表,在概率不超过0.001的条件下认为“中学生对航空航天的兴趣爱好和性别
_______(填“有”或”无”)关系
参考公式及数据:回归方程 中斜率的最小二乘估计公式为:
, ;
,其中 .
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【答案】 有
【分析】
由题意计算 、 ,求出回归系数,写出线性回归方程,利用回归方程求出 时 的值即可,再由列
联表求出 ,与观测值比较即可;.
【详解】
解:由题意,计算 ,
,
所以 ,,
所以 关于 的线性回归方程为 ,
由列联表数据可得
因为 ,
所以,在犯错误的概率不超过0.001的条件下认为“中学生对航空航天的兴趣爱好和性别有关系”.
故答案为:(1) ;(2)有
39.(2018·北京全国·高二单元测试(理))关于 与 ,有如下数据有如下的两个模型:(1)
;(2) .通过残差分析发现第(1)个线性模型比第(2)个拟合效果好,则
________ , ______ (用大于,小于号填空, 是相关指数和残差平方和)
2 4 5 6 8
30 40 60 50 70
【答案】
【分析】
直接利用残差的性质以及相关指数的性质求解即可.
【详解】
由相关指数 的的性质可得,
越大模型的拟合效果越好,所以 ,
由残差的性质可得,
残差平方和越小模型的拟合效果越好,
所以 ,故答案为 .
【点睛】
本题主要考查残差的性质以及相关指数的性质,属于中档题. 残差平方和越小越好,带状区域的宽度越窄,说明模型的拟合精度越高,相关指数 越大,模型的拟合效果越好.
40.(2018·全国)某医疗机构为了了解肝病与酗酒是否有关,对成年人进行了一次随机抽样抽查,结果如下
表:
患肝病 未患肝病 合 计
酗 酒 30 170 200
不酗酒 20 280 300
合 计 50 450 500
从直观上你能得到的结论是_________,得到患肝病与酗酒有关系的判断有_____的把握.
【答案】患肝病与酗酒有关系的可能性很大
【详解】
分析:通过列联表,利用公式求得 ,与临界值比较,即可得到结论.
详解:由已知数据可求得 ,
由于 ,所以得到患肝病与酗酒有关系的判断有 的把握.
故答案为患肝病与酗酒有关系的可能性很大;99.5%.
点睛:解决独立性检验应用问题的方法
解决一般的独立性检验问题,首先由所给2×2列联表确定a,b,c,d,n的值,然后根据统计量 的计
算公式确定 的值,最后根据所求值确定有多大的把握判定两个变量有关联.
41.(2021·全国高二单元测试)某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体
数据如下表:
专业
非统计专业 统计专业
性别
男 13 10
女 7 20
为了判断主修统计专业是否与性别有关系,根据表中的数据,计算得到K2=________(保留三位小数),所以判定________(填“能”或“不能”)在犯错误的概率不超过0.05的前提下认为主修统计专业与性别有关
系.
【答案】4.844 能
【详解】
根据提供的表格得 .
∴所以可以在犯错误的概率不超过0.05的前提下认为主修统计专业与性别有关系.
故答案为(1) ;(2)能.
42.(2018·全国)对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪
研究,调查他们是否又发作过心脏病,调查结果如下表所示:
又发作过心脏病 未发作过心脏病 合计
心脏搭桥手术 39 157 196
血管清障手术 29 167 196
合计 68 324 392
试根据上述数据计算K2≈________,能否作出这两种手术对病人又发作心脏病的影响有差别的结论
________(填“能”或“不能”).
【答案】1.779 不能
【详解】
根据列联表中的数据,可以求得K2的观测值k= ≈1.779.
K2<2.072的概率为0.85.不能作出这两种手术对病人又发作心脏病的影响有差别的结论.
五、解答题
43.(2021·全国高考真题(理))某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指
标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7
新设备 10.1 10.4 10.1 10.0 10.1 10.3 10.6 10.5 10.4 10.5
旧设备和新设备生产产品的该项指标的样本平均数分别记为 和 ,样本方差分别记为 和 .(1)求 , , , ;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果 ,则认为
新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).
【答案】(1) ;(2)新设备生产产品的该项指标的均值较旧设备
有显著提高.
【分析】
(1)根据平均数和方差的计算方法,计算出平均数和方差.
(2)根据题目所给判断依据,结合(1)的结论进行判断.
【详解】
(1) ,
,
,
.
(2)依题意, , ,
,所以新设备生产产品的该项指标的均值较旧设备有显著提高.
44.(2014·广东高考真题(理))随机观测生产某种零件的某工厂 名工人的日加工零件数(单位:
件),获得数据如下: 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、、 、 、 、 、 、 、 、 、 ,根据上述数据得到样本的频率分布表如下:
分组 频数 频率
(1)确定样本频率分布表中 、 、 和 的值;
(2)根据上述频率分布表,画出样本频率分布直方图;
(3)根据样本频率分布直方图,求在该厂任取 人,至少有 人的日加工零件数落在区间 的概率.
【答案】(1) , , , ;(2)详见解析;(3) .
【详解】
试题分析:(1)根据题干中的数据以及频率分布表中的信息求出 、 、 和 的值;(2)根据频率
分布表中的信息求出各组的 的值,以此为相应组的纵坐标画出频率分布直方图;(3)先确定所取的
人中日加工零件数了落在区间 的人数所服从的相应的概率分布(二项分布),然后利用独立重
复试验与对立事件求出题中事件的概率.
试题解析:(1)由题意知 , , , ;(2)样本频率分布直方图为:
(3)根据样本频率分布直方图,每人的日加工零件数落在区间 的概率 ,
设所取的 人中,日加工零件数落在区间 的人数为 ,则 ,
,
所以 人中,至少有 人的日加工零件数落在区间 的概率约为 .
【考点定位】
本题考查频率分布直方图以及独立性重复试验,考查频率分布直方图的绘制与应用,以及解决相关事件概
率的计算,属于中等题.
45.(2016·全国高考真题(文))某公司计划购买1台机器,该种机器使用三年后即被淘汰.机器有一易损
零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每
个500元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期
内更换的易损零件数,得下面柱状图:记x表示1台机器在三年使用期内需更换的易损零件数,y表示1台机器在购买易损零件上所需的费用(单
位:元), 表示购机的同时购买的易损零件数.
(Ⅰ)若 =19,求y与x的函数解析式;
(Ⅱ)若要求“需更换的易损零件数不大于 ”的频率不小于0.5,求 的最小值;
(Ⅲ)假设这100台机器在购机的同时每台都购买19个易损零件,或每台都购买20个易损零件,分别计算这
100台机器在购买易损零件上所需费用的平均数,以此作为决策依据,购买1台机器的同时应购买19个还是
20个易损零件?
【答案】(1) ;(2)19;(3) 购买1台机器的同时应购买19个易损零件.
【详解】
试题分析:(Ⅰ)分x 19及x>19,分别求解析式;(Ⅱ)通过频率大小进行比较;(Ⅲ)分别求出
n=19,n=20时所需费用的平均数来确定.
试题解析:(Ⅰ)当 时, ;当 时, ,所以
与 的函数解析式为 .
(Ⅱ)由柱状图知,需更换的零件数不大于18的频率为0.46,不大于19的频率为0.7,故 的最小值为
19.
(Ⅲ)若每台机器在购机同时都购买19个易损零件,则这100台机器中有70台在购买易损零件上的费用
为3 800,20台的费用为4 300,10台的费用为4 800,因此这100台机器在购买易损零件上所需费用的平均数为 .
若每台机器在购机同时都购买20个易损零件,则这100台机器中有90台在购买易损零件上的费用为4
000,10台的费用为4 500,因此这100台机器在购买易损零件上所需费用的平均数为
.
比较两个平均数可知,购买1台机器的同时应购买19个易损零件.
【考点】函数解析式、概率与统计
【名师点睛】本题把统计与函数结合在一起进行考查,有综合性但难度不大,求解的关键是读懂题意,所以提
醒考生要重视数学中的阅读理解问题.
46.(2017·北京高考真题(文))某学校艺术专业300名学生参加某次测评,根据男女学生人数比例,使
用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,
40),…,[80,90],并整理得到如下频率分布直方图:
(1)从总体的300名学生中随机抽取一人,估计其分数小于70的概率;
(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;
(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男
生和女生人数的比例.
【答案】(1)0.4 (2)15人 (3)3∶2
【分析】
(1)根据频率分布直方图求出样本中分数小于70的频率,用频率估计概率值;(2)计算样本中分数小于50的频率和频数,估计总体中分数在区间 , 内的人数;
(3)由题意计算样本中分数不小于70的学生人数以及男生、女生人数,求男生和女生人数的比例.
【详解】
解:(1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,
所以样本中分数小于70的频率为1-0.6=0.4.
所以从总体的300名学生中随机抽取一人,其分数小于70的概率估计值为0.4.
(2)根据题意,样本中分数不小于50的频率为 (0.01+0.02+0.04+0.02)×10=0.9,
故样本中分数小于50的频率为0.1,
故分数在区间[40,50)内的人数为100×0.1-5=5.
所以总体中分数在区间[40,50)内的人数估计为 .
(3)由题意可知,样本中分数不小于70的学生人数为
(0.02+0.04)×10×100=60,
所以样本中分数不小于70的男生人数为 .
所以样本中的男生人数为30×2=60,
女生人数为100-60=40,
男生和女生人数的比例为60∶40=3∶2.
所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.
【点睛】
本题考查了频率分布直方图的应用问题,也考查了分层抽样原理应用问题,属于中档题.
47.(2019·全国高考真题(理))为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200
只小鼠随机分成 两组,每组100只,其中 组小鼠给服甲离子溶液, 组小鼠给服乙离子溶液.每只
小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百
分比.根据试验数据分别得到如下直方图:记 为事件:“乙离子残留在体内的百分比不低于 ”,根据直方图得到 的估计值为 .
(1)求乙离子残留百分比直方图中 的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
【答案】(1) , ;(2) , .
【分析】
(1)由 及频率和为1可解得 和 的值;(2)根据公式求平均数.
【详解】
(1)由题得 ,解得 ,由 ,解得
.
(2)由甲离子的直方图可得,甲离子残留百分比的平均值为
,
乙离子残留百分比的平均值为
【点睛】
本题考查频率分布直方图和平均数,属于基础题.
48.(2011·辽宁高考真题(理))
某农场计划种植某种新作物,为此对这种作物的两个品种(分别称为品种甲和品种乙)进行田间试验.选取
两大块地,每大块地分成n小块地,在总共2n小块地中,随机选n小块地种植品种甲,另外n小块地种植品种乙.
(I)假设n=4,在第一大块地中,种植品种甲的小块地的数目记为X,求X的分布列和数学期望;
(II)试验时每大块地分成8小块,即n=8,试验结束后得到品种甲和品种乙在个小块地上的每公顷产量
(单位:kg/hm2)如下表:
分别求品种甲和品种乙的每公顷产量的样本平均数和样本方差;根据试验结果,你认为应该种植哪一品种?
附:样本数据x,x,…,x 的样本方差 ,其中 为样本平
1 2 a
均数.
【答案】解析:(I)X可能的取值为0,1,2,3,4,且
即X的分布列为
X 0 1 2 3 4
P
X的数学期望是:
.
(II)品种甲的每公顷产量的样本平均数和样本方差分别是:
,
.
品种乙的每公顷产量的样本平均数和样本方差分别是:,
,
由以上结果可以看出,品种乙的样本平均数大于品种甲的样本平均数,且两品种的样本方差差异不大,故
应该选择种植品种乙.
【详解】
略
49.(2013·全国高考真题(文))经销商经销某种农产品,在一个销售季度内,每售出1t该产品获利润
500元,未售出的产品,每1t亏损300元.根据历史资料,得到销售季度内市场需求量的频率分布直方图,
如右图所示.经销商为下一个销售季度购进了130t该农产品.以 (单位:t,100≤ ≤150)表示下一个销售季
度内的市场需求量,T(单位:元)表示下一个销售季度内经销该农产品的利润.
(Ⅰ)将T表示为 的函数;
(Ⅱ)根据直方图估计利润T不少于57000元的概率.
【答案】(Ⅰ) (Ⅱ)0.7
【详解】
试题分析:(I)由题意先分段写出,当X∈[100,130)时,当X∈[130,150)时,和利润值,最后利用分
段函数的形式进行综合即可.
(II)由(I)知,利润T不少于57000元,当且仅当120≤X≤150.再由直方图知需求量X∈[120,150]的频
率为0.7,利用样本估计总体的方法得出下一个销售季度的利润T不少于57000元的概率的估计值.
解:(I)由题意得,当X∈[100,130)时,T=500X﹣300(130﹣X)=800X﹣39000,
当X∈[130,150]时,T=500×130=65000,∴T= .
(II)由(I)知,利润T不少于57000元,当且仅当120≤X≤150.
由直方图知需求量X∈[120,150]的频率为0.7,
所以下一个销售季度的利润T不少于57000元的概率的估计值为0.7.
考点:频率分布直方图.
50.(2010·全国高考真题(文))为调查某地区老人是否需要志愿者提供帮助,用简单随机抽样方法从该
地区调查了500位老年人,结果如下:
是否需要志愿 性别 男 女
需要 40 30
不需要 160 270
(1) 估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2) 能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?
(3) 根据(2)的结论,能否提供更好的调查方法来估计该地区老年人,需要志愿帮助的老年人的
比例?说明理由
附:
【答案】(1) ,(2)有99%的把握(3)见解析
【详解】
(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估算值为
(2) .
由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.
(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与
女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老
年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.
51.(2021·渭南市杜桥中学高一期末)下表提供了某厂生产甲产品过程中记录的产量 (吨)与相应的生产
能耗 吨标准煤)的几组对照数据:
2 4 6 8 10
5 6 5 9 10
(1)请根据上表提供的数据,用最小二乘法求出 与 的线性回归方程 ;
(2)根据(1)求出的线性回归方程,预测生产20吨甲产品的生产能耗是多少吨标准煤.
(附 )
【答案】(1) ;(2)16.1吨.
【分析】
(1)根据参考公式计算出 和 ,即可求出回归直线方程;
(2)将 ,带入(1)中所求回归直线方程即可得出结果.
【详解】
(1)由题意,则
故线性回归方程为
(2)根据(1)中线性回归方程预测,
当 吨时,生产能耗 (吨)
故测生产20吨甲产品的生产能耗是16.1吨标准煤.
52.(福建省福州第一中学2020-2021学年高二下学期期中考试数学试题)福州市风景秀丽,是著名的旅
游城巿,很多人慕名而来旅游,牛角梳是我市的著名土特产,在我市重要景点三坊七巷有一家牛角梳店,
通过在店面随机询问60名购买牛角梳的游客之前是否知道牛角梳是本市特产,得到如下列联表:
男 女 总计
事先知道牛角梳 8 16 24
事先不知道牛角梳 32 4 36
总计 40 20 60
(1)由以上列联表判断,能否在犯错误的概率不超过0.001的前提下认为购买牛角梳和是否事先知道牛角
梳为本市特产有关系?
(2)从被询问的24名事先知道牛角梳为本市特产的顾客中随机选取2名顾客,求抽到的女顾客人数的分
布列及其数学期望.
附: .0.010 0.005 0.001
6.635 7.879 10.828
【答案】(1)答案见解析;(2)答案见解析.
【分析】
(1)根据2×2列联表,计算K2的值,再与临界值比较,即可得到结论;
(2)设抽到女顾客的人数为ξ,则ξ的可能取值为0,1,2,根据古典概型的概率公式求出相应的概率,
得到的分布列,进而求出的数学期望即可.
【详解】
(1)
所以在犯错误的概率不超过0.001的前提下认为购买牛角梳和是否事先知道牛角梳为本市特产有关系.
(2)设抽到女顾客的人数为ξ,则的可能取值为0,1,2
所以 , , ,
所以ξ的分布列为:
ξ 0 1 2
P
所以ξ的数学期望为: .
53.(重庆市第八中学2020-2021学年高二下学期期中数学试题)为了研究黏虫孵化的平均温度 (单位:
)与孵化天数 之间的关系,重庆八中高2022级某课外兴趣小组通过试验得到如下6组数据:
组号 1 2 3 4 5 6
平均温度 15.3 16.8 17.4 18 19.5 21
孵化天数 16.7 14.8 13.9 13.5 8.4 6.2他们分别用两种模型① ,② 分别进行拟合,得到相应的回归方程并进行残差分析,得
到如图所示的残差图:
模型① 模型②
经计算得 , , , ,
(Ⅰ)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?(给出判断即可,不必说明理由)
(Ⅱ)残差绝对值大于1的数据被认为是异常数据,需要剔除,剔除后应用最小二乘法建立 关于 的线
性回归方程.(系数精确到0.1)
参考公式:回归方程 中斜率和截距的最小二乘法估计公式分别为: ,
.
【答案】(Ⅰ)模型①;(Ⅱ) .
【分析】
(Ⅰ)比较两个残差图的波动情况,即可做出判断;(Ⅱ)首先根据残差图剔除第四组数据,再根据参考
公式求回归直线方程.
【详解】
解:(Ⅰ)根据残差图分析,得出模型①残差波动小,应该选择模型①;
(Ⅱ)剔除异常数据,即组号为4的数据,
剩下数据的平均数为 , ;, ;
,
,
所以 关于 的线性回归方程为: .
54.(2021·江苏姜堰中学高二期末)随着节能减排意识深入人心以及共享单车的大范围推广,越来越多的
市民在出行时喜欢选择共享单车,为了研究广大市民在共享单车上的使用情况,某公司在我市随机抽取了
100民用户进行调查,得到如下数据:
每周使用
1次 2次 3次 4次 5次 6次及以上
次数
男 4 3 3 7 8 30
女 6 5 4 4 6 20
合计 10 8 7 11 14 50
(1)如果认为每周使用超过3次的用户为“喜欢骑行共享单车”,请设计 列联表,并判断是否有
95%的把握认为“是否喜欢骑行共享单车与性别有关”?
(2)每周骑行共享单车6次及6次以上的用户称为“骑行达人”,将频率看作概率,在我市所有“骑行达
人”中,随机抽取4名用户,对抽出的女性“骑行达人”每人奖励500元,记奖励金额为 ,求 的分
布列及均值.
附:下面的临界值表仅供参考:
0.050 0.010 0.001
x 3.841 6.635 10.828
0
(参考公式: ,其中
【答案】(1)列联表见解析,没有;(2)分布列见解析,800元.
【分析】(1)根据表格数据,求得 列联表,然后根据卡方公式计算 的值,然后查对临界值,作出判断即可;
(2)求出随机抽取1名用户,该用户是男“骑车达人”和女“骑车达人”的概率,然后确定奖励金额 的所
有可能取值,求出 的分布列,再根据均值公式求出 .
【详解】
(1)由图中表格可得 列联表如下:
不喜欢骑行共享单车 喜欢骑行共享单车 合计
男 10 45 55
女 15 30 45
合计 25 75 100
所以没有95%的把握认为“是否喜欢骑行共享单车与性别有关”.
(2)在我市所有“骑车达人”中,随机抽取1名用户,
该用户是男“骑车达人”的概率为 ,是女“骑车达人”的概率为 ,
随机变量 的可能取值为0,500, 1000, 1500, 2000,
, ,
, ,
.
所以 的分布列如下:
0 500 1000 1500 2000所以奖励金额X的均值为800元.
55.(2021·云南高二期末(文))某重点中学调查了100位学生在市统考中的理科综合分数,以
, , , , , , 分组的频率分
布直方图如图.
将理科综合分数不低于240分的学生称为成绩“优秀”
(1)估计某学生的成绩为“优秀”的概率;
(2)根据已知条件完成下面的2×2列联表,并据此资料判断是否有95%的把握认为成绩“优秀”与性别
有关.
成绩“非优秀” 成绩“优秀” 合计
男
女 15 45
合计
附: , .
0.050 0.010 0.001
k 3.841 6.635 10.828【答案】(1) ;(2)列联表答案见解析,没有 的把握认为成绩“优秀”与性别有关.
【分析】
(1)根据频率分布直方图求出“非优秀”的概率,再利用概率和为1求出“优秀”的概率;(2)先求出
优秀的人数,再逐一填其他量,代入公式计算 得出结论.
【详解】
解:(1)根据频率分布直方图可得某学生的成绩为“优秀”的概率为
.
(2)由频率分布直方图可知,在抽取的100人中,成绩“优秀”的有30人,从而2×2列联表如下:
成绩“非优秀” 成绩“优秀” 合计
男 40 15 55
女 30 15 45
合计 70 30 100
将2×2列联表中的数据代入公式计算,得
因为 ,
所以没有 的把握认为成绩“优秀”与性别有关.