文档内容
考点 28 统计(核心考点讲与练)
一、抽样与统计图表
1.获取数据的基本途径
获取数据的基本途径包括:统计报表和年鉴、社会调查、试验设计、普查和抽样、互联网等.
(1)统计报表是指各级企事业、行政单位按规定的表格形式、内容、时间要求报送程序,自上而下统一布置,
提供统计资料的一种统计调查方式.
(2)年鉴是以全面、系统、准确地记述上年度事物运动、发展状况为主要内容的资料性工具书.汇辑一年内的
重要时事、文献和统计资料,按年度连续出版的工具书.
2.总体、样本、样本容量
要考察的对象的全体叫做总体,每一个考察对象叫做个体,从总体中被抽取的考察对象的集体叫做总体的
一个样本,样本中个体的数目叫做样本容量.
3.简单随机抽样
(1)定义:从元素个数为N的总体中不放回地抽取容量为n的样本,如果每一次抽取时总体中的各个个体有
相同的可能性被抽到,这种抽样方法叫做简单随机抽样.
(2)最常用的简单随机抽样的方法:抽签法和随机数法.
(3)应用范围:总体中的个体数较少.
4.分层抽样
(1)定义:在抽样时,将总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各
层中按层在总体中所占比例进行简单随机抽样或系统抽样,这种抽样方法叫做分层抽样.
(2)应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.
5.频率分布直方图
(1)频率分布表的画法:
第一步:求极差,决定组数和组距,组距=;
第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;
第三步:登记频数,计算频率,列出频率分布表.
(2)频率分布直方图:反映样本频率分布的直方图(如图)横轴表示样本数据,纵轴表示 ,每个小矩形的面积表示样本落在该组内的 频率 .
6.频率分布折线图和总体密度曲线
(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.
(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率分布折线图就会
越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
7.样本的数字特征
数字特征 定义
众数 在一组数据中,出现次数最多的数据叫做这组数据的众数
将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数
中位数
据的平均数)叫做这组数据的中位数
平均数 样本数据的算术平均数,即x=
方差 s2=[(x - x ) 2 + ( x - x)2+…+(x-x)2],其中s为标准差
1 2 n
8.百分位数
如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分
位的百分位数.可表示为:一组n个观测值按数值大小排列.如,处于p%位置的值称第p百分位数.
二、统计案例
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是
一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在
左上角到右下角的区域内,两个变量的相关关系为负相关.
2.回归分析
对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(ⅰ)画散点图;(ⅱ)求回归直
线方程;(ⅲ)用回归直线方程作预报.
(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关
关系,这条直线叫做回归直线.
(2)回归直线方程的求法——最小二乘法.
设具有线性相关关系的两个变量x,y的一组观察值为(x,y)(i=1,2,…,n),则回归直线方程y=ax+b
i i
的系数为:称为样本点的中心.
(3)相关系数
①计算相关系数r,r有以下性质:|r|≤1,并且|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度
越弱;② | r |> r ,表明有95%的把握认为变量x与y之间具有线性相关关系,回归直线方程有意义;否则
0.05
寻找回归直线方程毫无意义.
3.独立性检验
(1)2×2列联表
B B 总计
A n n n
11 12 1+
A n n n
21 22 2+
总计 n n n
+1 +2
其中n =n +n ,n =n +n ,n =n + n ,n =n + n ,n=n + n + n + n .
1+ 11 12 2+ 21 22 +1 11 21 +2 12 22 11 21 12 22
(2)χ2统计量
χ2=.
(3)两个临界值:3.841与6.635
当 χ 2 >3.841 时,有95%的把握说事件A与B有关;
当 χ 2 >6.635 时,有99%的把握说事件A与B有关;
当 χ 2 ≤ 3.841 时,认为事件A与B是无关的.
1.解决分层抽样的常用公式
先确定抽样比,然后把各层个体数乘以抽样比,即得各层要抽取的个体数.
(1)抽样比= = ;
(2)层1的容量∶层2的容量∶层3的容量=样本中层1的容量∶样本中层2的容量∶样本中层3的容量.
2.统计图表人类辨识影像的能力要优於辨识文字与数字的能力 ,因此我们采用图形的方式来展现数据时,常常
不我们直接观察数据要来的快.
3.平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
4.独立性检验的一般步骤
①根据样本数据制成2×2列联表;
②根据公式K2= 计算K2的值;
③查表比较K2与临界值的大小关系,作出统计判断.
抽样
1.(2022·福建莆田·三模)已知某校有教职工560人,其中女职工240人,现按性别用分层抽样的方法从
该校教职工中抽取28人,则抽取的男职工人数与抽取的女职工人数之差是( )
A.2 B.4 C.6 D.8
【答案】B
【分析】根据分层抽样的抽取比例计算方法,分别求出抽取人数中的男女职工人数即可求解.
【详解】抽取的女职工人数为: 人
抽取的男职工人数为: 人
则抽取的男职工人数与抽取的女职工人数之差为: 人
故选:B.
2.(2022·安徽·芜湖一中三模(文))某学校对高三年级800名学生进行系统抽样编号分别为001,
002,…,800,若样本相邻的两个编号为028,068,则样本中编号最大的为( )
A.778 B.780 C.782 D.788
【答案】D
【分析】根据样本中两个相邻编号求出组距和分组数,再根据系统抽样方法即可求出样本编号最大的一个.
【详解】∵样本相邻的两个编号为028和068,故组距为68-28=40,
由800÷40=20知样本容量为20,
系统抽样时分为20组:001-040,041-080,…,760-800,
∵从第1组抽出的数据为028,∴从第20组抽出的数据为760+28=788.
故选:D.3.(2021北京市通州区高三上期中)某单位有男职工56人,女职工42人,按性别分层,用分层随机抽样
的方法从全体职工中抽出一个样本,如果样本按比例分配,男职工抽取的人数为16人,则女职工抽取的人
数为( )
A.12 B.20 C.24 D.28
【答案】A
【分析】根据题意,结合分层抽样的计算方法,即可求解.
【详解】根据题意,设抽取的样本人数为 ,
因男职工抽取的人数为 ,所以 ,因此女职工抽取的人数为 (人).
故选:A.
4.(多选题)(2022·福建南平·三模)支气管炎患者会咳嗽失眠,给患者日常生活带来严重的影响.某医院
老年患者治愈率为20%,中年患者治愈率为30%,青年患者治愈率为40%.该医院共有600名老年患者,
500名中年患者,400名青年患者,则( )
A.若从该医院所有患者中抽取容量为30的样本,老年患者应抽取12人
B.该医院青年患者所占的频率为
C.该医院的平均治愈率为28.7%
D.该医院的平均治愈率为31.3%
【答案】ABC
【分析】由分层抽样即可判断A选项;直接计算频率即可判断B选项;直接计算平均治愈率即可判断C、
D选项.
【详解】对于A,由分层抽样可得,老年患者应抽取 人,正确;
对于B,青年患者所占的频率为 ,正确;
对于C,平均治愈率为 ,正确;
对于D,由C知错误.
故选:ABC.
统计图表
1.(2021广东省广雅中学高三上10月月考)小张一星期的总开支分布如图①所示,一星期的食品开支如图②所示,则以下说法正确的是( )
A. 储蓄金额为300元 B. 日常开支比食品中的其他开支多150元
C. 娱乐开支比通信开支多50元 D. 肉类开支占总开支的
【答案】ABC
【分析】根据图表信息一一分析可得;
【详解】解:由食品开支图,可知食品开支有 元,所以一星期的总开支
元,其中储蓄金额为 元,故A正确;
日常开支为 元,故日常开支比食品中的其他开支多150元,故B正确;
娱乐开支比通信开支多 元,故C正确;
肉类开支占总开支的 ,故D错误;
故选:ABC
2.(2021四川省资阳市高三第一次诊断)我国在2020年如期完成了新时代脱贫攻坚目标任务,脱贫攻坚
战取得全面胜利,历史性地解决了绝对贫困问题,并全面建成了小康社会.现就2013—2019年年末全国农
村贫困人口数进行了统计,制成如下散点图:据此散点图,下面 个回归方程类型中最适宜作为年末贫困人数 和年份代码 的回归方程类型的是(
)
A. B. C. D.
【答案】A
【分析】结合散点图中点的分布特征即可得出结果.
【详解】由散点图可知所有的点几乎分布在一条直线上,结合选项可知选A,
故选:A.
3.(2021广东省部分学校高三上11月大联考)中国互联网络信息中心(CNNIC)发布了第46次《中国互
联网络发展状况统计报告》,报告公布了截至2020年6月的中国互联网状况数据与对比数据,根据下图,
下面结论不正确的是( )
A. 2020年6月我国网民规模接近9.4亿,相比2020年3月新增网民3625万
B. 2020年6月我国互联网普及率达到67%,相比2020年3月增长2.5%
C. 2018年12月我国互联网普及率不到60%,经过半年后普及率超过60%
D. 2018年6月我国网民规模比2017年6月我国网民规模增加的百分比大于7%
【答案】D
【分析】结合图表直接判断和计算即可.
【详解】对A,由图可知,新增网民数为: 万,正确;对B,读图可直接判断正确;
对C,读图可直接判断正确;
对D,2018年6月我国网民规模比2017年6月我国网民规模增加的比例为:
,故D错误.
故选:D
4.(2021山西省长治市第八中学高三上阶段性测评)随着2022年北京冬奥会临近,中国冰雪产业快速发展,
冰雪运动人数快速上升,冰雪运动市场需求得到释放,将引领相关户外用品行业市场增长.下面是2013年
至2020年中国雪场滑雪人次(万人次)与同比增长率(与上一年相比)的统计情况,则下面结论中正确的
是( )
A.2013年至2020年,中国雪场滑雪人次的同比增长率逐年减少
B.2013年至2020年,中国雪场滑雪人次逐年增加
C.2013年至2020年,中国雪场滑雪人次的年增加量相近
D.2013年到2020年,中国雪场滑雪人次在2020年首次出现负增长
【答案】D
【分析】根据图中条形统计图和折线图的实际意义分析逐个判定即可.
【详解】对于A,由折线图可知,2013年至2020年,中国雪场滑雪人次的同比增长率先增长再减小,故A
错误;
对于B,由条形统计图知,2013年至2019年,中国雪场滑雪人次逐年增加,但2020年减少了,故B错误;
对于C,由条形图知,2013年至2020年,中国雪场滑雪人次的年增加量不相近,故C错误;
对于D,由条形图和折线图,明显看出2013年到2020年,中国雪场滑雪人次在2020年首次出现负增长,
故D正确.
故选:D5.(2021河南省重点中学高三上模拟调研)茶叶源于中国,至今中国仍然是茶叶最大生产国,下图为
年全球主要茶叶生产国调查数据.
年全球主要茶叶生产国产量分布
根据该图,下列结论中不正确的是( )
A. 年图中 个国家茶叶产量的中位数为
B. 年图中 个国家茶叶产量比 年增幅最大的是中国
C. 年图中 个国家茶叶总产量超过 年
D. 年中国茶叶产量超过其他 个国家之和
【答案】B
【分析】根据统计图表提供的数据判断各选项.
【详解】图中,2019年的数据中间的一个是45.9,A正确;
2020年图中 个国家茶叶产量比 年增幅最大的是肯尼亚 ,B错;
2020年图中 个国家茶叶总产量比 年总产量的差是 ,
C正确;
年图中 ,D正确,故选:B.
样本的数字特征
1.(2021江苏苏州模拟)高铁、扫码支付、共享单车、网购并称中国“新四大发明”,近日对全国100个城市的
共享单车和扫码支付的使用人数进行大数据分析,其中共享单车使用的人数分别为x,x,x,…,x ,
1 2 3 100
它们的平均数为 ,方差为s2;其中扫码支付使用的人数分别为3x+2,3x+2,3x+2,…,3x +2,
1 2 3 100
它们的平均数为 方差为s′2,则 s′2分别为( )
A.3 +2,3s2+2 B.3 ,3s2
C.3 +2,9s2 D.3 +2,9s2+2
【答案】C
【解析】 由平均数的计算公式,可得数据x,x,…,x 的平均数为 = (x+x+x+…+x ),
1 2 100 1 2 3 100
数据3x+2,3x+2,…,3x +2的平均数为:
1 2 100
[(3x+2)+(3x+2)+…+(3x +2)]= [3(x+x+…+x )+2×100]=3 +2,
1 2 100 1 2 100
数据x,x,…,x 的方差为s2= [(x- )2+(x- )2+…+(x - )2],
1 2 100 1 2 100
数据3x+2,3x+2,…,3x +2的方差为:
1 2 100
{[(3x+2)-(3 +2)]2+[(3x+2)-(3 +2)]2+…+[(3x +2)-(3 +2)]2}
1 2 100
= [9(x- )2+9(x- )2+…+9(x - )2]=9s2,故选C.
1 2 100
2.(2021河南省湘豫名校联盟高三上11月联考)某校为了解学生体能素质,随机抽取了 名学生,进
行体能测试.并将这 名学生成绩整理得如下频率分布直方图.根据此频率分布直方图.下列结论中不正确的是( )
A. 这 名学生中成绩在 内的人数占比为
B. 这 名学生中成绩在 内的人数有 人
C. 这 名学生成绩的中位数为
D. 这 名学生的平均成绩 (同一组中的数据用该组区间的中点值做代表)
【答案】C
【分析】利用频率分布直方图求解判断.
【详解】根据此频率分布直方图,成绩在 内的频率为 ,所以A正确;
这 名学生中成绩在 内的人数为 所以B正确;
根据此频率分布直方图, , ,
可得这 名学生成绩的中位数 ,所以C错误﹔
根据频率分布直方图的平均数的计算公式,可得:
所以D正确.
故选:C.
线性回归方程1.(多选题)(2021山东师范大学附中高三上期中)已知变量 , 之间的经验回归方程为
,且变量 , 的数据如表所示,则下列说法正确的是( )
6 8 10 12
6 3 2
A. 变量 , 之间呈正相关关系 B. 变量 , 之间呈负相关关系
C. 的值等于5 D. 该回归直线必过点
【答案】BCD
【分析】将样本点中心代入回归直线方程,得出 的值,再逐一判断即可.
【详解】
因为 ,所以 ,故C正确;
因为 ,所以变量 , 之间呈负相关关系,故A错误,B正确;
因为 ,所以该回归直线必过点 ,故D正确;
故选:BCD
2.(2021福建省宁德市高三上期中联考)某电子产品的成本价格由两部分组成,一是固定成本,二是可变
成本,为确定该产品的成本,进行5次试验,收集到的数据如表:
产品数x个 10 20 30 40 50
产品总成本(元) 62 68 81 89
由最小二乘法得到回归方程 ,则 =___________.
【答案】
【分析】根据线性回归方程过样本中心点进行求解即可.
【详解】 , ,因为线性回归方程过样本中心点,
所以 ,
故答案为:
3.(“超级全能生”2022届高三全国卷地区11月联考)自动驾驶汽车依靠 、人工智能、视觉计算、雷达、
监控装置和全球定位系统协同合作,让电脑可以在没有任何人类主动的操作下,自动安全地操作机动车辆.
近年来全球汽车行业达成共识,认为自动驾驶代表了未来汽车行业的发展方向.实现自动驾驶是一个渐进过
程,国际通用的自动驾驶标准根据自动驾驶程度逐步提升可以分为 级. 级自动驾驶也是整个自动驾驶
技术的分水岭. 年全球 渗透率(%)统计表及散点图如下.
年份
渗透率(%)
(1)利用散点图判断, 和 (其中' , 为大于 的常数)哪一个更适合作为渗透率
和年份 的回归方程模型(只要给出判断即可,不必说明理由);
(2)令 ,求 关于 的回归方程;
(3)根据(2)中回归模型回答下列问题:
(i)估计 年全球 渗透率是多少?(ii)预计至少要到哪一年,全球 渗透率能超过 ?
附:回归直线 中斜率和截距的最小二乘估计公式为 ,
.
【答案】(1) 更适合
(2)
(3)(i) ;(ii)
【分析】(1)根据散点图,即可得到 更适合作为渗透率 和年份 的回归方程模型;
(2)由 ,得 组的对应数据,利用公式,求得 的值,即可得到回归方程;
(3)(i) ,求得 ,即可得到 年全球 渗透率;
(ii)令 ,即可求得到 年,全球 渗透率能超过 .
【小问1详解】解:根据散点图,可知 更适合作为渗透率 和年份 的回归方程模型.
【小问2详解】解:由 ,得 组的对应数据为 , , , ,
,
所以 , , , ,
所以 ,则 ,所以 关于 的线性回归方程为 .
【小问3详解】解:(i)令 ,可得 ,此时 ,
所以估计 年全球 渗透率是 .
(ii)令 ,解得 , ,
所以预计至少要到 年,全球 渗透率能超过 .
独立性检验
1.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到
“光盘”行动,得到列联表:
分
做不到“光盘” 能做到“光盘”
类
男 45 10
女 30 15
由此列联表得到 的正确结论是( )
的
A.在犯错误 概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”
C.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别有关”
D.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别无关”
【答案】C
【分析】作出列联表,求得 ,再与临界值表对比判断.
【详解】列联表如下:
分
做不到“光盘” 能做到“光盘” 总计
类
男 45 10 55
女 30 15 45
总 75 25 100计
所以 ,且 ,
所以在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别有关”.
故选:C
2. 单位:人
数学成绩
学校 合计
不优秀 优秀
甲校
乙校
合计
对列联表中的数据,依据 的独立性检验,我们已经知道独立性检验的结论是学校和成绩无关.如
果表中所有数据都扩大为原来的 倍,在相同的检验标准下,再用独立性检验推断学校和数学成绩之间的
关联性,结论还一样吗?请你试着解释其中的原因.
附:临界值表:
【分析】列出数据扩大 倍的 列联表,计算出 的观测值,结合独立性检验的基本思想可出结论.
【详解】数据扩大 倍的 列联表为:
数学成绩
学校 合计
不优秀 优秀
甲校乙校
合计
假设 学校与数学成绩无关,
由列联表数据得 ,
根据小概率值 的独立性检验,我们推断假设 不成立,即认为学校与数学成绩有关,
又因为甲校成绩优秀和不优秀的概率分别为 , ,
乙校成绩优秀和不优秀的概率分别为 , ,
又因为 ,所以,从甲校、乙校各抽取一个学生,甲校学生数学成绩优秀的概率比乙校学
生优秀的概率大.
所以,结论不一样,不一样的原因在于样本容量,
当样本容量越大时,用样本估计总体的准确性会越高.
1.(2021年全国高考甲卷)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭
年收入的调查数据整理得到如下频率分布直方图:根据此频率分布直方图,下面结论中不正确的是( )
A. 该地农户家庭年收入低于4.5万元的农户比率估计为6%
B. 该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C. 估计该地农户家庭年收入的平均值不超过6.5万元
D. 估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
【答案】C
【分析】根据直方图的意义直接计算相应范围内的频率,即可判定ABD,以各组的中间值作为代表乘以相
应的频率,然后求和即得到样本的平均数的估计值,也就是总体平均值的估计值,计算后即可判定C.
【详解】因为频率直方图中的组距为1,所以各组的直方图的高度等于频率.样本频率直方图中的频率即可
作为总体的相应比率的估计值.
该地农户家庭年收入低于4.5万元的农户的比率估计值为 ,故A正确;
该地农户家庭年收入不低于10.5万元的农户比率估计值为 ,故B正确;
该地农户家庭年收入介于4.5万元至8.5万元之间的比例估计值为
,故D正确;
该地农户家庭年收入的平均值的估计值为
(万元),超
过6.5万元,故C错误.
综上,给出结论中不正确的是C.
故选:C.【点睛】本题考查利用样本频率直方图估计总体频率和平均值,属基础题,样本的频率可作为总体的频率
的估计值,样本的平均值的估计值是各组的中间值乘以其相应频率然后求和所得值,可以作为总体的平均
值的估计值.注意各组的频率等于 .
2.(2020年全国统一高考(新课标Ⅰ))某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单
位:°C)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据 得到下面
的散点图:
由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类
型的是( )
A. B.
C. D.
【答案】D
【分析】根据散点图的分布可选择合适的函数模型.
【详解】由散点图分布可知,散点图分布在一个对数函数的图象附近,
因此,最适合作为发芽率 和温度 的回归方程类型的是 .
故选:D.
【点睛】本题考查函数模型的选择,主要观察散点图的分布,属于基础题.
3.(多选题)(2021年全国新高考Ⅰ卷)有一组样本数据 , ,…, ,由这组数据得到新样本数据, ,…, ,其中 ( 为非零常数,则( )
A. 两组样本数据的样本平均数相同
B. 两组样本数据的样本中位数相同
C. 两组样本数据的样本标准差相同
D. 两组样本数据的样本极差相同
【答案】CD
【分析】A、C利用两组数据的线性关系有 、 ,即可判断正误;根据中位数、
极差的定义,结合已知线性关系可判断B、D的正误.
【详解】A: 且 ,故平均数不相同,错误;
B:若第一组中位数为 ,则第二组的中位数为 ,显然不相同,错误;
C: ,故方差相同,正确;
D:由极差的定义知:若第一组的极差为 ,则第二组的极差为
,故极差相同,正确;
故选:CD
4.(2021年全国高考乙卷)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无
提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7
新设备 10.1 10.4 10.1 10.0 10.1 10.3 10.6 10.5 10.4 10.5
旧设备和新设备生产产品的该项指标的样本平均数分别记为 和 ,样本方差分别记为 和 .
(1)求 , , , ;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果 ,则认为
新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).【答案】(1) ;(2)新设备生产产品的该项指标的均值较旧设备
有显著提高.
【分析】(1)根据平均数和方差的计算方法,计算出平均数和方差.
(2)根据题目所给判断依据,结合(1)的结论进行判断.
【详解】(1) ,
,
,
.
(2)依题意, , ,
,所以新设备生产产品的该项指标的均值较旧设备有显著提高.
5.(2021年全国高考甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两
台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:0.050 0.010 0.001
k 3.841 6.635 10.828
【答案】(1)75%;60%;(2)能.
【分析】根据给出公式计算即可
【详解】(1)甲机床生产的产品中的一级品的频率为 ,
乙机床生产的产品中的一级品的频率为 .
(2) ,
故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.
6.(2020年全国统一高考(新课标Ⅱ))某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有
所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽
样的方法抽取20个作为样区,调查得到样本数据(x,y)(i=1,2,…,20),其中x和y分别表示第i个样区
i i i i
的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得 , ,
, , .
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平
均数乘以地块数);
(2)求样本(x,y)(i=1,2,…,20)的相关系数(精确到0.01);
i i
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动
物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r= , ≈1.414.
【答案】(1) ;(2) ;(3)详见解析
【分析】(1)利用野生动物数量的估计值等于样区野生动物平均数乘以地块数,代入数据即可;
(2)利用公式 计算即可;
(3)各地块间植物覆盖面积差异较大,为提高样本数据的代表性,应采用分层抽样.
【详解】(1)样区野生动物平均数为 ,
地块数为200,该地区这种野生动物的估计值为
(2)样本 (i=1,2,…,20)的相关系数为
(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,
由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物的数量差异很大,
采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,
从而可以获得该地区这种野生动物数量更准确的估计.
【点晴】本题主要考查平均数的估计值、相关系数的计算以及抽样方法的选取,考查学生数学运算能力,
是一道容易题.
一、单选题1.(2022·湖南岳阳·三模)已知一组数据: 的平均数是5,方差是4,则由 , ,
和 这四个数据组成的新数据组的方差是( )
A.16 B.14 C.12 D.11
【答案】C
【分析】根据平均数、方差公式计算可得;
【详解】解:由已知得 , ,
则新数据的平均数为 ,
所以方差为 ,
,
故选:C.
2.(2022·辽宁辽阳·二模)为了解某地高三学生的期末语文考试成绩,研究人员随机抽取了100名学生对
其进行调查,根据所得数据制成如图所示的频率分布直方图,已知不低于90分为及格,则这100名学生期
末语文成绩的及格率为( )
A.40% B.50% C.60% D.65%
【答案】C
【分析】利用直方图求频率即得.
【详解】依题意可得及格率为 .
故选:C.
3.(2022·天津河北·二模)为了解中学生的身高情况,某部门随机抽取了某学校的学牛,将他们的身高数
据(单位:cm)按[150,160),[160,170),[170,180),[180,190]分组,绘制成如图所示的频率分布直方图,其中身高在区间[170,180)内的人数为300,身高在区间[160,170)内的人数为180,则a的
值为( )
A.0.03 B.0.3 C.0.035 D.0.35
【答案】A
【分析】由频率分布直方图中的数据,以及频率与频数之间的关系,列式求解即可.
【详解】由频率分布直方图可得: ,解得a=0.03.
故选:A
4.(2022·天津一中模拟预测)某校随机抽取了400名学生进行成绩统计,发现抽取的学生的成绩都在50
分至100分之间,进行适当分组画出频率分布直方图如图所示,下列说法正确的是( )
A.直方图中x的值为0.040
B.在被抽取的学生中,成绩在区间 的学生数为30人
C.估计全校学生的平均成绩为84分
D.估计全校学生成绩的样本数据的80%分位数约为93分
【答案】C
【分析】根据学生的成绩都在50分至100分之间的频率和为1可求得x值,以此判断A;计算成绩在区间[70,80)的学生频率,然后可计算该区间学生数,以此判断B;按照频率频率分布直方图中平均数计算公
式计算可判断C;按照频率分布直方图中百分位数的计算方法计算可判断D.
【详解】定义A:根据学生的成绩都在50分至100分之间的频率和为1,可得
,解得x=0.03,所以A错;
对于B:在被抽取的学生中,成绩在区间[70,80)的学生数为10×0.015×400=60(人),所以B错;对于C:
估计全校学生的平均成绩为55×0.05+65×0.1+75×0.15+85×0.3+95×0.4=84(分),所以C对;
对于D:全校学生成绩的样本数据的80%分位数约为 (分).
所以D错.
故选:C
二、多选题
5.(2022·山东日照·模拟预测)我国居民收入与经济同步增长,人民生活水平显著提高.“三农”工作重
心从脱贫攻坚转向全面推进乡村振兴,稳步实施乡村建设行动,为实现农村富强目标而努力,2017年
~2021年某市城镇居民、农村居民年人均可支配收入比上年增长率如下图所示,根据下面图表、下列说法
一定正确的是( )
A.对于该市居民年人均可支配收入比上年增长率的极差,城镇比农村的小
B.该市农村居民年人均可支配收入高于城镇居民
C.对于该市居民年人均可支配收入比上年增长率的中位数,农村比城镇的大
D.2021年该市城镇居民、农村居民年人均可支配收入比2020年有所上升
【答案】CD
【分析】根据表中数据逐一判断即可.
【详解】对于A:由表中数据可知城镇居民相关数据极差较大,即选项A错误;
对于B:由增长率高,得不出收入高,
即选项B错误;
对于C:由表中数据,可知农村居民相关数据中位数较大,
即选项C正确;
对于D:由表中数据,可知增长率均为正,
所以2021年该市城镇居民、农村居民年人均可支配收入比2020年有所上升,
即选项D正确.
故选:CD.
6.(2022·湖南岳阳·三模)下列说法正确的是( )
A.线性回归方程 必过
B.设具有线性相关关系的两个变量x,y的相关系数为r,则 越接近于0,x和y之间的线性相关程度越
强
C.在一个 列联表中,由计算得 的值,则 的值越小,判断两个变量有关的把握越大
D.若 , ,则
【答案】AD
【分析】根据线性回归方程的特征、相关系数的性质、卡方的意义,结合正态分布的性质逐一判断即可.
【详解】因为线性回归方程 必过样本中心点 ,所以选项A正确;
因为 越接近于0,x和y之间的线性相关程度越弱,所以选项B不正确;
因为 的值越小,确定两个变量有关的把握的程度越小,所以选项C不正确;
因为 ,所以 ,因此选项D正确,
故选:AD
7.(2022·重庆南开中学模拟预测)下列命题正确的是( )
A.若 且 ,则B.对于随机事件A和B,若 ,则事件A与事件B独立
C.回归分析中,若相关指数 越接近于1,说明模型的拟合效果越好;反之,则模型的拟合效果越差
D.用等高条形图粗略估计两类变量X和Y的相关关系时,等高条形图差异明显,说明X与Y无关
【答案】BC
【分析】A由正态分布的对称性求概率;B利用条件概率公式转化判断;C、D根据相关指数的实际意义、
等高条形图的性质判断
【详解】A:由 ,根据正态分布对称性 ,错误;
B:由题意 ,即 ,故事件A与事件B独立,正确;
C:相关指数的实际意义知:相关指数 越接近于1,说明模型的拟合效果越好;反之,则模型的拟合效
果越差,正确;
D:由等高条形图与列联表关系,差异明显表明X与Y相关可能很大,错误.
故选:BC
8.(2022·湖北·荆门市龙泉中学一模)疫苗是为预防、控制传染病的发生、流行,用于人体预防接种的预
防性生物制品,其前期研发过程中,一般都会进行动物保护测试,为了考察某种疫苗预防效果,在进行动
物试验时,得到如下统计数据:
发
未发病 总计
病
未注射疫苗 30
注射疫苗 40
总计 70 30 100
附表及公式:
0.05 0.01 0.005 0.001
3.841 6.635 7.879 10.828
, .现从试验动物中任取一只,取得“注射疫苗”的概率为0.5,则下列判断正确的是( )A.注射疫苗发
病的动物数为10
B.某个发病的小动物为未注射疫苗动物的概率为
C.能在犯错概率不超过0.005的前提下,认为疫苗有效
D.该疫苗的有效率约为80%
【答案】ABD
【分析】完善列联表可直接判断A,计算比例后判断BD,计算 判断C.
【详解】完善列联表如下:
发
未发病 总计
病
未注射疫苗 30 20 50
注射疫苗 40 10 50
总计 70 30 100
由列联表知,A正确,
,B正确,
,
不能在犯错概率不超过0.005的前提下,认为疫苗有效,C错误;
疫苗的有效率约为 ,D正确.
故选:ABD.
三、填空题
9.(2022·福建龙岩·模拟预测)已知变量y关于x的回归方程为 ,若对 两边取自然对数,
可以发现 与x线性相关,现有一组数据如下表所示, 时,预测y值为___________.
x 1 2 3 4
y e
【答案】【分析】对 两边取对数,得 令 则 ,
利用对称中心点在函数图象上即得 ,进而确定解析式,求出预测值.
【详解】对 两边取对数,得 令 则
x 1 2 3 4
y e
z 1 3 4 6
代入 得 故
故 ,
当 时,
故答案为:
四、解答题
10.(2022·广东·普宁市华侨中学二模)某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,
已知土地的使用面积 与相应的管理时间 的关系如下表所示:
土地使用面积 (单位:亩)
管理时间 (单位:月)
调查了某村 名村民参与管理的意愿,得到的部分数据如下表所示;
愿意参与管理 不愿意参与管理
男性村民
女性村民
(1)做出散点图,判断土地使用面积 与管理时间 是否线性相关;并根据相关系数 说明相关关系的强弱.
(若 ,认为两个变量有很强的线性相关性, 值精确到 ) .
(2)若以该村的村民的性别与参与管理意风的情况估计贫困县的情况,且每位村民参与管理的意互不影响,则从该贫困县村民中任取 人,记取到不愿意参与管理的女性村民的人数为 ,求 的分布列及数学期望.
参考公式: 参考数据:
【分析】(1)由已知数据做出散点图,根据散点图可判断出土地使用面积 与管理时间 是否线性相关,
计算出相关系数 可判断出两个变量是否有很强的线性相关性;
(2)记取到不愿意参与管理的女性村民的人数为 ,求出 的取值可得分布列及数学期望.
(1)
散点图如上图,由散点图可知,土地使用面积 与管理时间 线性相关.
因为 , ,
,
,
,
所以相关系数 ,
故土地使用面积 与管理时间 线性相关性很强.
(2)由题意可知,调查 名村民中不愿意参与管理的女性村民人数 名,从该贫困县村民中任取一人,取到不愿意参与管理得到女性村民的概率为 ,
的所有可能取值为 ,
,
,
,
,
的分布列
0 1 2 3
数学期望 .
11.(2022·湖南·雅礼中学二模)“不关注分数,就是对学生的今天不负责:只关注分数,就是对学生的
未来不负责.”为锻炼学生的综合实践能力,长沙市某中学组织学生对雨花区一家奶茶店的营业情况进行调
查统计,得到的数据如下:
月份x 2 4 6 8 10 12
净利润(万元〕y 0.9 2.0 4.2 3.9 5.2 5.1
(1)设 .试建立y关于x的非线性回归方程 和 (保留2位有效数字);
(2)从相关系数的角度确定哪一个模型的拟合效果更好,并据此预测次年2月( )的净利润(保留
1位小数).附:①相关系数 ,回归直线 中斜率和截距的最小二乘估计公式分
别为 ;②参考数据:
,
【答案】(1) 和 ;
(2)模型 的拟合效果更好,次年2月净利润为 万元
【分析】(1)根据数据和公式直接计算可得;
(2)根据数据和公式计算出相关系数即可求出.
(1) ,
,
,
,
所以 , ,所以模型 的方程为 ,
,
,
,
所以 , ,
所以模型 的方程为;
(2)
,
所以 ,
,
因为 更接近1,所以模型 的拟合效果更好,
则次年2月净利润为 万元.
12.(2022·重庆南开中学模拟预测)公众号“山城学术圈”根据统计局统计公报提供的数据,对我国
2015—2021年的国内生产总值GDP进行统计研究,做出如下2015—2021年GDP和GDP实际增长率的统
计图表.通过统计数据可以发现,GDP呈现逐年递增趋势.2020年,GDP增长率出现较明显降幅,但
GDP却首次突破100万亿.现统计人员选择线性回归模型,对年份代码x和年度实际GDP增长率 进
行回归分析.年份 2015年 2016年 2017年 2018年 2019年 2020年 2021年
年度GDP(亿元) 688858.2 746395.1 832035.9 919281.1 986515.2 1015986.2 1143669.7
年份代码x 1 2 3 4 5 6 7
7.0 6.8 6.9 6.7 6.0 2.3 8.1
GDP实际增长率
(1)用第1到第7年的数据得到年度实际GDP增长率 关于年份代码x的回归方程近似为:
,对该回归方程进行残差分析,得到下表,视残差 的绝对值超过1.5的数据为异常数据.
年份代码x 1 2 3 4 5 6 7
7.0 6.8 6.9 6.7 6.0 2.3 8.1
GDP实际增长率
6.98 6.50 6.26 6.02 5.54
GDP增长率估计值
0.02 0.40 0.74 -0.02 2.56
残差
将以上表格补充完整,指出GDP增长率出现异常数据的年份及异常现象,并根据所学统计学知识,结合
生活实际,推测GDP增长率出现异常的可能原因;
(2)剔除(1)中的异常数据,用最小二乘法求出回归方程: ,并据此预测数据异常年份的GDP增
长率.附: ,
【分析】(1)根据实际GDP增长率 关于年份代码x的回归方程近似为: 和残差的
定义求解;
(2)先求得 ,进而得到 ,写出回归直线方程求解.
(1)解:
年份代码x 1 2 3 4 5 6 7
7.0 6.8 6.9 6.7 6.0 2.3 8.1
GDP实际增长率
6.98 6.74 6.50 6.26 6.02 5.78 5.54
GDP增长率估计值
0.02 0.06 0.40 0.74 -0.02 -3.48 2.56
残差
由视残差 的绝对值超过1.5的数据为异常数据,则2020年份估计值远远大于实际值,2021年份估计值远
远小于实际值,由于2020年疫情经济受到很大的影响,实际增长下滑,2021年份,国家采取措施,刺激
经济增长;
(2)因为 ,
, ,
所以 , ,
所以回归直线方程为 ,
当 时, ,当 时, .
13.(2022·辽宁·二模)第24届冬季奥林匹克运动会于2022年2月4日在北京开幕.吉祥物“冰墩墩”以
其可爱的外形迅速火爆出圈,其周边产品更是销售火热,甚至达到“一墩难求”的现象某购物网站为了解人们购买“冰墩墩”的意愿,随机对90个用户(其中男30人,女60人)进行问卷调查,得到如下列联表
和条形图:
有购买 没有购
合计
意愿 买意愿
男
女
合计
如果从这90人中任意抽取1人,抽到“有购买意愿”的概率为 .
(1)完成上述 列联表,并回答是否有 的把握认为“购买意愿”与“性别”有关?
(2)若以这90个用户的样本的概率估计总体的概率,现再从该购物网站所有用户中,采用随机抽样的方法
每次抽取1名用户,抽取4次,记被抽取的4名用户对“冰墩墩”有购买意愿的人数为X,若每次抽取的
结果是相互独立的,写出X的分布列,并求期望和方差.
参考公式: ,其中 .
临界值表:
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【答案】(1)列联表见解析,没有 的把握认为“购买意愿”与“性别”有关;
(2)分布列见解析, , .
【分析】(1)根据已知条件写出列联表,利用卡方公式求卡方值并与参考值比较,根据独立检验的基本
思想判断结论;(2)由题设有 的可能值为{0,1,2,3,4}且 ,利用二项分布概率公式求各可能值的概率,进而
写出分布列,应用二项分布的期望方差公式求期望和方差.
(1)由题意,有购买意愿的人数为 人,列联表如下:
有购买意愿 没有购买意愿 合计
男 16 14 30
女 44 16 60
合计 60 30 90
则 ,
所以没有 把握认为“购买意愿与性别”有关.
(2)由题意,抽取到对“冰墩墩有购买意愿”的概率是 ,
的可能值为{0,1,2,3,4}且 ,
,
,
,
从而X的分布列为
X 0 1 2 3 4
P
期望为 ,方差为 .
14.(2022·福建福州·三模)某种疾病可分为 , 两种类型,为了解该疾病的类型与患者性别是否相关,
在某地区随机抽取了若干名该疾病的患者进行调查,发现女性患者人数是男性患者的2倍,男性患 型疾
病的人数占男性患者的 ,女性患 型疾病的人数占女性患者的 .
(1)若本次调查得出“在犯错误的概率不超过0.005的前提下认为‘所患疾病的类型’与‘性别’有关”的
结论,求被调查的男性患者至少有多少人?
(2)某团队进行预防 型疾病的疫苗的研发试验,试验期间至多安排2个周期接种疫苗,每人每个周期接种
3次,每次接种费用为 元.该团队研发的疫苗每次接种后产生抗体的概率为 ,如果一个
周期内至少2次出现抗体,则该周期结束后终止试验,否则进人第二个周期.若 ,试验人数为1000人,
试估计该试验用于接种疫苗的总费用.
,
0.10 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【答案】(1)12人(2) 元
【分析】(1)设男性患者有 人,可得出 列联表,计算出卡方值,列出不等式可求解;
(2)可得该试验每人的接种费用可能取值为 , ,求出概率即可得出.
(1)设男性患者有 人,则女性患者有 人, 列联表如下:
型病 型病 合计
男
女
合计假设 :患者所患疾病类型与性别之间无关联,根据列联表中的数据,经计算得到
,
要使在犯错误的概率不超过0.005的前提下认为“所患疾病类型”与“性别”有关,
则 ,解得 ,
因为 , ,所以 的最小整数值为12,
因此,男性患者至少有12人.
(2)设该试验每人的接种费用为 元,则 的可能取值为 , .
则 ,
,
所以 ,
因为 ,试验人数为1000人,
所以该试验用于接种疫苗的总费用为 ,
即 元.
15.(2022·辽宁·二模)某初中为了了解学生对消防安全知识的掌握情况,开展了网上消防安全知识考试.
对参加考试的男生、女生各随机抽查40人,根据考试成绩,得到如下列联表:
女
男生 合计
生
考试成绩合格 30 20 50考试成绩不合
10 20 30
格
合计 40 40 80
(1)根据上面的列联表,判断能否有95%的把握认为考试成绩是否合格与性别有关;
(2)在考试成绩不合格的30人中按性别利用分层抽样的方法随机抽取6人,再从这6人中随机抽取3人,记
这3人中男生的人数为X,求X的分布列和数学期望.
附 ,其中 .
0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
【答案】(1)有95%的把握认为考试成绩是否合格与性别有关;(2)分布列见解析,1
【分析】(1)直接计算 ,再和3.841比较即可;
(2)先由分层抽样计算出男女生人数,再分别计算X为0,1,2的概率,列出分布列计算期望即可.
(1)由 ..
故有95%的把握认为考试成绩是否合格与性别有关;
(2)考试成绩不合格的30人,男生:女生为1:2,这6个中男生有2人,女生有4人,
可得X的可能取值为0,1,2,
有 ,
,
,
故随机变量X的分布列为
X 0 1 2
P有