当前位置:首页>文档>专题18统计与成对数据的统计分析(原卷版)_2.2025数学总复习_2024年新高考资料_1.2024一轮复习_2024年高考数学一轮复习知识清单(新高考专用)

专题18统计与成对数据的统计分析(原卷版)_2.2025数学总复习_2024年新高考资料_1.2024一轮复习_2024年高考数学一轮复习知识清单(新高考专用)

  • 2026-03-16 15:18:37 2026-03-16 13:44:38

文档预览

专题18统计与成对数据的统计分析(原卷版)_2.2025数学总复习_2024年新高考资料_1.2024一轮复习_2024年高考数学一轮复习知识清单(新高考专用)
专题18统计与成对数据的统计分析(原卷版)_2.2025数学总复习_2024年新高考资料_1.2024一轮复习_2024年高考数学一轮复习知识清单(新高考专用)
专题18统计与成对数据的统计分析(原卷版)_2.2025数学总复习_2024年新高考资料_1.2024一轮复习_2024年高考数学一轮复习知识清单(新高考专用)
专题18统计与成对数据的统计分析(原卷版)_2.2025数学总复习_2024年新高考资料_1.2024一轮复习_2024年高考数学一轮复习知识清单(新高考专用)
专题18统计与成对数据的统计分析(原卷版)_2.2025数学总复习_2024年新高考资料_1.2024一轮复习_2024年高考数学一轮复习知识清单(新高考专用)
专题18统计与成对数据的统计分析(原卷版)_2.2025数学总复习_2024年新高考资料_1.2024一轮复习_2024年高考数学一轮复习知识清单(新高考专用)
专题18统计与成对数据的统计分析(原卷版)_2.2025数学总复习_2024年新高考资料_1.2024一轮复习_2024年高考数学一轮复习知识清单(新高考专用)
专题18统计与成对数据的统计分析(原卷版)_2.2025数学总复习_2024年新高考资料_1.2024一轮复习_2024年高考数学一轮复习知识清单(新高考专用)
专题18统计与成对数据的统计分析(原卷版)_2.2025数学总复习_2024年新高考资料_1.2024一轮复习_2024年高考数学一轮复习知识清单(新高考专用)
专题18统计与成对数据的统计分析(原卷版)_2.2025数学总复习_2024年新高考资料_1.2024一轮复习_2024年高考数学一轮复习知识清单(新高考专用)
专题18统计与成对数据的统计分析(原卷版)_2.2025数学总复习_2024年新高考资料_1.2024一轮复习_2024年高考数学一轮复习知识清单(新高考专用)
专题18统计与成对数据的统计分析(原卷版)_2.2025数学总复习_2024年新高考资料_1.2024一轮复习_2024年高考数学一轮复习知识清单(新高考专用)
专题18统计与成对数据的统计分析(原卷版)_2.2025数学总复习_2024年新高考资料_1.2024一轮复习_2024年高考数学一轮复习知识清单(新高考专用)
专题18统计与成对数据的统计分析(原卷版)_2.2025数学总复习_2024年新高考资料_1.2024一轮复习_2024年高考数学一轮复习知识清单(新高考专用)
专题18统计与成对数据的统计分析(原卷版)_2.2025数学总复习_2024年新高考资料_1.2024一轮复习_2024年高考数学一轮复习知识清单(新高考专用)
专题18统计与成对数据的统计分析(原卷版)_2.2025数学总复习_2024年新高考资料_1.2024一轮复习_2024年高考数学一轮复习知识清单(新高考专用)
专题18统计与成对数据的统计分析(原卷版)_2.2025数学总复习_2024年新高考资料_1.2024一轮复习_2024年高考数学一轮复习知识清单(新高考专用)
专题18统计与成对数据的统计分析(原卷版)_2.2025数学总复习_2024年新高考资料_1.2024一轮复习_2024年高考数学一轮复习知识清单(新高考专用)

文档信息

文档格式
docx
文档大小
0.975 MB
文档页数
18 页
上传时间
2026-03-16 13:44:38

文档内容

专题 18 统计与成对数据的统计分析 一、知识速览 二、考点速览知识点1 随机抽样 1、抽样调查 (1)总体:统计中所考察对象的某一数值指标的全体构成的集合称为总体. (2)个体:构成总体的每一个元素叫做个体. (3)样本:从总体中抽取若干个个体进行考察,这若干个个体所构成的集合叫做总体的一个样本,样本 中个体的数目叫做样本容量. 2、简单随机抽样 (1)定义:一般地,设一个总体含有 个个体,从中逐个不放回地抽取 个个体作为样本( ),如 果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的 样本,叫做简单随机样本. (2)两种常用的简单随机抽样方法 ①抽签法:一般地,抽签法就是把总体中的 个个体编号,把号码写在号签上,将号签放在一个容器 中,搅拌均匀后,每次从中抽取一个号签,连续抽取 次,就得到一个容量为 的样本.适用于总体个数 较少的情况。 ②随机数法:即利用随机数表、随机数骰子或计算机产生的随机数进行抽样.这里仅介绍随机数表法. 随机数表由数字 , , ,…, 组成,并且每个数字在表中各个位置出现的机会都是一样的.适用于总 体个数较多的情况,但是当总体容量很大时,需要的样本容量也很大时,利用随机数法抽取样本仍不方便. (3)简单随机抽样的特征(只有四个特点都满足的抽样才是简单随机抽样) ①有限性:简单随机抽样要求被抽取的样本的总体个数是有限的,便于通过样本对总体进行分析. ②逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作. ③不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算. ④等可能性:简单单随机抽样中各个个体被抽到的机会都相等,从而保证了抽样方法的公平. 3、分层抽样 (1)定义:一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一 定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样. 分层抽样适用于已知总体是由差异明显的几部分组成的. (2)分层抽样问题类型及解题思路 ①求某层应抽个体数量:按该层所占总体的比例计算. ②已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算. ③分层抽样的计算应根据抽样比构造方程求解,其中“抽样比==” 【注意】分层抽样时,每层抽取的个体可以不一样多,但必须满足抽取 ( )个个体 (其中 是层数, 是抽取的样本容量, 是第 层中个体的个数, 是总体容量).知识点2 用样本估计总体 1、频率分布直方图 (1)频率、频数、样本容量的计算方法 ①×组距=频率. ②=频率,=样本容量,样本容量×频率=频数. ③频率分布直方图中各个小方形的面积总和等于 . (2)频率分布直方图中数字特征的计算 ①最高的小长方形底边中点的横坐标即是众数. ②中位数左边和右边的小长方形的面积和是相等的.设中位数为 ,利用 左(右)侧矩形面积之和 等于 ,即可求出 . ③平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形 底边中点的横坐标之和,即有 ,其中 为每个小长方形底边的中点, 为每个小 长方形的面积. 2、百分位数 (1)定义:一组数据的第 百分位数是这样一个值,它使得这组数据中至少有 的数据小于或等于这个 值,且至少有 的数据大于或等于这个值. (2)计算一组 个数据的的第 百分位数的步骤 ①按从小到大排列原始数据. ②计算 . ③若 不是整数而大于 的比邻整数 ,则第 百分位数为第 项数据;若 是整数,则第 百分位数 为第 项与第 项数据的平均数. (3)四分位数:我们之前学过的中位数,相当于是第 百分位数.在实际应用中,除了中位数外,常用 的分位数还有第 百分位数,第 百分位数.这三个分位数把一组由小到大排列后的数据分成四等份, 因此称为四分位数. 3、样本的数字特征 (1)众数、中位数、平均数 ①众数:一组数据中出现次数最多的数叫众数,众数反应一组数据的多数水平. ②中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间两个数据的平 均数)叫做这组数据的中位数,中位数反应一组数据的中间水平. ③平均数: 个样本数据 的平均数为 ,反应一组数据的平均水平,公式 变形: . (2)标准差和方差 ①标准差:标准差是样本数据到平均数的一种平均距离,一般用 表示.假设样本数据是 ,表示这组数据的平均数,则标准差 . ②方差:方差就是标准差的平方,即 .显然,在刻画样本数 据的分散程度上,方差与标准差是一样的.在解决实际问题时,多采用标准差. 【注意】标准差、方差描述了一组数据围绕平均数波动程度的大小.标准差、方差越大,则数据的离散程 度越大;标准差、方差越小,数据的离散程度越小.反之亦可由离散程度的大小推算标准差、方差的大小. ③平均数、方差的性质:如果数据 的平均数为 ,方差为 ,那么 一组新数据 的平均数为 ,方差是 . 一新数据 的平均数为 ,方差是 . 一组新数据 的平均数为 ,方差是 . 知识点3 成对数据的统计分析 1、两个变量的线性相关 (1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将 它称为正相关. (2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变 量之间具有线性相关关系,这条直线叫做回归直线. 2、回归分析与回归方程 (1)回归分析的定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (3)回归方程:对于一组具有线性相关关系的数据(x ,y ),(x ,y ),…,(x ,y ),其回归方程 1 1 2 2 n n 的求法为 其中, , ,( , )称为样本点的中心. (3)相关系数 若相应于变量 的取值 ,变量 的观测值为 , 则变量 与 的相关系数 ,通常用 来衡量 与 之间的线性关系的强弱, 的范围为 . ①当 时,表示两个变量正相关;当 时,表示两个变量负相关. ② 越接近 ,表示两个变量的线性相关性越强; 越接近 ,表示两个变量间几乎不存在线性相关 关系.当 时,所有数据点都在一条直线上. ③通常当 时,认为两个变量具有很强的线性相关关系. 3、残差分析 对于预报变量 ,通过观测得到的数据称为观测值 ,通过回归方程得到的 称为预测值,观测值减去预 测值等于残差, 称为相应于点 的残差,即有 . 残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存 在可疑数据等,这方面工作称为残差分析. (1)残差图:通过残差分析,残差点 比较均匀地落在水平的带状区域中,说明选用的模型比较合 适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适. (2)通过残差平方和 分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反 之,不合适. (3)相关指数:用相关指数来刻画回归的效果,其计算公式是: . 越接近于 ,说明残差的平方和越小,也表示回归的效果越好. 4、独立性检验 (1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表: ①定义:列出的两个分类变量的频数表称为列联表. ②2×2列联表:假设有两个分类变量X和Y,它们的可能取值分别为{x ,x}和{y ,y},其样本频数 1 2 1 2 列联表(称为2×2列联表)为2×2列联表 总计 总计 (3)独立性检验:计算随机变量 利用 的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验. 0.10 0.05 0.010 0.005 0.001 2.706 3.841 6.635 7.879 10.828 一、应用随机数法的两个关键点 1、确定以表中的哪个数(哪行哪列)为起点,以哪个方向为读数的方向; 2、读数时注意结合编号特点进行读取.若编号为两位数字,则两位两位地读取;若编号为三位数字,则 三位三位地读取,有超过总体号码或出现重复号码的数字舍去,这样继续下去,直到获取整个样本. 【典例1】(2023·宁夏银川·银川一中校考一模)对 件样品进行编号 , , , ,在如下随机 数表中,指定从第 行第 列开始,从左往右抽取两个数字,抽取 个编号,则抽到的第 个编号是( ) A. B. C. D. 【典例2】(2023上·上海·高三控江中学校考阶段练习)总体由编号为 、 、 、 、 的 个个体 组成,利用随机数表从中抽取 个个体,下面提供随机数表的第 行到第 行: 若从表中第 行第 列开始向右依次读取,则抽取的第 个个体的编号是 . 二、解决分层抽样的常用公式 先确定抽样比,然后把各层个体数乘以抽样比,即得各层要抽取的个体数. (1)抽样比==; (2)层1的容量∶层2的容量∶层3的容量=样本中层1的容量∶样本中层2的容量∶样本中层3的容量. 【典例1】(2023上·湖北武汉·高三武钢三中校考阶段练习)某企业为了解员工身体健康情况,采用分层 随机抽样的方法从该企业的营销部门和研发部门抽取部分员工体检.已知该企业营销部门和研发部门的员工 人数之比是 ,且被抽到参加体检的员工中,营销部门的人数比研发部门的人数多72,则参加体检的人 数是( )A.90 B.96 C.108 D.144 【典例2】(2023·山东潍坊·统考模拟预测)某高中学校共有学生3600人,为了解某次数学文化知识竞赛 的得分情况,采用分层抽样的方法从这3600名学生中抽取一个容量为48的样本,若从高一、高二、高三 抽取的人数组成一个以4为公差的等差数列,则该学校高三年级的学生人数为 人. 三、频率分布直方图的计算 1、由频率分布直方图进行相关计算需掌握的2个关系式 (1)×组距=频率. (2)=频率,此关系式的变形为=样本容量,样本容量×频率=频数. 2、利用频率分布直方图估计样本的数字特征的方法 (1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数的值. (2)平均数:平均数的估计值等于每个小矩形的面积乘以矩形底边中点横坐标之和. (3)众数:最高的矩形的中点的横坐标. 【典例1】(2023上·贵州黔东南·高三天柱民族中学校联考阶段练习)(多选)某工厂为了了解一批产品 的质量,从中随机抽取了100件产品测量其长度,所得数据都在区间 中,其频率分布直方图如图所 示,则( ) A. B.估计产品长度的样本数据的 分位数是 C.估计产品长度的样本数据的众数是 D.估计产品长度的样本数据的平均数是 【典例2】(2023上·云南昆明·高三校考阶段练习)(多选)在一次考试中,某地抽取一组样本,将学生 的考分按 , ,…, 分成10组,得到如下频率分布直方图:根据频率分布直方图,则下列结论正确的是( ) A.规定分数不低于60分为及格,则及格率为0.6 B.样本的中位数为60 C.以频率作为概率,每组数据区间中点作代表,估计该地此次考试的平均分为60分 D.规定此次考试80%的考生定为合格等级,则合格等级的学生最低分为40分 四、百分位数的计算 计算一组 个数据的的第 百分位数的步骤 ①按从小到大排列原始数据. ②计算 . ③若 不是整数而大于 的比邻整数 ,则第 百分位数为第 项数据;若 是整数,则第 百分位数为第 项与第 项数据的平均数. 【典例1】(2023上·陕西榆林·高三子洲中学校考期中)某校高一年级18个班参加艺术节合唱比赛,通过 简单随机抽样,获得了10个班的比赛得分如下:91,89,90,92,94,87,93,96,91,85,则这组数据 的80%分位数为( ) A.92 B.93 C.92.5 D.93.5 【典例2】(2023上·广东惠州·高三统考阶段练习)在一次篮球比赛中,某支球队共进行了8场比赛,得 分分别为:29,30,38,25,37,40,42,32,那么这组数据的第75百分位数为( ) A.37.5 B.38 C.39 D.40 五、用样本的数字特征估计总体的数字特征 利用样本的数字特征解决优化决策问题的依据 (1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、 方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定. (2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.【典例1】(2023上·云南楚雄·高三统考期中)现有一组数据 , , , , 的平均数为8,若随机 去掉一个数 ( ,2,3,4,5)后,余下的四个数的平均数为9,则下列说法正确的是( ) A.余下四个数的极差比原来五个数的极差更小 B.余下四个数的中位数比原来五个数的中位数更 大 C.余下四个数的最小值比原来五个数的最小值更大 D.去掉的数一定是4 【典例2】(2023·浙江金华·校联考模拟预测)有一组样本数据 ,则( ) A.这组样本数据的极差不小于4 B.这组样本数据的平均数不小于4 C.这组样本数据的中位数不小于3 D.这组样本数据的众数等于3 【典例3】(2023·全国·校联考模拟预测)已知样本数据 都为正数,其方差 ,则样本数据 、 、 、 、 的平均数为 . 六、判断相关关系的2种方法 1、散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本 点都落在某一直线附近,变量之间就有线性相关关系; 2、相关系数法:利用相关系数判定,当|r|越趋近于1时,相关性越强 【典例1】(2023·浙江杭州·统考二模)某兴趣小组研究光照时长x(h)和向日葵种子发芽数量y(颗)之 间的关系,采集5组数据,作如图所示的散点图.若去掉 后,下列说法正确的是( ) A.相关系数r变小 B.决定系数 变小 C.残差平方和变大 D.解释变量x与预报变量y的相关性变强 【典例2】(2023上·天津蓟州·高三校考开学考试)对两个变量 , 进行线性相关检验,得线性相关系数,对两个变量 , 进行线性相关检验,得线性相关系数 ,则下列判断正确的是( ) A.变量 与 正相关,变量 与 负相关,变量 与 的线性相关性较强 B.变量 与 负相关,变量 与 正相关,变量 与 的线性相关性较强 C.变量 与 正相关,变量 与 负相关,变量 与 的线性相关性较强 D.变量 与 负相关,变量 与 正相关,变量 与 的线性相关性较强 七、线性回归分析问题的类型及解题方法 1、求回归直线方程 ①计算出,,,y或(x-)(y-),(x-)2的值; i i i i i ②利用公式计算回归系数a,b; ③写出回归直线方程y=bx+a. 2、回归模型的拟合效果:利用相关系数r判断,当|r|越趋近于1时,两变量的线性相关性越强. 【典例1】(2023·江西景德镇·统考一模)对某位运动员近5次比赛成绩统计如下表: 比赛次数x 1 2 3 4 5 4 4 得分y 39 48 50 0 8 根据表可得y关于x的线性回归方程为: ,则下列说法不正确的是( ) A. B.y与x的相关系数 C.得分y的方差为22.8 D.预测第6次比赛成绩约为54 【典例2】(2023上·广东广州·高三广东广雅中学校考阶段练习)新冠肺炎疫情发生以来,中医药全面参 与疫情防控救治,做出了重要贡献.某中医药企业根据市场调研与模拟,得到研发投入 (亿元)与产品收 益 (亿元)的数据统计如下: 研发投入 (亿元) 1 2 3 4 5 产品收益 (亿 3 7 9 10 11 元) (1)计算 , 的相关系数 ,并判断是否可以认为研发投入与产品收益具有较高的线性相关程度?(若 ,则线性相关程度一般,若 ,则线性相关程度较高) (2)求出 关于 的线性回归方程,并预测若想收益超过50(亿元)则需研发投入至少多少亿元?(结果 保留一位小数)参考数据: , .附:相关系数公式: , 回归直线方程的斜率 ,截距 . 八、非线性回归分析的求法 (1)根据原始数据作出散点图; (2)根据散点图选择恰当的拟合函数; (3)作恰当变换,将其转化成线性函数,求线性回归方程; (4)在(3)的基础上通过相应变换,即可得非线性回归方程. 【典例1】(2023上·重庆渝中·高三统考期中)当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为 代表的新一代信息技术迅猛发展,现收集某地近6年区块链企业总数量相关数据,如下表: 年份 2017 2018 2019 2020 2021 2022 编号 1 2 3 4 5 6 企业总数量 (单位:百 50 78 124 121 137 352 个) (1)若用模型 拟合 与 的关系,根据提供的数据,求出 与 的经验回归方程; (2)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三 家区块链公司参赛.比赛规则如下:①每场比赛有两个公司参加,并决出胜负;②每场比赛获胜的公司与 未参加此场比赛的公司进行下一场的比赛;③在比赛中,若有一个公司首先获胜两场,则本次比赛结束, 该公司获得此次信息化比赛的“优胜公司”.已知在每场比赛中,甲胜乙的概率为 ,甲胜丙的概率为 , 乙胜丙的概率为 ,若首场由甲乙比赛,求甲公司获得“优胜公司”的概率. 参考数据: ,其中, 参考公式:对于一组数据 ,其经验回归直线 的斜率和截距的最小二乘估计 分别为【典例2】(2023·广西南宁·南宁三中校考一模)数据显示中国车载音乐已步入快速发展期,随着车载音乐 的商业化模式进一步完善,市场将持续扩大,下表为2018-2022年中国车载音乐市场规模(单位:十亿 元),其中年份2018—2022对应的代码分别为1-5. 年份代码 1 2 3 4 5 车载音乐市场规模 2.8 3.9 7.3 12.0 17.0 (1)由上表数据知,可用指数函数模型 拟合 与 的关系,请建立 关于 的回归方程; (2)根据上述数据求得 关于 的回归方程后,预测2024年的中国车载音乐市场规模. 参考数据: 1.94 33.82 1.7 1.6 26.84 其中 , . 参考公式:对于一组数据 , , , 其回归直线 的斜率和截距的最小二乘法 估计公式分别为 , . 九、独立性检验的一般步骤 (1)根据样本数据制成2×2列联表. (2)根据公式 计算. (3)比较 与临界值的大小关系,作统计推断. 【典例1】(2023上·江西抚州·高三校考期中)“一带一路”是促进各国共同发展,实现共同繁荣的合作 共赢之路.为了了解我国与某国在“一带一路”合作中两国的贸易量情况,随机抽查了100天进口贸易量与 出口贸易量(单位:亿人民币/天)得下表: 进口 出口 32 18 46 8 12 3 7 10 附: . 0.050 0.010 0.001 3.841 6.635 10.828 (1)估计事件“我国与该国贸易中,一天的进口贸易量与出口贸易量均不超过100亿人民币”的概率; (2)根据所给数据,完成下面的 列联表: 进口 出口 (3)根据(2)中的列联表,判断是否有99%的把握认为“我国与该国贸易中一天的进口贸易量与出口贸易 量”有关? 【典例2】(2023上·四川成都·高三四川省成都列五中学校考阶段练习)最近,纪录片《美国工厂》引起 中美观众热议,大家都认识到,大力发展制造业,是国家强盛的基础,而产业工人的年龄老化成为阻碍美 国制造业发展的障碍,中国应未雨绸缪.某工厂有35周岁以上(含35周岁)工人300名,35周岁以下工人 200名,为研究工人的日平均生产量是否与年龄有关.现采用分层抽样的方法,从中抽取了100名工人,先 统计了他们某月的日平均生产件数,然后按工人年龄在“35周岁以上(含35周岁)”和“35周岁以下”分为 两组,在将两组工人的日平均生产件数分成5组: 分别加以统计,得 到如图所示的频率分布直方图.,附表: 0.15 0.10 0.05 0.025 0.010 0.005 0.001 2.072 2.706 3.841 5.024 6.635 7.879 10.828 (1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“35周岁以下组”工人 的概率. (2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成 的列联表,并判断 是否有95%的把握认为“生产能手与工人所在的年龄组有关”? 生产能手 非生产能手 合计 35岁以下 35岁以上 合计 易错点1 对统计图表中的概念理解不清,识图不准确 点拨:求解统计图表问题,重要的是认真观察图表,发现有用信息和数据。对于频率分布直方图,应注意 图中的每一个小矩形的面积是落在该区间上的频率,所有小矩形的面积和为 1,当小矩形等高时,说明频 率相等,计算时不要漏掉其中一个. 【典例1】(2023下·河北秦皇岛·高三校联考开学考试)(多选)下图反映2017年到2022年6月我国国有企业营业总收入及增速统计情况: 2017年到2022年6月国有企业营业总收入及增速统计图 根据图中的信息,下列说法错误的是( ) A.2017-2022年我国国有企业营业总收入逐年增加 B.2017-2022年我国国有企业营业总收入逐年下降 C.2017-2021年中,我国国有企业营业总收入增速最快的是2021年 D.2017-2021年我国国有企业营业总收入的平均数大于630000亿元 【典例2】(2023上·云南曲靖·高三校考阶段练习)(多选)在某市高二年级举行的一次体育统考中,共 有10000名考生参加考试.为了解考生的成绩情况,随机抽取了 名考生的成绩,其成绩均在区间 , 按照 分组作出如图所示的频率分布直方图.若在样本中,成绩落 在区间 的人数为32,则( ) A. B.考生成绩的中位数为71 C.考生成绩的第70百分位数为75 D.估计该市考生成绩的平均分为70.6(每组数据以区间的中点值为代表) 【典例3】(2023·河南·校联考二模)某银行为客户定制了A,B,C,D,E共5个理财产品,并对5个理财产品的持有客户进行抽样调查,得出如下的统计图: 用该样本估计总体,以下四个说法错误的是( ) A.44~56周岁人群理财人数最多 B.18~30周岁人群理财总费用最少 C.B理财产品更受理财人青睐 D.年龄越大的年龄段的人均理财费用越高 易错点2 对样本数字特征认识不到位 点拨:统计学的另一基本思想是通过科学合理地获取样本,再通过对样本数据的处理,用样本数字特征去 估计总体的相应数字特征。对此我们要有一个辩证的理解,即有时会出现偏差,而解决这一问题的方法是 适度增加样本容量,当样本容量越大,它对总体接近程度越大,可信度越高。 【典例1】(2023上·山东济南·高三统考期末)(多选)有一组样本数据 ,其样本平均数为 . 现加入一个新数据 ,且 ,组成新的样本数据 ,与原样本数据相比,新的样本数 据可能( ) A.平均数不变 B.众数不变 C.极差变小 D.第20百分位数变大 【典例2】(2023上·湖南·高三校联考阶段练习)(多选)已知数据 成公差大于0的等差数列, 若去掉数据 ,则( ) A.极差不变 B.第25百分位数变大 C.平均数不变 D.方差变小 【典例3】(2023上·广西玉林·高三校联考开学考试)(多选)已知一组样本数据 ,现有两组新数据:第①组数据 和第②组数据 ,则与原数据相比,下列说法正确的是( ) A.第①组数据中位数不变 B.第①组数据平均数不变或变大C.第②组数据极差变小 D.第②组数据方差变小 易错点3 求解独立性检验问题对 的值理解不准确 点拨: 构造一个随机变量 ,其中 为样本容量.如果 的观测值 ,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”. 我们称这样的 为一个判断规则的临界值. 【典例1】(2023·陕西榆林·统考三模)若由一个 列联表中的数据计算得 ,则( ) 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 A.能有 的把握认为这两个变量有关系 B.能有 的把握认为这两个变量没有关系 C.能有 的把握认为这两个变量有关系 D.能有 的把握认为这两个变量没有关系 【典例2】(2022·河南·校联考模拟预测)为考察一种新药预防疾病的效果,某科研小组进行动物实验,收 集整理数据后将所得结果填入相应的 列联表中,由列联表中的数据计算得 .参照附表,下列 结论正确的是( ) 附表: 0.050 0.025 0.010 0.005 0.001 3.841 5.02 6.635 7.879 10.828 A.在犯错误的概率不超过0.1%的前提下,认为“药物有效” B.在犯错误的概率不超过0.1%的前提下,认为“药物无效” C.有99%以上的把握认为“药物有效” D.有99%以上的把握认为“药物无效” 【典例3】(2023·广东深圳·深圳中学统考模拟预测)(多选)某研究机构为了探究吸烟与肺气肿是否有关,调查了200人.统计过程中发现随机从这200人中抽取一人,此人为肺气肿患者的概率为0.1.在制定 列 联表时,由于某些因素缺失了部分数据,而获得如图所示的 列联表,下列结论正确的是( ) 患肺气肿 不患肺气肿 合计 吸烟 15 不吸烟 120 合计 200 参考公式与临界值表: 0.100 0.050 0.025 0.010 0.001 2.706 3.841 5.024 6.635 10.828 A.不吸烟患肺气肿的人数为5人 B.200人中患肺气肿的人数为10人 C. 的观测值 D.按99.9%的可靠性要求,可以认为“吸烟与肺气肿有关 系”