当前位置:首页>文档>专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)

专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)

  • 2026-03-18 10:35:52 2026-03-18 09:29:22

文档预览

专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)
专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)
专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)
专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)
专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)
专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)
专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)
专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)
专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)
专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)
专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)
专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)
专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)
专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)
专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)
专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)
专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)
专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)
专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)
专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)
专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)
专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)
专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)
专题9.7成对数据的统计分析(解析版)_2.2025数学总复习_2024年新高考资料_3.2024专项复习_更新中2024年新高考数学一轮复习之题型归纳与重难专题突破提升(新高考专用)

文档信息

文档格式
docx
文档大小
1.377 MB
文档页数
24 页
上传时间
2026-03-18 09:29:22

文档内容

专题 9.7 成对数据的统计分析 目录 题型一: 依据散点图进行相关性的判断......................................................................................3 题型二: 一元线性回归模型...........................................................................................................5 题型三: 非线性回归模型...............................................................................................................9 题型四: 独立性检验的基本原理................................................................................................15 题型五: 独立性检验的实际应用................................................................................................18 知识点总结 知识点一、变量的相关关系 (1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程 度,这种关系称为相关关系. (2)相关关系的分类:正相关和负相关. (3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线 附近,我们称这两个变量线性相关. 知识点二、样本相关系数 (1)r=. (2)当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关. (3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本 数据的线性相关程度越弱. 知识点三、一元线性回归模型(1)我们将y=bx+a称为y关于x的经验回归方程,其中 (2)残差:观测值减去预测值,称为残差. 知识点四、列联表与独立性检验 (1)关于分类变量X和Y的抽样数据的2×2列联表: Y X 合计 Y=0 Y=1 X=0 a b a+b X=1 c d c+d 合计 a+c b+d n=a+b+c+d (2)计算随机变量χ2=,其中n=a+b+c+d,利用χ2的取值推断分类变量X和Y是否独立 的方法称为χ2独立性检验. α 0.1 0.05 0.01 0.005 0.001 x 2.706 3.841 6.635 7.879 10.828 α 【常用结论与知识拓展】 1.经验回归直线过点(,). 2.求b时,常用公式b=. 3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能 犯错误. 例题精讲题型一:依据散点图进行相关性的判断 【要点讲解】依据散点图判断相关性的基本策略:(1)观察点的分布趋势,若点的分布从左 下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关;(2)观察 点的分布状态(形状),若点的分布成密集型带状区域且带状区域越“狭窄”,线性相关性 越强;反之,线性相关性越弱. 【例1】张大爷种植了10亩小麦,每亩施肥 千克,小麦总产量为 千克,则 A. , 之间有依赖关系 B. , 之间有函数关系 C. 是 的函数 D. 是 的函数 【解答】解:小麦的总产量与种子、施肥量、水、日照时间等因素有相关关系,但不一定 是函数关系. 故选: . 【变式训练1】调查某种花萼长度和花瓣长度,所得数据如图所示,其中相关系数 ,下列说法正确的是 A.花瓣长度和花萼长度没有相关性 B.花瓣长度和花萼长度呈现负相关 C.花瓣长度和花萼长度呈现正相关 D.若从样本中抽取一部分,则这部分的相关系数一定是0.8245 【解答】解: 相关系数 ,且散点图呈左下角到右上角的带状分布, 花瓣长度和花萼长度呈正相关. 若从样本中抽取一部分,则这部分的相关系数不一定是0.8245. 故选: . 【变式训练2】如图,5个 数据,去掉 后,下列说法正确的是A.样本相关系数 变小 B.残差平方和变大 C.决定系数 变大 D.解释变量 与响应变量 的相关性变弱 【解答】解:由散点图可知,只有 偏离直线最远, 当去掉 后, 和 的相关性变强,且为正相关, 所以 变大, 变大,残差平方和变小. 故选: . 【变式训练3】下列说法错误的是 A.决定系数 越大,模型的拟合效果越好 B.若变量 和 之间的样本相关系数为 ,则变量 和 之间的负相关很强 C.残差平方和越小的模型,拟合的效果越好 D.在经验回归方程 中,当解释变量 每增加1个单位时,响应变量平均增 加2个单位 【解答】解:对于选项 :决定系数 越大,模型的拟合效果越好,故选项 正确; 对于选项 :若变量 和 之间的样本相关系数为 , 则变量 和 之间的负相关很强,故选项 正确; 对于选项 :残差平方和越小的模型,拟合的效果越好,故选项 正确; 对于选项 :在经验回归方程 中,当解释变量 每增加1个单位时,响应变量 平均减少2个单位,故选项 错误. 故选: . 题型二:一元线性回归模型 【要点讲解】(1)线性经验回归方程的重要应用是进行估计. (2)牢记求线性经验回归方程的步骤:第一步,列表;第二步,计算,,y,或(x-)(y-), i i i i (x-)2;第三步,代入公式求b,再利用a=-b求a;第四步,写出经验回归方程. i 【例2】当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为代表的新一代信息技术迅 猛发展,现收集某地近6年区块链企业总数量相关数据,如下表: 年份 2017 2018 2019 2020 2021 2022 编号 1 2 3 4 5 6 企业总数量 50 78 124 121 137 352 (单位: 百个) (1)若用模型 拟合 与 的关系,根据提供的数据,求出 与 的经验回归方程; (2)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请 甲、乙、丙三家区块链公司参赛.比赛规则如下:①每场比赛有两个公司参加,并决出胜 负;②每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;③在比赛中,若 有一个公司首先获胜两场,则本次比赛结束,该公司获得此次信息化比赛的“优胜公司” 已知在每场比赛中,甲胜乙的概率为 ,甲胜丙的概率为 ,乙胜丙的概率为 ,若首场 由甲乙比赛,求甲公司获得“优胜公司”的概率. 参考数据: ,其中, 参考公式:对于一组数据 , ,2,3, , ,其经验回归直线 的斜率和截距的最小二乘估计分别为 【解答】解:(1)令 , , , 则 , , 所以 ,所以 ; (2)设甲公司获得“优胜公司”为事件 , 则 , 所以甲公司获得“优胜公司”的概率为 . 【变式训练1】某公司对其产品研发的年投资额 (单位:百万元)与其年销售量 (单位: 千件)的数据进行统计,整理后得到如下统计表: 1 2 3 4 5 1.5 2 3.5 8 15 (1)求变量 和 的样本相关系数 (精确到 ,并推断变量 和 的线性相关程度; (若 ,则线性相关性程度很强;若 ,则线性相关性程度一般,若 ,则线性相关性程度很弱. (2)求年销售量 关于年投资额 的经验回归方程.并预测投资额为700万无时的销售量. (参考:参 考 : , , . 【解答】解:(1)由题意, , , , , , , , 变量 和 的线性相关程度很强. (2) , , 年销售量 关于年投资额 的线性回归方程为 , 当 时, , 所以研发的年投资额为700万元时,产品的年销售量约为19.2千件. 【变式训练2】某商场举办为期一周的店庆购物优惠活动,不仅购物有优惠,还有抽奖活动. (1)已知该商场前5天店庆活动当天成交额如表所示:天 1 2 3 4 5 成交额(万元) 9 12 17 21 27 求成交额 (万元)与时间变量 的线性回归方程,并预测活动第6天的成交额(万元); (2)小明分别获得 、 两店的抽奖机会各一次,且抽奖成功的概率分别为 、 ,两 次抽奖结果互不影响.记小明中奖的次数为 .求 的分布列及 ; 附:对于一组具有线性相关关系的数据 , , , , , , ,其回归直线 的斜率和截距的最小二乘估计分别为 , . 【解答】(1)易知 , , 而 , , 可得 , 则 , 所以 关于 的线性回归方程为 , 当 时, (万元), 所以预测活动第6天的成交额为30.7万元; (2)易知 的所有可能取值为0,1,2, 此时 , , , 则 的分布列为:0 1 2 故 . 题型三:非线性回归模型 【要点讲解】对于非线性回归模型的处理策略:(1)基本的解题思想是转化与化归思想,即 将“非线性”转化为“线性”模型;(2)观察题目中参考数据的“形式特征”结合题目所给 拟合函数的特征分析,通常采用方法是“换元法”和“取对数法”等. 【例3】红蜘蛛是柚子的主要害虫之一,能对柚子树造成严重伤害,每只红蜘蛛的平均产卵 数 (个 和平均温度 有关,现收集了以往某地的7组数据,得到下面的散点图及一 些统计量的值. 参考数据 5215 17713 714 27 81.3 3.6 (1)根据散点图判断, 与 (其中 为自然对数的底数)哪一个 更适合作为平均产卵数 (个 关于平均温度 的回归方程类型?(给出判断即可,不 必说明理由) (2)由(1)的判断结果及表中数据,求出 关于 的回归方程.(计算结果精确到 附:回归方程 , , (3)根据以往每年平均气温以及对果园年产值的统计,得到以下数据:平均气温在 以下的年数占 ,对柚子产量影响不大,不需要采取防虫措施;平均气温在 至的年数占 ,柚子产量会下降 ;平均气温在 以上的年数占 ,柚子产 量会下降 .为了更好的防治红蜘蛛虫害,农科所研发出各种防害措施供果农选择. 在每年价格不变,无虫害的情况下,某果园年产值为 200万元,根据以上数据,以得到最 高收益(收益 产值 防害费用)为目标,请为果农从以下几个方案中推荐最佳防害方案, 并说明理由. 方案1:选择防害措施 ,可以防止各种气温的红蜘蛛虫害不减产,费用是18万; 方案2:选择防害措施 ,可以防治 至 的蜘蛛虫害,但无法防治 以上的红 蜘蛛虫害,费用是10万; 方案3:不采取防虫害措施. 【解答】解:(1)由散点图可知, 更适宜作为平均产卵数 关于平均温度 的回 归方程类型; (2)对 两边同时取对数, 可得 , 易知 , , 所以 , 此时 , 所以 关于 的线性回归方程为 ,则 关于 的回归方程为 ; (3)不妨设 , 和 分别表示选择三种方案的收益, 若采用第1种方案,无论气温如何,产值不受影响, 此时收益为 万, 则 , 若采用第2种方案,如果不发生 以上的红蜘蛛虫害,收益为 万, 如果发生,收益为 万, 此时 , 若采用第3种方案,如果不发生虫害,收益为200万, 如果只发生 的虫害,收益为 万, 如果发生 以上虫害,收益为 万, 此时 , 所以 , , . 因为 , 所以 最大, 则选择方案1最合适. 【变式训练1】红蜘蛛是柚子的主要害虫之一,能对柚子树造成严重伤害,每只红蜘蛛的平均产卵数 (个 和平均温度 有关,现收集了以往某地的7组数据,得到下面的散点 图及一些统计量的值. (1)根据散点图判断, 与 (其中 为自然对数的底数)哪一个 更适合作为平均产卵数 (个 关于平均温度 的回归方程类型? (2)由(1)的判断结果及表中数据,求出 关于 的回归方程.(计算结果精确到 附:回归方程 中, , . 参考数据 5215 17713 717 27 81.3 3.6 (3)根据以往每年平均气温以及对果园年产值的统计,得到以下数据:平均气温在 以下的年数占 ,对柚子产量影响不大,不需要采取防虫措施;平均气温在 至 的年数占 ,柚子产量会下降 ;平均气温在 以上的年数占 ,柚子产 量会下降 、为了更好的防治红蜘蛛虫害,农科所研发出各种防害措施供果农选择. 在每年价格不变,无虫害的情况下,某果园年产值为 200万元,根据以上数据,以得到最 高收益(收益 产值 防害费用)为目标,请为果农从以下几个方案中推荐最佳防害方案, 并说明理由. 方案1:选择防害措施 ,可以防止各种气温的红蜘蛛虫害不减产,费用是18万; 方案2:选择防害措施 ,可以防治 至 的蜘蛛虫害,但无法防治 以上的红 蜘蛛虫害,费用是10万; 方案3:不采取防虫害措施.【解答】解:(1)由散点图可以判断 更适宜作为平均产卵数 关于平均温度 的 回归方程类型; (2)将 两边同时取对数, 可得 , 易知 , , 所以 , 则 , 则 关于 的回归方程为 ; (3)不妨用 , , 分别表示选择三种方案的收益, 若采用第1种方案,无论气温如何,产值不受影响,收益为 万, 即 ; 若采用第2种方案,在不发生 以上的红蜘蛛虫害,收益为 万, 如果发生,则收益为 万, 即 ;若采用第3种方案, 可得 , 所以 , , , 因为 , 所以选择方案1最佳. 【变式训练2】中国茶文化博大精深,饮茶深受大众喜爱,茶水的口感与茶叶类型和水的温 度有关,某数学建模小组为了获得茶水温度 (单位: 关于时间 (单位: 的回 归方程模型,通过实验收集在 室温,用同一温度的水冲泡的条件下,茶水温度随时间 变化的7组数据,并对数据做初步处理得到如图所示散点图以及如表所示数据. 73.5 3.85 表中: , . (1)根据散点图判断,① 与② 哪一个更适宜作为该茶水温度 关 于时间 的回归方程类型?(给出判断即可,不必说明理由)请根据你的判断结果及表中 数据建立该茶水温度 关于时间 的回归方程; (2)已知该茶水温度降至 口感最佳,根据(1)中的回归方程,求在相同条件下冲泡 的茶水,大约需要放置多长时间才能达到最佳饮用口感?附:(1)对于一组数据 , , , , , ,其回归直线 的斜率 和截距的最小二乘估计分别为 , ; (2)参考数据: , , , , 【解答】解:(1)更适宜的回归方程为② , 由 ,可得 , 两边取自然对数,得 , 令 , , , 则 , 计算得 , 所以 , 结合表中数据,可得 , 所以 , 所以 , ,所以茶水温度 关于时间 的回归方程为 ; (2)由题意可知, 室温下,茶水温度降至60摄氏度口感最佳, 即 , 所以 , 解得 , 故在室温下,刚泡好的茶水大约需要放置 才能达到最佳引用口感. 题型四:独立性检验的基本原理 【要点讲解】独立性检验的基本原理是根据观测值与期望值的差异的大小作出推断,这种 差异由χ2统计量进行刻画,其大小的标准根据推理有关联时犯错误的概率确定. 独立性检验的依据是小概率原理,即小概率事件在一次试验中几乎不可能发生.在零假设 成立的条件下,若一个不利于零假设的小概率事件在一次试验中发生了,则有理由拒绝零 假设;若在一次试验中,此小概率事件没有发生,则没有充足的理由拒绝零假设,通常会 接受零假设. 【例4】某中学为调查高一年级学生的选科倾向,随机抽取了300人,其中选考物理的有 220人,选考历史的有80人,统计各选科人数如表所示: 选考类别 选择科目 思想政治 地理 化学 生物 物理类 80 100 145 115 历史类 50 45 30 35 参考数据: ,其中 . 附表: 0.10 0.05 0.010 0.005 0.001 2.706 3.841 6.635 7.879 10.828 则下列说法中正确的是 A.选考物理类的学生中选择政治的比例比选考历史类的学生中选择政治的比例高B.选考物理类的学生中选择地理的比例比选考历史类的学生中选择地理的比例高 C.参照附表,根据小概率值 的独立性检验,我们认为选择生物与选考类别无关 D.参照附表,根据小概率值 的独立性检验,我们认为选择生物与选考类别有关 【解答】解:对于 项,选考物理类的学生中选择政治的比例为 ,选考历史类的 学生中选择政治的比例为 ,显然 ,故 项错误; 对于 项,选考物理类的学生中选择地理的比例为 ,选考历史类的学生中选择地 理的比例 , ,故 项错误; 对于 项, 根据已知,可列出 列联表: 选择生物 不选择生物 合计 物理类 115 105 220 历史类 35 45 80 合计 150 150 300 , 所以根据小概率值 的独立性检验,我们认为选择生物与选考类别无关,故 项正确; 对于 项,根据 项可知, 项错误. 故选: . 【变式训练1】某学校对高二学生是否喜欢阅读进行随机调查,调查的数据如表所示: 喜欢阅读 不喜欢阅读 总计 男学生 30 20 50 女学生 40 10 50 总计 70 30 100 0.25 0.15 0.10 0.05 0.025 0.010 0.001 1.323 2.072 2.706 3.841 5.024 6.635 10.828 根据表中的数据,下列对该校高二学生的说法正确的是A.没有 以上的把握认为“性别与是否喜欢阅读有关” B.有 以上的把握认为“性别与是否喜欢阅读有关” C.在犯错误的概率不超过0.025的前提下认为“性别与是否喜欢阅读有关” D.在犯错误的概率不超过0.05的前提下认为“性别与是否喜欢阅读有关” 【解答】解:由题意可得, , 因为 ,所以有 以上的把握认为“性别与是否喜欢阅读有关”,故 错误; 因为 ,所以没有 以上的把握认为“性别与是否喜欢阅读有关”,故 错 误; 因为 ,所以在犯错误的概率不超过0.05的前提下认为“性别与是否喜欢阅读 有关”,故 错误, 正确. 故选: . 【变式训练2】下列说法中不正确的是 A.独立性检验是检验两个分类变量是否有关的一种统计方法 B.独立性检验得到的结论一定是正确的 C.独立性检验的样本不同,其结论可能不同 D.独立性检验的基本思想是带有概率性质的反证法 【解答】解:独立性检验就是用来检验两个分类变量是否有关的,即 正确; 独立性检验与样本的选取有关,不一定正确,即 错误; 样本不同,观测值统计量不同,结论可能不同,即 正确; 独立性检验思想来自统计上的检验思想,与反证法类似,即 正确. 故选: . 【变式训练3】下列关于独立性检验的说法正确的是 A.独立性检验是对两个变量是否具有线性相关关系的一种检验 B.独立性检验可以 确定两个变量之间是否具有某种关系 C.利用 独立性检验推断吸烟与患肺病的关联中,若有 的把握认为吸烟与患肺病 有关系时,我们则可以说在100个吸烟的人中,有99人患肺病 D.对于独立性检验,随机变量 的观测值 值越小,判定“两变量有关系”犯错误的 概率越大【解答】解:对于 ,独立性检验是对两个变量之间是否具有某种关系的分析,并且可以 分析这两个变量在多大程度上具有这种关系,但不能完全肯定这种关系,故 错误, 对于 ,独立性检验依据的是小概率原理,不能 确定两个变量之间是否具有某种关 系,故 错误, 对于 ,从独立性检验可知,有 的把握认为吸烟与患肺病有关系时,即有 的把握 认为这个推理是正确的,有 的可能性认为推理出现错误,故 错误, 对于 ,对于独立性检验,随机变量 的观测值 值越大,则两变量有关系的程度越大, 即 越大,判定“两变量有关系”犯错误的概率越低,故 越小,判定“两变量有关系” 犯错误的概率越大,故 正确. 故选: . 题型五:独立性检验的实际应用 【要点讲解】1.在2×2列联表中,如果两个变量没有关系,则应满足 ad-bc≈0.|ad-bc|越 小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强. 2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一 般步骤: (1)根据样本数据制成2×2列联表; (2)根据公式χ2= 计算χ2; (3)通过比较χ2与临界值的大小关系来作统计推断. 【例5】为了解少年儿童的肥胖是否与常喝碳酸饮料有关,现对30名六年级学生进行了问 卷调查,得到如下列联表(平均每天喝 以上为常喝,体重超过 为肥胖) 常喝 不常喝 合计 肥胖 6 2 8 不胖 4 18 22 合计 10 20 30 (1)是否有 的把握认为肥胖与常喝碳酸饮料有关?说明你的理由; (2)现从常喝碳酸饮料且肥胖的学生中(其中 4名男生2名女生),抽取2人参加电视节 目,则正好抽到一男一女的概率是多少?0.15 0.10 0.05 0.025 0.010 0.005 0.001 2.072 2.706 3.841 5.024 6.635 7.879 10.828 (参考公式: ,其中 【解答】解:(1)易知 , 所以有 的把握认为肥胖与常喝碳酸饮料有关; (2)不妨设常喝碳酸饮料的肥胖者男生为 、 、 、 ,女生为 , , 若任取两人,共有 , , , , , , , , , , , , , , 这15种情况, 其中一男一女有 , , , , , , , 这8种情况, 故抽到一男一女的概率为 . 【变式训练1】为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否 对学生体育锻炼的经常性有影响,为此随机抽取了40名学生,按照性别和体育锻炼情况整 理得到如下的列联表: 性别 锻炼 合计 不经常 经常 女生 5 10 15 男生 5 20 25 合计 10 30 40 (1)根据上表数据,依据小概率值 的独立性检验,能否认为性别因素会影响学生 体育锻炼的经常性? (2)如果将表中的数据都扩大为原来的 倍,在相同的检验标准下,得到与(1) 中不一样的结论. 求 的最小值; 如果抽样方式不变,你认为(1)和(2)的结论哪个更可靠,并说明理由.附: ,其中 0.1 0.05 0.01 0.005 0.001 2.706 3.841 6.635 7.879 10.828 【解答】解:(1)零假设 :学生体育锻炼的经常性与学生性别没有关系, 易知 , 根据 的独立性检验,没有充分证据推断 不成立, 因此认为 成立, 即学生体育锻炼的经常性与学生性别没有关系; (2) 将表中的数据都扩大为原来的 倍,在相同的检验标准下, 由(1)知 , 所以 , 根据 的独立性检验,若推断 不成立, 即在犯错误的概率不超过0.01的前提下认为学生体育锻炼的经常性与学生性别有关系, 此时 , 解得 , 因为 , 则 的最小值为8; 在抽样方式不变的情况下,(2)中的结论更可靠, 因为对于随机样本而言,频率具有随机性,我们的推断可能犯错误,样本容量越小,犯错 误的可能性会越大, 因此在抽样方式不变的前提下,样本容量大的结果更可靠. 【变式训练2】近期,孩子刷短视频上瘾成为了家长们头疼的新问题.某市多所中学针对此展开的一项调查发现,近九成学生有使用短视频平台的习惯,近一半家长表示孩子或多或 少存在沉迷短视频的现象,超半数家长认为短视频成瘾对青少年成长存在严重影响.某校 为调查学生成绩下降与“短视频成瘾”之间是否有关随机调查了 200名学生的开学考试成 绩,其中“短视频成瘾”的学生中成绩未下降的有35名学生,(将总排名下降 视为成 绩下降,将刷短视频一天超过两小时规定为“短视频成瘾” (1)若样本中“短视频成瘾”且成绩未下降的女生有15名,并在被认为“短视频成瘾” 且成绩未下降的对象中按性别采用分层抽样抽取7人,再从中随机抽取2人,求抽到的两 人均为女生的概率. (2)填写下面的 列联表,试根据小概率值 的独立性检验,能否认为成绩下 降与“短视频成瘾”有关? “短视频成瘾” 没有“短视频成瘾” 合计 学习成绩下降 100 学习成绩未下降 合计 96 参考公式与数据: . 0.15 0.10 0.05 0.025 0.010 0.001 2.072 2.706 3.841 5.024 6.635 10.828 【解答】解:(1)由题意得,样本中“短视频成瘾”且成绩未下降的女生有 15名,则男 生有20人, 按性别采用分层抽样抽取7人,则男生抽取 人,女生抽取 人, 抽到的两人均为女生的概率为 ; (2)根据题目所给数据得到如下 的列联表: “短视频成瘾” 没有“短视频成瘾” 合计 学习成绩下降 61 39 100 学习成绩未下降 35 65 100 合计 96 104 200假设 :成绩下降与“短视频成瘾”无关. , 因为当 成立时, 的概率约为0.001, 所以认为成绩下降与“短视频成瘾”有关. 【变式训练3】近年来,随着“雾霾”天出现的越来越频繁,很多人为了自己的健康,外出 时选择戴口罩,在一项对人们雾霾天外出时是否戴口罩的调查中,共调查了 120人,其中 女性70人,男性50人,并根据统计数据画出等高条形图如图所示: (1)利用图形判断性别与雾霾天外出戴口罩是否有关系并说明理由; (2)根据统计数据建立一个 列联表; (3)能否在犯错误的概率不超过0.05的前提下认为性别与雾霾天外出戴口罩的关系. 附: 0.10 0.05 0.010 0.005 2.706 3.841 6.635 7.879 【解答】解:(1)可以认为性别与雾霾天外出带口罩有关系,理由如下: 在等高条形图中,两个深色条的高分别表示女性和男性中雾霾天外出戴口罩的频率,比较 图中两个深色条的高可以发现,女性中雾霾天外出带口罩的频率明显高于男性中雾霾天外 出带口罩的频率,因此可以认为性别与雾霾天外出带口罩有关系. (2) 列联表如下: 戴口罩 不戴口罩 合计 女性 42 28 70 男性 20 30 50 合计 62 58 120(3)由(2)中数据可得: , 所以在犯错误的概率不超过0.05的前提下认为性别与雾霾天外出戴口罩有关系.