文档内容
8.4 统计与统计案例(精讲)
一.简单随机抽样
1.定义:一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n(1≤n0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线
性相关程度越弱.
3.一元线性回归模型参数的最小二乘估计
(1)我们将y=bx+a称为Y关于x的经验回归方程,其中
七、独立性检验
1.分类变量与列联表
(1)分类变量:在讨论问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象
或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.
(2)2×2列联表
列联表:列出的两个分类变量的频数表,称为列联表.
假设有两个分类变量X和Y,它们的可能取值分别为{x,x}和{y,y},其2×2列联表为
1 2 1 2
y y 合计
1 2
x a b a+b
1
x c d c+d
2
合计 a+c b+d a+b+c+d
2.独立性检验
(1)零假设:以Ω为样本空间的古典概型.设X和Y为定义在Ω上,取值于{0,1}的成对分类变量.
H:分类变量X和Y独立.通常称H为零假设或原假设.
0 0
(2)χ2公式
假设我们通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示:
Y
X 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
χ2=.
对于任何小概率值α,可以找到相应的正实数x,使得下面关系成立:P(χ2≥x)=α.
α α
我们称x 为α的临界值,这个临界值就可作为判断χ2大小的标准.概率值α越小,临界值x 越大.
α α
(3)独立性检验
基于小概率值α的检验规则是:
当χ2≥x 时,我们就推断H不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
α 0
当χ2<x 时,我们没有充分证据推断H不成立,可以认为X和Y独立.
α 0
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
一.分层随机抽样
1.抽样比==.
2.在分层随机抽样中,如果第一层的样本量为m,平均值为;第二层的样本量为n,平均值为,则样本的平
均值为.
二.计算一组数据第p百分位数的步骤
三.频率分布直方图的数字特征
1.众数:众数一般用频率分布表中频率最高的一组的组中值来表示,即在样本数据的频率分布直方图中,
最高矩形的底边中点的横坐标;
2.中位数:在频率分布直方图中,中位数左边和右边的直方图的面积和应该相等;
3.平均数:平均数在频率分布表中等于组中值与对应频率之积的和,即在频率分布直方图中,每个小矩形
的面积乘以小矩形底边中点的横坐标之和.
四.常用结论
1.画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相
关.
2.相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强.
3.经验回归方程:当b>0时,正相关;当b<0时,负相关.
4.若x,x,…,x 的平均数为,那么mx+a,mx+a,…,mx+a的平均数为m+a;
1 2 n 1 2 n
5.若x,x,…,x 的方差为s2,那么ax+b,ax+b,…,ax+b的方差为a2s2;
1 2 n 1 2 n
6.s2=∑ (x-)2=∑x-2,即各数平方的平均数减去平均数的平方.
i考点一 简单随机抽样及分层抽样
【例1-1】(2023·贵州·校联考模拟预测)已知某班共有学生46人,该班语文老师为了了解学生每天阅读
课外书籍的时长情况,决定利用随机数表法从全班学生中抽取10人进行调查.将46名学生按01,
02,…,46进行编号.现提供随机数表的第7行至第9行:
84 42 17 53 31 57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76
63 01 63 78 59 16 95 56 57 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 79
33 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 99 66 02 79 54
若从表中第7行第41列开始向右依次读取2个数据,每行结束后,下一行依然向右读数,则得到的第8个
样本编号是( )
A.07 B.12 C.39 D.44
【例1-2】(2023秋·湖南长沙·高三长郡中学校考假期作业)为了庆祝中国共产党第二十次全国代表大会,
学校采用按比例分配的分层随机抽样的方法从高一1002人,高二1002人,高三1503人中抽取126人观看
“中国共产党第二十次全国代表大会”直播,那么高三年级被抽取的人数为( )
A.36 B.42 C.50 D.54
【一隅三反】
1.(2023秋·云南·高三校联考阶段练习)要调查某地区高中学生身体素质,从高中生中抽取 人进行跳
远测试,根据测试成绩制作频率分布直方图如图,现从成绩在 之间的学生中用分层抽样的方法抽
取 人,应从 间抽取人数为 ,则( ).
A. , B. ,
C. , D. ,
2.(2023·西藏日喀则·统考一模)某市四区夜市地摊的摊位数和食品摊位比例分别如图 、图 所示,为
提升夜市消费品质,现用分层抽样的方法抽取 的摊位进行调查分析,则抽取的样本容量与 区被抽取
的食品摊位数分别为( )A.210, 24 B.210, 12
C.252, 24 D.252, 12
3.(2023·河南·襄城高中校联考三模)现有300名老年人,500名中年人,400名青年人,从中按比例用分
层随机抽样的方法抽取 人,若抽取的老年人与青年人共21名,则 的值为( )
A.15 B.30 C.32 D.36
4.(2023·全国·高三对口高考)某学校为了调查学生的学习状况,由每班随机抽取5名学生进行调查.若一
班有50名学生,将每一学生编号,从01到50为止,请从随机数表的第2行第11列(下表为随机数表的
前5行)的42开始,依次向右,直到取足样本,则抽取样本的号码是 .
0347437386 3696473661 4698637162 3326168045 6011141095
9774246762 4281145720 4253323732 2707360751 2451798973
1676622766 5650267107 3290797853 1355385859 8897541410
1256859926 9696682731 0503729315 5712101421 8826498176
5559563564 3854824622 3162430990 0618443253 2383013030
5.(2022·全国·高三专题练习)总体由编号为 的20个个体组成,利用下面的随机数表选取
5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始从左到右依次选取两个数字,则选出来
的第5个个体的编号为 .
7816 6572 0802 6314 0702 4369 9728 0198
3204 9234 4935 8200 3623 4869 6938 7481
考点二 统计图表
【例2-1】(2023秋·陕西西安·高三校联考开学考试)某公司统计了2023年1月至6月的月销售额(单位:
万元),并与2022年比较,得到同比增长率数据,绘制了如图所示的统计图,则下列说法正确的是(
)
注:同比增长率 (今年月销售额 去年同期月销售额) 去年同期月销售额 .A.2023年1月至6月的月销售额的极差为6
B.2023年1月至6月的月销售额逐月递增
C.2023年1月至6月的月销售额的中位数为9.5
D.2022年5月的月销售额为8万元
【例2-2】(2023·福建三明·统考三模)(多选)已知某地区中小学生人数如图①所示,为了解该地区中小
学生的近视情况,卫生部门根据当地中小学生人数,用分层抽样的方法抽取了 的学生进行视力调查,
调查数据如图②所示,下列说法正确的有( )
图① 图②
A.该地区的中小学生中,高中生占比为
B.抽取调查的高中生人数为 人
C.该地区近视的中小学生中,高中生占比超过
D.从该地区的中小学生中任取 名学生,记近视人数为 ,则 的数学期望约为
【一隅三反】
1.(2023·全国·高三专题练习)Keep是一款具有社交属性的健身APP,致力于提供健身教学、跑步、骑行、
交友及健身饮食指导、装备购买等一站式运动解决方案.Keep可以让你随时随地进行锻炼,记录你每天的
训练进程.不仅如此,它还可以根据不同人的体质,制定不同的健身计划.小张根据Keep记录的2022年
1月至2022年11月期间每月跑步的里程(单位:十公里)数据整理并绘制了下面的折线图.根据该折线
图,下列说法错误的是( )A.月跑步里程逐月增加
B.月跑步里程最大值出现在10月
C.月跑步里程的中位数为5月份对应的里程数
D.1月至5月的月跑步里程相对于6月至11月波动性更小
2(2023秋·河北保定·高三校联考开学考试)(多选)某公司统计了2023年1月至6月的月销售额(单位:
万元),并与2022年比较,得到同比增长率数据,绘制了如图所示的统计图,则下列说法正确的是(
)
注:同比增长率=(今年月销售额一去年同期月销售额)÷去年同期月销售额 .
A.2023年1月至6月的月销售额的极差为8
B.2023年1月至6月的月销售额的第60百分位数为8
C.2023年1月至6月的月销售额的中位数为9.5
D.2022年5月的月销售额为10万元
3.(2023秋·广东·高三校联考阶段练习)(多选)航海模型项目在我国已开展四十余年,深受青少年的喜
爱.该项目整合国防、科技、工程、艺术、物理、数学等知识,主要通过让参赛选手制作、遥控各类船只、
舰艇等模型航行,普及船艇知识,探究海洋奥秘,助力培养未来海洋强国的建设者.某学样为了解学生对航
海模型项目的喜爱程度,用比例分配的分层随机抽样法从某校高一、高二、高三年级所有学生中抽取部分
学生做抽样调查.已知该学校高一、高二、高三年级学生人数的比例如图所示,若抽取的样本中高三年级学
生有32人,则下列说法正确的是( )A.该校高一学生人数是2000
B.样本中高二学生人数是28
C.样本中高三学生人数比高一学生人数多12
D.该校学生总人数是8000
考点三 特征数的计算
【例3-1】(2023秋·广东湛江·高三湛江一中校考开学考试)(多选)一组数据:0,1,5,6,7,11,
12,则( )
A.这组数据的平均数为6 B.这组数据的方差为16
C.这组数据的极差为11 D.这组数据的第70百分位数为7
【例3-2】(2023·福建福州·福州四中校考模拟预测)(多选)在某市高三年级举行的一次调研考试中,共
有30000人参加考试.为了解考生的某科成绩情况,抽取了样本容量为 的部分考生成绩,已知所有考生成
绩均在 ,按照 的分组作出如图所示的频率分布直方图.若
在样本中,成绩落在区间 的人数为16,则由样本估计总体可知下列结论正确的为( )
A.
B.C.考生成绩的第70百分位数为76
D.估计该市全体考生成绩的平均分为71
【一隅三反】
1.(2024·江西·校联考模拟预测)(多选)为庆祝江西籍航天员邓清明顺利从太空返航,邓清明家乡的某
所中学举办了一场“我爱星辰大海”航天知识竞赛,满分100分,该校高一(1)班代表队6位参赛学生的
成绩(单位:分)分别为:84,100,91,95,95,98,则关于这6位参赛学生的成绩.下列说法正确的是
( )
A.众数为95 B.中位数为93
C.平均成绩超过93分 D.第 分位数是91
2.(2023秋·全国·高三校联考开学考试)(多选)某书店为了解其受众人群,对100名顾客的年龄 进
行调研,并将所统计的数据制成如图所示的频率分布直方图.已知 是各个小矩形上短边的中点,
若点 在一条直线上,点 在一条直线上,且 ,则下列描述正确的是
( )
A. 的值为0.0108
B.数据 的众数大于中位数
C.数据 的中位数小于平均数
D.数据 的第80百分位数大于60
3.(2023·全国·高三专题练习)(多选)近年来,加强青少年体育锻炼,重视体质健康已经在社会形成高
度共识,某校为了了解学生的身体素质状况,举行了一场身体素质体能测试,以便对体能不达标的学生进
行有效地训练,促进他们体能的提升,现从全部测试成绩中随机抽取200名学生的测试成绩,进行适当分组后,画出如图所示频率分布直方图,则( )
A.
B.在被抽取的学生中,成绩在区间 内的学生有70人
C.估计全校学生体能测试成绩的平均数为77
D.估计全校学生体能测试成绩的 分位数为84
考点四 一元线性回归方程
【例4-1】(2023秋·江苏苏州·高三苏州中学校考开学考试)(多选)已知变量 , 之间的经验回归方程
为 ,且变量 , 的数据如图所示,则下列说法正确的是( )
6 8 10 12
6 m 3 2
A.变量 , 之间呈正相关关系 B.实数m的值等于5
C.该回归直线必过 D.相应于 的残差估计值为0.6
【例4-2】(2023秋·四川成都·高三树德中学校考开学考试)某新能源汽车制造公司,为鼓励消费者购买其
生产的汽车,约定从今年元月开始,凡购买一辆该品牌汽车,在行驶三年后,公司将给予适当金额的购车
补贴.某调研机构对已购买该品牌汽车的消费者,就购车补贴金额的心理预期值进行了抽样调查,得其样
本频率分布直方图如图所示.(1)估计已购买该品牌汽车的消费群体对购车补贴金额的心理预期值的平均数;
(2)统计今年以来元月~5月该品牌汽车的市场销售量,得其频数分布表如下:
月份 元月 2月 3月 4月 5月
销售量(万
0.5 0.6 1.0 1.4 1.7
辆)
预测该品牌汽车在今年6月份的销售量约为多少万辆?
附:对于一组样本数据 , , , ,其回归直线 的斜率和截距的最小二乘
估计值分别为 , .
【一隅三反】
1.(2023·江苏徐州·校考模拟预测)(多选)某研究小组采集了 组数据,作出如图所示的散点图.若去
掉 后,下列说法正确的是( )A.相关系数 变小
B.决定系数 变大
C.残差平方和变大
D.解释变量 与预报变量 的相关性变强
2.(2023·湖北·荆门市龙泉中学校联考模拟预测)(多选)某学校一同学研究温差 与本校当天新增
感冒人数 (人)的关系,该同学记录了5天的数据:
x 5 6 8 9 12
y 17 20 25 28 35
经过拟合,发现基本符合经验回归方程 ,则( )
A.样本中心点为 B.
C. ,残差为 D.若去掉样本点 ,则样本的相关系数r增大
3.(2023春·陕西西安·高三西安中学校考阶段练习)3月14日OpenAI公司宣布正式发布为ChatGPT提供
支持的更强大的下一代人工智能技术GPT-4,科技产业的发展迎来新的格局,数据显示,它在各种专业和
学术基准上与人类水平相当,优秀到令人难以置信,虽然给各行业带来了不同程度的挑战,但是也孕育了
新的发展机遇.下表是某教育公司从2019年至2023年人工智能上的投入情况,其中 表示年份代码(2019
年用1表示,2020年用2表示,以此类推), 表示投入资金(单位:百万元).
1 2 3 4 5
3 7 8 10 12
(1)已知可用线性回归模型拟合 与 的关系,请用相关系数加以说明;(若 ,则线性相关程度很
高)(运算结果保留两位小数)(2)求 关于 的线性回归方程 ,并预测该公司2024年的投入资金.
参考公式与数据:
4.(2023秋·湖南衡阳·高三校考阶段练习)随着人们生活水平的提高,健康越来越成为当下人们关心的话
题,因此,健身也成了广大市民的一项必修课.某健身机构统计了2022年1 5月份某初级私人健身教练课
∼程的月报名人数 (单位:人)与该初级私人健身教练价格 (单位:元/小时)的情况,如下表所示.
月份 1 2 3 4 5
初级私人健身教练价格 (元/小时) 210 200 190 170 150
初级私人健身教练课程的月报名人数
5 8 7 9 11
(人)
(1)求 ( ,2,3,4,5)的相关系数r,并判断月报名人数y与价格x是否有很强的线性相关性?
(当 时,可以认为两个变量有很强的线性相关性;否则,没有很强的线性相关性)(精确到
0.001)
(2)请建立 关于 的线性回归方程;(精确到0.001)
(3)当价格为每小时230元时,估计该课程的月报名人数为多少人?(结果保留整数)
参考公式:对于一组数据 ( ,2,3,…,n),相关系数 ,其回归
直线 的斜率和截距的最小二乘估计分别为 , .
参考数据: . , , .考点五 非线性回归方程
【例5-1】(2023·陕西·西北工业大学附属中学校联考模拟预测)为了反映城市的人口数量x与就业压力指
数y之间的变量关系,研究人员选择使用非线性回归模型 对所测数据进行拟合,并设 ,
得到的数据如表所示,则 .
x 4 6 8 10
z 2 c 5 6
【例5-2】(2023·四川绵阳·统考二模)抗体药物的研发是生物技术制药领域的一个重要组成部分,抗体药
物的摄入量与体内抗体数量的关系成为研究抗体药物的一个重要方面.某研究团队收集了10组抗体药物的
摄入量与体内抗体数量的数据,并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值,
抗体药物摄入量为x(单位: ),体内抗体数量为y(单位: ).
29.2 12 16 34.4
(1)根据经验,我们选择 作为体内抗体数量y关于抗体药物摄入量x的回归方程,将 两边取对
数,得 ,可以看出 与 具有线性相关关系,试根据参考数据建立 关于 的回归方
程,并预测抗体药物摄入量为 时,体内抗体数量 的值;
(2)经技术改造后,该抗体药物的有效率z大幅提高,经试验统计得z服从正态分布 ,那这
种抗体药物的有效率 超过0.54的概率约为多少?
附:①对于一组数据 ,其回归直线 的斜率和截距的最小二乘估计分别为, ;
②若随机变量 ,则有 , ,
;
③取 .
【一隅三反】
1.(2023·全国·镇海中学校联考模拟预测)害虫防控对于提高农作物产量具有重要意义.已知某种害虫产卵
数 (单位:个)与温度 (单位: )有关,测得一组数据 ,可用模型 进行拟合,利用 变换得到的线性回归方程为 .若 ,则 的值为
.
2.(2023春·重庆沙坪坝·高三重庆八中校考阶段练习)在正常生产条件下,根据经验,可以认为化肥的有
效利用率近似服从正态分布 ,而化肥施肥量因农作物的种类不同每亩也存在差异.
(1)假设生产条件正常,记 表示化肥的有效利用率,求 ;
(2)课题组为研究每亩化肥施用量与某农作物亩产量之间的关系,收集了10组数据,并对这些数据作了初
步处理,得到了如图所示的散点图及一些统计量的值.其中每亩化肥施用量为 (单位:公斤),粮食亩产
量为 (单位:百公斤)
参考数据:
650 91.5 52.5 1478.6 30.5 15 15 46.5
, ,2, , .
(i)根据散点图判断, 与 ,哪一个适宜作为该农作物亩产量 关于每亩化肥施用量 的回
归方程(给出判断即可,不必说明理由);
(ii)根据(i)的判断结果及表中数据,建立 关于 的回归方程;并预测每亩化肥施用量为27公斤时,
粮食亩产量 的值.附:①对于一组数据 ,2,3, , ,其回归直线 的斜率和截距的最小二乘估计分别
为 , ;
②若随机变量 ,则 , .
3.(2023·江苏镇江·江苏省镇江中学校考三模)经观测,长江中某鱼类的产卵数 与温度 有关,现将收
集到的温度 和产卵数 的10组观测数据作了初步处理,得到如图的散点图及一些统计量
表.
360
表中(1)根据散点图判断, 与 哪一个适宜作为 与 之间的回归方程模型并求出
关于 回归方程;(给出判断即可,不必说明理由)
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,
其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布
列及数学期望.
附:对于一组数据 ,其回归直线 的斜率和截距的最小二乘估计分别为
.
考点六 独立性检验
【例6-1】(2024秋·安徽·高三合肥市第八中学校联考开学考试)(多选)电影《八角笼中》是由王宝强导
演并参演的一部电影,讲述了年轻人为理想而努力奋斗的故事. 该电影一上映就引起了广大观众的热议,
票房也超出了预期,现随机抽取若干名观众进行调查,所得数据统计如下表所示,则( )
喜欢该电
不喜欢该电影
影
男性观众 160 40
女性观众 140 60
附: .
0. 10 0. 05 0. 01 0. 001
2. 706 3. 841 6. 635 10. 828
A.若在被调查的观众中随机抽取1人,则抽到喜欢该电影的男性观众的概率为
B.在被调查的观众中,男性不喜欢该电影的比例高于女性C.根据小概率值 的独立性检验,可以认为被调查观众的性别与对电影的喜爱程度有差异
D.根据小概率值 的独立性检验,可以认为被调查观众的性别与对电影的喜爱程度有差异
【例6-2】(2023·河南开封·统考模拟预测)北京2022年冬奥会吉祥物“冰墩墩”和冬残奥会吉祥物“雪
容融”一亮相,好评不断.为了研究“冰墩墩”与“雪容融”在不同性别的人群中受欢迎程度是否存在差
异,某机构从关注冬奥会公众号的微信用户中随机调查了200人,得到如下 列联表:
男生 女生 总计
更喜欢“冰墩
50
墩”
更喜欢“雪容
70
融”
总计 100 100 200
参考公式: ,其中 .附表:
0.100 0.050 0.010 0.001
2.706 3.841 6.635 10.828
(1)完善列联表,并求女生中更喜欢“冰墩墩”的频率是多少?
(2)是否有90%的把握认为“对两个吉祥物的喜好倾向与性别有关”.【一隅三反】
1.(2023·河南开封·统考三模)2021年5月11日,第七次全国人口普查结果显示,中国65岁及以上人口
为19064万人,占总人口的 .随着出生率和死亡率的下降,我国人口老龄化趋势日益加剧,与老年
群体相关的疾病负担问题越来越受到社会关注,虚弱作为疾病前期的亚健康状态,多发于65岁以上人群.
虚弱指数量表(frailty in—dex,FI,取值范围是 )可以用来判定老年人是否虚弱,若FI 分,则定
义为“虚弱”.某研究团队随机调查了某地1170名男性与1300名女性65岁及以上老年人的身体状况,并
采用虚弱指数量表分析后得出虚弱指数频数分布表如下:
FI
男 411 579 101 79
女 417 463 162 258
(1)根据所调查的65岁及以上老年人的虚弱指数频数分布表作出65岁及以上老年人虚弱与性别的 列联
表,并分析能否在犯错误的概率不超过0.01的前提下认为老年人身体虚弱与性别有关?
非虚
虚弱 总计
弱
男 1170女 1300
总计
(2)以频率估计概率,现从该地区随机调查两位男性65岁以上老年人,这两位老人中身体虚弱的人数为随
机变量 ,求随机变量 的分布列、期望与方差?附表及公式: ,
.
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
2.(2023秋·山西吕梁·高三校联考开学考试)电影评论,简称影评,是对一部电影的导演、演员、镜头、
摄影、剧情、线索、环境、色彩、光线、视听语言、道具作用、转场、剪辑等进行分析和评论.电影评论
的目的在于分析、鉴定和评价蕴含在银幕中的审美价值、认识价值、社会意义、镜头语言等方面,达到拍
摄影片的目的,解释影片中所表达的主题,既能通过分析影片的成败得失,帮助导演开阔视野,提高创作
水平,以促进电影艺术的繁荣和发展;同时能通过分析和评价,影响观众对影片的理解和鉴赏,提高观众
的欣赏水平,从而间接促进电影艺术的发展.某观影平台为了解观众对最近上映的某部影片的评价情况
(评价结果仅有“好评”“差评”),从平台所有参与评价的观众中随机抽取220人进行调查,得到数据
如下表所示(单位:人):
好评 差评 合计
男性 70 110
女性 60
合计 220
(1)请将 列联表补充完整,并依据小概率值 的独立性检验,能否认为对该部影片的评价与性别
有关联?
(2)从给出“好评”的观众中按性别用分层抽样的方法抽取10人,再从这10人中随机抽出3人送电影优惠券,记随机变量X表示这3人中女性观众的人数,求X的分布列和数学期望.
参考公式: ,其中 .
参考数据: