文档内容
第 3 讲 统计与统计案例
[考情分析] 高考对本讲内容的考查往往以实际问题为背景,考查随机抽样与用样本估计总
体、线性回归方程的求解与运用、独立性检验等问题,常与概率综合考查,中等难度.
考点一 用样本估计总体
核心提炼
1.用样本的频率分布估计总体的分布
(1)频率分布直方图中相邻两横坐标之差表示组距,纵坐标表示,频率=组距×.
(2)在频率分布直方图中各小长方形的面积之和为1.
2.用样本的数字特征估计总体的数字特征
样本数据:x,x,…,x.
1 2 n
(1)标准差:样本数据到平均数的一种平均距离,
s=.
(2)方差:s2=[(x-)2+(x-)2+…+(x-)2](x 是样本数据,n是样本容量,是样本平均数).
1 2 n n
(3)若a>0,数据ax+b,ax+b,…,ax+b的标准差为as,方差为a2s2.
1 2 n
例1 (1)某学校为了解男生身体发育情况,从2 000名男生中抽查了100名男生的体重情况,
根据数据绘制样本的频率分布直方图,如图所示,下列说法中错误的是( )
A.样本的众数约为67
B.样本的中位数约为66
C.样本的平均值约为66
D.体重超过75 kg的学生频数约为200人
(2)(2022·张家口模拟)2021年11月10日,中国和美国在联合国气候变化格拉斯哥大会期间
发布《中美关于在21世纪20年代强化气候行动的格拉斯哥联合宣言》(以下简称《宣言》).
承诺继续共同努力,并与各方一道,加强《巴黎协定》的实施,双方同意建立“21世纪20
年代强化气候行动工作组”,推动两国气候变化合作和多边进程.为响应《宣言》要求,某
地区统计了2020年该地区一次能源消费结构比例,并规划了2030年一次能源消费结构比例,
如图所示:经测算,预估该地区2030年一次能源消费量将增长为2020年的2.5倍,预计该地区( )
A.2030年煤的消费量相对2020年减少了
B.2030年天然气的消费量比2020年的消费量增长了5倍
C.2030年石油的消费量相对2020年不变
D.2030年水、核、风能的消费量是2020年的7.5倍
规律方法 利用频率分布直方图求众数、中位数与平均数.
在频率分布直方图中:
(1)最高的小长方形底边中点的横坐标即众数.
(2)中位数左边和右边的小长方形的面积和相等.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以
小长方形底边中点的横坐标之和.
跟踪演练1 (1)(2022·兰州模拟)2021年7月,中共中央办公厅、国务院办公厅印发《关于进
一步减轻义务教育阶段学生作业负担和校外培训负担的意见》.各地积极推进“双减”工作,
义务教育阶段学生负担得到有效减轻.下表是某校七年级10名学生“双减”前后课外自主
活动时间的随机调查情况(单位:小时).
学生编号 1 2 3 4 5 6 7 8 9 10
“双减”前 1.3 1.2 1.5 1.6 1.2 1.3 1.5 1.1 1.1 1
“双减”后 1.5 2.5 2 3 1.5 2 2.4 0.9 1.4 1.2
设“双减”前、后这两组数据的平均数分别是 , ,标准差分别是s ,s ,则下列关系正确
1 2 1 2
的是( )
A. =+0.56,ss
2 1 1 2
C.=+0.65,ss
2 1 1 2
(2)(2022·赤峰模拟)如图所示的是国家统计局官网发布的2021年3月到2022年3月全国居民
消费价格的涨跌幅情况.关于这个时间段的折线图,有下列说法:
①所有月份的同比增长率都是正数;
②环比增长率为正数的月份比为负数的月份多;
③2021年9月到10月的同比增长率的增幅等于10月到11月的同比增长率的增幅;
④同比增长率的极差为0.9.
其中正确说法的个数为( )
A.1 B.2 C.3 D.4
考点二 回归分析
核心提炼
求线性回归方程的步骤
(1)依据样本数据画出散点图,确定两个变量具有线性相关关系(有时可省略).
(2)计算出,,a,b.
(3)写出线性回归方程.
例2 (2022·长沙模拟)为了巩固拓展脱贫攻坚的成果,振兴乡村经济,某知名电商平台决定
为脱贫乡村的特色水果开设直播带货专场.该特色水果的热卖黄金时段为 7月10日至9月
10日,为了解直播的效果和关注度,该电商平台统计了已直播的2022年7月10日至7月14
日时段中的相关数据,这5天的第x天到该电商平台专营店购物的人数y(单位:万人)的数
据如下表:
7月12 7月14
日期 7月10日 7月11日 7月13日
日 日
第x天 1 2 3 4 5
人数y (单位:万人) 75 84 93 98 100
(1)依据表中的统计数据,请判断该电商平台的第x天与到该电商平台专营店购物的人数y(单
位:万人)是否具有较高的线性相关程度?(参考:若0.3<|r|<0.75,则线性相关程度一般,若|
r|>0.75,则线性相关程度较高,计算r时精确度为0.01)
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________________________________________________________________________________
________________________________________________________________________
(2)求购买人数y与直播的第x天的线性回归方程;用样本估计总体,请预测从 2022年7月
10日起的第38天到该专营店购物的人数(单位:万人).
参考数据:(y-)2=434,(x-)(y-)=64,≈65.879.
i i i
附:相关系数r=,
线性回归方程的斜率b=,截距a=-b.
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
易错提醒 (1)样本点不一定在回归直线上,但点(,)一定在回归直线上.
(2)求b时,灵活选择公式,注意公式的推导和记忆.
(3)利用相关系数判断相关性强弱,看|r|的大小,而不是r的大小.
(4)区分相关系数r与相关指数R2.
(5)通过线性回归方程求的都是估计值,而不是真实值.
跟踪演练2 (1)(2022·汕头模拟)如图所示,5个(x,y)数据,去掉D(3,10)后,下列说法正确
的是( )
A.相关系数r变小
B.残差平方和变大
C.相关指数R2变小
D.解释变量x与预报变量y的相关性变强
(2)(2022·重庆市育才中学模拟)某种产品的价格x(单位:元/kg)与需求量y(单位:kg)之间的
对应数据如表所示:
x 10 15 20 25 30
y 11 10 8 6 5
根据表中的数据可得线性回归方程y=bx+14.4,则以下正确的是________.(填序号)
①相关系数r>0;
②b=-0.32;③若该产品价格为35元/kg,则日需求量大约为3.2 kg;
④第四个样本点对应的残差为-0.4.
考点三 独立性检验
核心提炼
独立性检验的一般步骤
(1)根据样本数据列2×2列联表;
(2)根据公式K2=,计算K2的值;
(3)查表比较K2与临界值的大小关系,作统计判断.K2越大,对应假设事件H 成立(两类变
0
量相互独立)的概率越小,H 不成立的概率越大.
0
例3 (2022·济宁模拟)为提高教育教学质量,越来越多的高中学校采用寄宿制的封闭管理
模式.某校对高一新生是否适应寄宿生活做调查,从高一新生中随机抽取了100人,其中男
生占总人数的40%,且只有20%的男生表示自己不适应寄宿生活,女生中不适应寄宿生活
的人数占总人数的32%.学校为了考查学生对寄宿生活适应与否是否与性别有关,构建了
2×2列联表.
不适应寄宿生活 适应寄宿生活 总计
男生
女生
总计
(1)请将2×2列联表补充完整,并判断能否有99%的把握认为“适应寄宿生活与否”与性别
有关;
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
(2)从男生中以“是否适应寄宿生活”为标准采用分层抽样的方法随机抽取10人,再从这10
人中随机抽取2人,若所选2名学生中“不适应寄宿生活”的人数为X,求随机变量X的分
布列及均值.
附:K2=,其中n=a+b+c+d.
P(K2≥k) 0.025 0.01 0.001
0
k 5.024 6.635 10.828
0
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________易错提醒 (1)K2越大,两分类变量无关的可能性越小,推断犯错误的概率越小,通过表格
查得无关的可能性.
(2)在犯错误的概率不超过0.01的前提下认为两个变量有关,并不是指两个变量无关的可能
性为0.01.
跟踪演练3 (2022·内江模拟)国内某大学有男生6 000人,女生4 000人,该校想了解本校学
生的运动状况,根据性别采取分层抽样的方法从全校学生中抽取100人,调查他们平均每天
运动的时间(单位:小时),统计表明该校学生平均每天运动的时间范围是[0,3],若规定平均
每天运动的时间不少于2小时的学生为“运动达人”,低于2小时的学生为“非运动达人”.
根据调查的数据按性别与“是否为‘运动达人’”进行统计,得到如下2×2列联表:
运动时间
运动达人 非运动达人 总计
性别
男生 36
女生 26
总计 100
(1)请根据题目信息,将2×2列联表中的数据补充完整,并通过计算判断能否在犯错误的概
率不超过0.025的前提下认为性别与“是否为‘运动达人’”有关;
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
(2)将此样本的频率估计为总体的概率,随机调查该校的3名男生,设调查的3人中运动达人
的人数为随机变量X,求X的分布列和均值E(X)及方差D(X).
附表及公式:
P(K2≥k) 0.15 0.10 0.05 0.025 0.010
0
k 2.072 2.706 3.841 5.024 6.635
0
K2=,其中n=a+b+c+d.
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________