文档内容
微专题 3 统计与成对数据的统计分析
[考情分析] 高考对本讲内容的考查往往以实际问题为背景,考查随机抽样与用样本估计总体、经验回归
方程的求解与运用、独立性检验问题,常与概率综合考查,中等难度.
考点一 统计图表、数字特征
频率 频率
1.频率分布直方图中相邻两横坐标之差表示组距,纵坐标表示 ,频率=组距× .
组距 组距
2.在频率分布直方图中各小长方形的面积之和为1.
3.利用频率分布直方图求众数、中位数与平均数
(1)最高的小长方形底边中点的横坐标即众数.
(2)中位数左边和右边的小长方形的面积和相等.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中
点的横坐标之和.
例1 (1)(多选)(2024·泰安模拟)某灯具配件厂生产了一种塑胶配件,该厂质检人员某日随机抽取了100
个该配件的质量指标值(单位:分)作为一个样本,得到如图所示的频率分布直方图,则(同一组中的数
据用该组区间的中点值作代表)( )
A.m=0.030
B.样本质量指标值的平均数为75
C.样本质量指标值的众数小于其平均数
D.样本质量指标值的第75百分位数为85
(2)(多选)(2024·嘉兴模拟)已知一组数据1,3,5,7,9,其中位数为a,平均数为x,极差为b,方差为
s2.现从中删去某一个数,得到一组新数据,其中位数为a',平均数为x',极差为b',方差为s'2,则下
列说法中正确的是( )
A.若删去3,则a0)的方差为s2,平均数x
1 2 3 4 5 1 2 3 4 5
>0,则( )
A.数据3x -2,3x -2,3x -2,3x -2,3x -2的方差为9s2
1 2 3 4 5
B.数据3x -2,3x -2,3x -2,3x -2,3x -2的平均数大于0
1 2 3 4 5
C.数据x ,x ,x ,x 的方差大于s2
2 3 4 5
D.数据x ,x ,x ,x 的平均数大于x
2 3 4 5
考点二 回归分析
求经验回归方程的步骤
(1)依据成对样本数据画出散点图,确定两个变量具有线性相关关系(有时可省略).
^ ^
(2)计算出x,y,a,b.
(3)写出经验回归方程.
例2 (1)(多选)(2024·晋中模拟)下列有关回归分析的结论中,正确的有( )
^
A.在成对样本数据(x
i
,y
i
)(i=1,2,3,…,10)中,根据最小二乘法求得经验回归方程为 y=3x-1,去除一
个样本点(x ,y )后,得到的新经验回归方程一定会发生改变
1 1
B.具有相关关系的两个变量x,y的样本相关系数为r,那么r越大,x,y之间的线性相关程度越强
C.若散点图中的散点均落在一条斜率非零的直线上,则决定系数R2=1
D.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高(2)(2024·温州模拟)2024年之前某淀粉厂只生产食品淀粉,下表为近几年年投入资金x(万元)与年收益
y(万元)的8组数据:
x 10 20 30 40 50 60 70 80
y 12.8 16.5 19 20.9 21.5 21.9 23 25.4
①用y=bln x+a模拟生产食品淀粉年收益y与年投入资金x的关系,求出非线性经验回归方程;
②为响应国家“加快调整产业结构”的号召,该企业又自主研发出一种药用淀粉,预计其收益为投入
的10%.2024年该企业计划投入200万元用于生产两种淀粉,求年收益的最大值(精确到0.1万元).
n
Σ v u -nv u
i i
^ ^ ^ ^
i=1 ^
附:Ⅰ.经验回归直线u=bv+a中斜率和截距的最小二乘估计公式分别为:b= ,a=u-
n
Σ
v2-nv2
i
i=1
^
bv.
Ⅱ.
8 8 8 8 8
Σ y Σ ln x Σ
x2
Σ (ln x)2 Σ yln x
i i i i i i
i=1 i=1 i=1 i=1 i=1
161 29 20 400 109 603
Ⅲ.ln 2≈0.7,ln 5≈1.6.
[易错提醒] (1)样本点不一定在经验回归直线上,但点(x,y)一定在经验回归直线上.
^
(2)求b时,灵活选择公式,注意公式的推导和记忆.
(3)利用样本相关系数判断线性相关程度强弱时,看|r|的大小,而不是r的大小.
(4)区分样本相关系数r与决定系数R2.
(5)通过经验回归方程求的都是估计值,而不是真实值.
跟踪演练2 (2024·石家庄模拟)在推动电子制造业高质量发展的大环境下,某企业统筹各类资源,进行
了积极的改革探索.下表是该企业每月生产的一种核心产品的产量x(3≤x≤15)(件)与相应的生产总成本
y(万元)的四组对照数据.
x 5 7 9 11
y 200 298 431 609企业研究人员建立了y与x的两种回归模型,利用计算机算得近似结果如下:
^
x3
^
经验回归方程①y = +173;经验回归方程②y =68x-160.
1 3 2
其中经验回归方程①的残差图如图所示(残差=观测值-预测值).
(1)在下表中填写经验回归方程②的残差,根据残差分析,判断哪一个经验回归方程更适宜作为y关于x的
经验回归方程,并说明理由;
x 5 7 9 11
y 200 298 431 609
^
e
(2)从该企业在过去几年生产的该产品中随机抽取100件,优等品有60件,合格品有40件.每件优等品
利润为20万元,每件合格品利润为15万元.若视频率为概率,该企业某月计划生产12件该产品,记优
等品件数为X,总利润为Y.
①求Y与X的关系式,并求E(X)和E(Y);
②记该月的成本利润率为p,在(1)中选择的经验回归方程下,求p的估计值.(结果保留2位小数)
总利润
附:成本利润率= .
总成本
考点三 独立性检验
独立性检验的一般步骤
(1)根据样本数据列2×2列联表.
n(ad-bc) 2
(2)根据公式χ2= ,计算χ2的值.
(a+b)(c+d)(a+c)(b+d)
(3)查表比较χ2与临界值的大小关系,作统计判断.χ2越大,对应假设事件H 成立(两类变量相互独立)的概率
0
越小,H 不成立的概率越大.
0例3 (2024·温州模拟)某兴趣小组调查并统计了某班级学生期末统考中的数学成绩和建立个性化错题本
的情况,用来研究这两者是否有关.若从该班级中随机抽取1名学生,设A=“抽取的学生期末统考中的
2 5 2
数学成绩不及格”,B=“抽取的学生建立了个性化错题本”,且P(A|B)= ,P(B|A)= ,P(B)= .
3 6 3
(1)求P(A)和P(A|B);
(2)若该班级共有36名学生,请完成列联表,并依据小概率值α=0.005的独立性检验,分析学生期末统
考中的数学成绩与建立个性化错题本是否有关?
个性化 期末统考中的数学成绩
合计
错题本 及格 不及格
建立
未建立
合计
(3)为进一步验证(2)中的判断,该兴趣小组准备在其他班级中抽取一个容量为36k的样本(假设根据新样
本数据建立的列联表中,所有的数据都扩大为(2)中列联表中数据的k倍,且新列联表中的数据都为整
数).若要使得依据α=0.001的独立性检验可以肯定(2)中的判断,试确定k的最小值.
参考公式及数据:
n(ad-bc) 2
χ2= ,
(a+b)(c+d)(a+c)(b+d)
n=a+b+c+d.
α 0.01 0.005 0.001
x 6.635 7.879 10.828
α
[易错提醒] (1)χ2越大两分类变量无关的可能性越小,推断犯错误的概率越小,通过表格查得无关的可能
性.
(2)在犯错误的概率不大于0.01的前提下认为两个变量有关,并不是指两个变量无关的可能性为0.01.
跟踪演练3 (2024·福州模拟)人的性格可以大体分为“外向型”和“内向型”两种,某中学为了了解这
两种性格特征与人的性别是否存在关联,采用简单随机抽样的方法抽取90名学生,得到如下数据:
外向型 内向型
男生 45 15
女生 20 10(1)以上述统计结果的频率估计概率,从该校男生中随机抽取2人、女生中随机抽取1人担任志愿者.设
这三人中性格外向型的人数为X,求X的数学期望;
(2)对表格中的数据,依据α=0.1的独立性检验,可以得出独立性检验的结论是这两种性格特征与人的
性别没有关联.如果将表格中的所有数据都扩大为原来10倍,在相同的检验标准下,再用独立性检验推
断这两种性格特征与人的性别之间的关联性,得到的结论是否一致?请说明理由.
参考公式与临界值表:
n(ad-bc) 2
χ2= .
(a+b)(c+d)(a+c)(b+d)
α 0.1 0.05 0.01
x 2.706 3.841 6.635
α答案精析
例1 (1)ACD (2)ACD
跟踪演练1 (1)AB (2)AD
例2 (1)CD
(2)解 ①令t=ln x,
8
∑❑t y -8t·y
i i
^ i=1
=
b
8
∑❑t2-8t2
i
i=1
29 161
603-8× ×
8 8
= =5,
(29) 2
109-8×
8
^ ^ 161 29
a=y-bt= -5× =2,
8 8
^
∴非线性经验回归方程为y=5ln x+2.
②2024年设该企业投入食品淀粉生产m万元,预计收益w万元,
1
w=5ln m+2+(200-m)· ,
10
00得07.879=x .
0.005
24×12×12×24
根据小概率值α=0.005的独立性检验,我们推断H 不成立,即认为期末统考中的数学成绩与建立个性化错
0
题本有关.
k(a+b+c+d)(ka·kd-kb·kc) 2
(3)χ'2=
k(a+b)·k(c+d)·k(a+c)·k(b+d)
k(a+b+c+d)(ad-bc) 2
=
(a+b)(c+d)(a+c)(b+d)
=9k≥10.828,
10.828
解得k≥ .
9
要使新列联表中的数据都为整数,则需4k∈Z.
10.828×4 5
又因为4k≥ ≈4.8,所以4k的最小值为5,故k的最小值是 .
9 4
3
跟踪演练3 解 (1)由统计结果可知,外向型男生在所有男生中占比为 ,外向型女生在所有女生中占比
4
2 3
为 ,故从该校男生中随机抽取一人为外向型男生的概率是 ,从该校女生中随机抽取一人为外向型女生
3 4
2
的概率是 .
3
方法一 X的所有可能取值为0,1,2,3,
(1) 2 1 1
则P(X=0)= × = ,
4 3 48
P(X=1)=C1×
3
×
1
×
1
+
(1) 2
×
2
=
1
,
2 4 4 3 4 3 6P(X=2)=
(3) 2
×
1
+C1×
3
×
1
×
2
=
7
,
4 3 2 4 4 3 16
(3) 2 2 3
P(X=3)= × = ,
4 3 8
1 1 7 3 13
所以E(X)=0× +1× +2× +3× = .
48 6 16 8 6
方法二 从该校男生中随机抽取2人,抽到性格外向型的人数记为Y ;
1
从该校女生中随机抽取1人,抽到性格外向型的人数记为Y ,
2
( 3) ( 2)
则Y ~B 2, ,Y ~B 1, ,
1 4 2 3
3 3
所以E(Y )=2× = ,
1 4 2
2 2
E(Y )=1× = ,
2 3 3
3 2 13
所以E(X)=E(Y +Y )=E(Y )+E(Y )= + = .
1 2 1 2 2 3 6
(2)零假设为H :这两种性格特征与人的性别无关联.
0
由所获得的所有数据都扩大为原来10倍,可知
900×(450×100-150×200) 2 90
χ2= = ≈6.923>2.706=x ,
600×300×650×250 13 0.1
依据α=0.1的独立性检验,可以推断这两种性格特征与人的性别有关联,与原来的结论不一致,
原因是每个数据扩大为原来的10倍,相当于样本量变大为原来的10倍,导致推断结论发生了变化.