文档内容
专题十六 《统计与统计案例》讲义
16.2 统计案例
题型一 . 一元线性回归模型
1.某车间为了规划生产进度提高生产效率,记录了不同时段生产零件个数x(百个)与相
应加工总时长y(小时)的几组对应数据,根据表中提供的数据,求出y关于x的线性
^
回归方程为y=0.7x+0.05,则下列结论错误的是( )
x 2 3 4 5
y 1.5 2 m 3.5
A.加工总时长与生产零件数呈正相关
B.该回归直线一定过点(3.5,2.5)
C.零件个数每增加1百个,相应加工总时长约增加0.7小时
D.m的值是2.85
2.为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随
机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回
10 10 ̂(cid:3)
̂(cid:3) ̂(cid:3) ̂(cid:3)
归直线方程为 y=bx+a .已知∑ x
i
=225,∑ y
i
=1600,b=4.该班某学生的
i=1 i=1
脚长为23,据此估计其身高为( )
A.160 B.162 C.166 D.170
3.(2020•新课标Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:
℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x,y)(i=
i i
1,2,…,20)得到下面的散点图:
由此散点图,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度
x的回归方程类型的是( )
A.y=a+bx B.y=a+bx2 C.y=a+bex D.y=a+blnx4.(2018•新课标Ⅱ)如图是某地区2000年至2016年环境基础设施投资额y(单位:亿
元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归
模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型
̂(cid:3)
①: y=−30.4+13.5t;根据 2010 年至 2016 年的数据(时间变量 t 的值依次为 1,
̂(cid:3)
2,…,7)建立模型②: y=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
5.(2016•新课标Ⅲ)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿
吨)的折线图.
注:年份代码1﹣7分别对应年份2008﹣2014.
(Ⅰ)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以证明;
(Ⅱ)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化
处理量.
附注:
7 7 √ 7
参考数据:∑ y
i
=9.32,∑ t
i
y
i
=40.17, ∑ (y
i
−y) 2=0.55,√7≈2.646.
i=1 i=1 i=1
n
∑ (t −t)(y −y)
i i
= i=1
参考公式:相关系数r ,
√ n n
∑ (t −t) 2∑ (y −y) 2
i i
i=1 i=1̂(cid:3) ̂(cid:3) ̂(cid:3)
回归方程 y=a+bt中斜率和截距的最小二乘估计公式分别为:
n
∑ (t −t)(y −y)
̂(cid:3) i i
b= i=1 n , ̂ a (cid:3) = y− ̂ b (cid:3) t .
∑ (t −t) 2
i
i=1
6.(2018秋•岳麓区校级月考)越接近高考学生焦虑程度越强,四个高三学生中大约有一
个有焦虑症,经有关机构调查,得出距离高考周数与焦虑程度对应的正常值变化情况如
下表:
周数x 6 5 4 3 2 1
正常值y 55 63 72 80 90 99
(1)作出散点图:
̂(cid:3) ̂(cid:3) ̂(cid:3)
(2)根据上表数据用最小二乘法求出 y 关于 x 的线性回归方程 y=bx+a (精确到
0.01);
(3)根据经验,观测值为正常值的0.85~1.06为正常,若1.06~1.12为轻度焦虑,1.12
~1.20为中度焦虑,1.20及其以上为重度焦虑,若为中度焦虑及其以上,则要进行心理
疏导,若一个学生在距高考第二周时观测值为100,则该学生是否需要进行心理疏导?
n
∑ x y −nx y
̂(cid:3) i i 6 6
其中b= i=1 n ,∑ x i y i =1.452,∑ x❑ i 2=91, ̂ a (cid:3) = y− ̂ b (cid:3) x .
∑ x2−nx2 i=1 i=1
i
i=17.(2020秋•昌江区校级期中)某公司为确定下一年度投入某种产品的宣传费,需了解年
宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对
近8年的年宣传费x 和年销售量y(i=1,2,…,8)数据作了初步处理,得到如图的
i i
散点图及一些统计量的值.
x y w 8 8 8 8
∑ (x−x) ∑ (w−w)2 ∑ (x−x) ∑ (w−w)
i i i i
i=1 i=1 i=1 i=1
2 (y−y) (y−y)
i i
46.6 563 6.8 289.8 1.6 1469 108.8
8
表中 , 1 .
w =√x w= ∑ w
i i 8 i
i=1
附:对于一组数据(u ,v ),(u ,v ),…,(u ,v ),其回归直线v= + 的斜
1 1 2 2 n n
α βμ
n
∑ (u −u)(v −v)
̂(cid:3) i i
率和截距的最小二乘估计分别为 β= i=1 ,̂(cid:3) ̂(cid:3) .
α=v−βu
n
∑ (u −u) 2
i
i=1
(1)根据散点图判断y=a+bx和y=c+d√x哪一个适宜作为销售量y关于年宣传费x的
回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x、y的关系为z=0.2y﹣x,根据(2)的结果回答下列
问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?题型二 . 独立性检验
1.某医疗研究所为了检验新开发的流感疫苗对甲型Hln1流感的预防作用,把1000名注射
了疫苗的人与另外1000名未注射疫苗的人的半年的感冒记录作比较,提出假设 H :
0
“这种疫苗不能起到预防甲型Hln1流感的作用”,并计算出P(Χ2≥6.635)≈0.01,则
下列说法正确的是( )
A.这种疫苗能起到预防甲型Hln1流感的有效率为1%
B.若某人未使用该疫苗,则他在半年中有99%的可能性得甲型Hln1
C.有1%的把握认为“这种疫苗能起到预防甲型Hln1流感的作用”
D.有99%的把握认为“这种疫苗能起到预防甲型Hln1流感的作用”
2.通过随机询问200名性别不同的大学生是否爱好踢毽子运动,计算得到统计量 K2的观
测值k≈4.892,参照附表,得到的正确结论是( )
P(K2≥k) 0.10 0.05 0.025
k 2.706 3.841 5.024
A.有97.5%以上的把握认为“爱好该项运动与性别有关”
B.有97.5%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关”
3.某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每位
学生对食堂的服务给出满意或不满意的评价,得到如下所示的列联表.经计算 K2的观
测值k≈4.762,则可以推断出( )
满意 不满意
男 30 20
女 40 10P 0.100 0.050 0.010
(k2≥k
)
k 2.706 3.841 6.635
3
A.该学校男生对食堂服务满意的概率的估计值为
5
B.调研结果显示,该学校男生比女生对食堂服务更满意
C.有95%的把握认为男、女生对该食堂服务的评价有差异
D.有99%的把握认为男、女生对该食堂服务的评价有差异
4.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了 100
个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如图:
(1)设两种养殖方法的箱产量相互独立,记 A表示事件“旧养殖法的箱产量低于
50kg,新养殖法的箱产量不低于50kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有
关:
箱产量<50kg 箱产量≥50kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到
0.01).
附:
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
K2 n(ad−bc) 2 .
=
(a+b)(c+d)(a+c)(b+d)
5.某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.
第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务
的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过
m和不超过m的工人数填入下面的列联表:
超过m 不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2 n(ad−bc) 2 ,
=
(a+b)(c+d)(a+c)(b+d)
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
6.韩国民意调查机构“盖洛普韩国”2016年11月公布的民调结果显示,受“闺蜜门”时
间影响,韩国总统朴槿惠的民意支持率持续下跌,在所调查的1000个对象中,年龄在
[20,30)的群体有200人,支持率为0%,年龄在[30,40)和[40,50)的群体中,支
持率均为3%;年龄在[50,60)和[60,70)的群体中,支持率分别为6%和13%,若在
调查的对象中,除[20,30)的群体外,其余各年龄层的人数分布情况如频率分布直方
图所示,其中最后三组的频数构成公差为100的等差数列.
(1)依频率分布直方图求出图中各年龄层的人数
(2)请依上述支持率完成下表:
年龄分布 [30,40)和[40, [50,60)和[60, 合计
50) 70)
是否支持
支持
不支持
合计根据表中的数据,能否在犯错误的概率不超过0.001的前提下认为年龄与支持率有关?
附表:
P(K2≥k) 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k 2.072 2.706 3.841 5.024 6.635 7.879 10.828
(参考公式:K2 n(ad−bc) 2 ,其中n=a+b+c+d 参考数据:125×33=
=
(a+b)(c+d)(a+c)(b+d)
15×275,125×97=25×485)
题型三 . 统计案例综合
1.“绿水青山就是金山银山”,“建设美丽中国”已成为新时代中国特色社会主义生态文
明建设的重要内容,某班在一次研学旅行活动中,为了解某苗圃基地的柏树幼苗生长情
况,在这些树苗中随机抽取了120株测量高度(单位:cm),经统计,树苗的高度均在
区间[19,31]内,将其按[19,21),[21,23),[23,25),[25,27),[27,29),
[29,31]分成6组,制成如图所示的频率分布直方图.据当地柏树苗生长规律,高度不
低于27cm的为优质树苗.
(1)求图中a的值;
(2)已知所抽取的这120株树苗来自于A,B两个试验区,部分数据如下列联表:
试验区 试验区 合计
优质树苗 20
非优质树苗 60
合计
将列联表补充完整,并判断是否有99.9%的把握认为优质树苗与A,B两个试验区有关
系,并说明理由;
(3)用样本估计总体,若从这批树苗中随机抽取4株,其中优质树苗的株数为X,求X
的分布列和数学期望EX.附:参考公式与参考数据:K2 n(ad−bc) 2 ,其中n=a+b+c+d.
=
(a+b)(c+d)(a+c)(b+d)
P 0.010 0.005 0.001
(K2≥k )
0
k 6.635 7.879 10.828
0
2.2021年6月17日9时22分,我国酒泉卫星发射中心用长征2F遥十二运载火箭,成功
将神舟十二号载人飞船送入预定轨道,顺利将聂海胜、刘伯明、汤洪波3名航天员送入
太空,发射取得圆满成功,这标志着中国人首次进入自己的空间站.某公司负责生产的
A型材料是神舟十二号的重要零件,该材料应用前景十分广泛.该公司为了将A型材料
更好地投入商用,拟对A型材料进行应用改造、根据市场调研与模拟,得到应用改造投
入x(亿元)与产品的直接收益y(亿元)的数据统计如表:
序号 1 2 3 4 5 6 7 8 9 10 11 12
x 2 3 4 6 8 10 13 21 22 23 24 25
y 15 22 27 40 48 54 60 68.5 68 67.5 66 65
当0<x≤17时,建立了 y与x的两个回归模型:模型①:̂(cid:3) 4.1x+10.9,模型②:
y=
̂(cid:3) 14.4;当x>17时,确定y与x满足的线性回归方程为̂(cid:3) ̂(cid:3) .
y=21.3√x− y=−0.7x+a
(1)根据下列表格中的数据,比较当0<x≤17时模型①,②的相关指数R2的大小,
并选择拟合精度更高、更可靠的模型,预测对 A型材料进行应用改造的投入为17亿元
时的直接收益;
回归模型 模型① 模型②
回归方程 ̂(cid:3) ̂(cid:3)
y=4.1x+10.9 y=21.3√x− 14.4
7 ̂(cid:3) 79.13 20.2
∑ (y −y ) 2
i i
i=1(2)为鼓励科技创新,当应用改造的投入不少于20亿元时,国家给予公司补贴5亿元,
以回归方程为预测依据,根据(1)中选择的拟合精度更高更可靠的模型,比较投入17
亿元与20亿元时公司收益(直接收益+国家补贴)的大小.
n ̂(cid:3)
∑ (y −y❑) 2
i i
附:刻画回归效果的指数R2=1 − i=1 ,且当R2越大时,回归方程的拟合
n
∑ (y −y) 2
i
i=1
效果越好.√17≈4.1.
用最小二乘法求线性同归方程̂(cid:3) ̂(cid:3) ̂(cid:3) 的截距:̂(cid:3) ̂(cid:3) .
y=bx+a a= y−bx
3.中国茶文化博大精深,已知茶水的口感与茶叶类型以及水温有关.经验表明,某种绿茶
用85℃的水泡制,再等到茶水温度降至60℃时饮用,可以产生最佳口感.某学习研究
小组通过测量,得到了下面表格中的数据(室温是20℃).
泡制时间x/min 0 1 2 3 4
水温y/℃ 85 79 74 71 65
ln(y﹣20) 4.2 4.1 4.0 3.9 3.8
(1)小组成员根据上面表格中的数据绘制散点图,并根据散点图分布情况,考虑到茶
水温度降到室温(即20℃)就不能再降的事实,决定选择函数模型y=kcx+20(x≥0)
来刻画.
①令z=ln(y﹣20),求出z关于x的线性回归方程;
②利用①的结论,求出y=kcx+20(x≥0,c>0)中的k与c.
(2)你认为该品种绿茶用85℃的水大约泡制多久后饮用,可以产生最佳口感?
400
参考数据:log 0.6≈4.8,e−0.1≈0.9,e4.2≈66.7, ≈0.6.
0.9 667
n
∑ (x −x)(z −z)
̂(cid:3) i i
参考公式:̂(cid:3) ̂(cid:3) x ̂(cid:3) , b= i=1 ,̂(cid:3) ̂(cid:3) .
z=b +a
n
a=z−bx
∑ (x −x) 2
i
i=1
课后作业 . 统计案例
1.下列说法正确的是( )
A.在统计学中,回归分析是检验两个分类变量是否有关系的一种统计方法B.线性回归方程对应的直线̂(cid:3) ̂(cid:3) ̂(cid:3) 至少经过其样本数据点(x ,y ),(x ,
1 1 2
y=bx+a
y
2
),⋯,(x
n
,y
n
)中的一个点
C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D.在回归分析中,相关指数R2为0.95的模型比相关指数R2为0.78的模型拟合的效果
差
2.为了调查患胃病是否与生活不规律有关,在患胃病与生活不规律这两个分类变量的计算
中,下列说法正确的是( )
A.k越大,“患胃病与生活不规律没有关系”的可信程度越大.
B.k越大,“患胃病与生活不规律有关系”的可信程度越小.
C.若计算得K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05,则在100个生活不规
律的人中必有95人患胃病.
D.从统计量中得知有95%的把握认为患胃病与生活不规律有关,是指有5%的可能性
使得推断出现错误.
3.对某中学的高中女生体重y(单位:kg)与身高x(单位:cm)进行线性回归分析,根
据样本数据(x,y)(i=1,2,3,……,12),计算得到相关系数r=0.9962,用最
i i
小二乘法近似得到回归直线方程为̂(cid:3) 0.85x﹣85.71,则以下结论中正确的是( )
y=
A.x与y正相关
B.x与y具有较强的线性相关关系,得到的回归直线方程有价值
C.若该中学某高中女生身高增加1cm,则其体重约增加0.85kg
D.若该中学某高中女生身高为160cm,则可断定其体重为50.29kg
4.为研究女高中生身高与体重之间的关系,一调查机构从某中学中随机选取 8名女高中生,
其身高x(cm)和体重y(kg)数据如表所示:
编号 1 2 3 4 5 6 7 8
身高x/cm 164 160 158 172 162 162 174 166
体重y/kg 60 46 43 48 48 50 61 52
该调查机构绘制出该组数据的散点图后分析发现,女高中生的身高与体重之间有较强的
线性相关关系.
(1)调查员甲计算得出该组数据的线性回归方程为̂(cid:3) ̂(cid:3) .请你据此预一名身高
y=0.7x+a为176cm的女高中生的体重;
(2)调查员乙仔细观察散点图发现,这8名同学中,编号为1和4的两名同学对应的点
与其他同学对应的点偏差太大,于是提出这样的数据应剔除,请你按照这名调查人员的
想法重新计算线性回归方程,并据此预报一名身高为176cm的女高中生的体重;
(3)请你分析一下,甲和乙谁的模型得到的预测值更可靠?说明理由.
附:对于一组数据(x ,y ),(x ,y ),(x ,y ),…,(x ,y ),其回归直线
1 1 2 2 3 3 n n
n
∑ (x −x)(y −y)
̂(cid:3) i i
̂(cid:3) ̂(cid:3) ̂(cid:3) 的斜率和截距的最小二乘法估计分别为: b= i=1 ,
y=bx+a
n
∑ (x −x) 2
i
i=1
̂(cid:3) ̂(cid:3) .
a= y−bx
5.为了解高校学生平均每天使用手机的时间长短是否与性别有关,某调查小组随机抽取了
25名男生、10名女生进行为期一周的跟踪调查,调查结果如表所示:
平均每天使用手机>3小 平均每天使用手机≤3 合计
时 小时
男生 15 10 25
女生 3 7 10
合计 18 17 35
(Ⅰ)根据列联表判断,是否有90%的把握认为学生使用手机的时间长短与性别有关;
(Ⅱ)在参与调查的平均每天使用手机不超过3小时的10名男生中,有6人使用国产手
机,从这10名男生中任意选取3人,求这3人中使用国产手机的人数X的分布列和数学
期望.
p 0.400 0.250 0.150 0.100 0.050 0.025
(K2≥k )
0
k 0.708 1.323 2.072 2.706 3.841 5.024
0
参考公式:K2 n(ad−bc) 2 (n=a+b+c+d)
=
(a+c)(b+d)(a+b)(c+d)