文档内容
专题 9-2 概率与统计归类
目录
讲高考................................................................................................................................................................................1
题型全归纳.......................................................................................................................................................................6
【题型一】回归直线型................................................................................................................................................6
【题型二】非线性回归型...........................................................................................................................................8
【题型三】直方图型..................................................................................................................................................11
【题型四】柱状图(条形图)型...........................................................................................................................14
【题型五】相关系数型.............................................................................................................................................16
【题型六】残差应用型.............................................................................................................................................19
【题型七】数据调整型.............................................................................................................................................22
【题型八】极差、方差、标准差型......................................................................................................................24
专题训练.........................................................................................................................................................................26
讲高考
1.(2022·全国·统考高考真题)在某地区进行流行病学调查,随机调查了100位某种疾病
患者的年龄,得到如下的样本数据的频率分布直方图:
(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);
(2)估计该地区一位这种疾病患者的年龄位于区间 的概率;
(3)已知该地区这种疾病的患病率为 ,该地区年龄位于区间 的人口占该地区总
人口的 .从该地区中任选一人,若此人的年龄位于区间 ,求此人患这种疾病的
概率.(以样本数据中患者的年龄位于各区间的频率作为患者的年龄位于该区间的概率,
精确到0.0001).
【答案】(1) 岁;
(2) ;
(3) .【分析】(1)根据平均值等于各矩形的面积乘以对应区间的中点值的和即可求出;
(2)设 {一人患这种疾病的年龄在区间 },根据对立事件的概率公式
即可解出;
(3)根据条件概率公式即可求出.
【详解】(1)平均年龄
(岁).
(2)设 {一人患这种疾病的年龄在区间 },所以
.
(3)设 “任选一人年龄位于区间[40,50)”, “从该地区中任选一人患这种疾病”,
则由已知得:
,
则由条件概率公式可得
从该地区中任选一人,若此人的年龄位于区间 ,此人患这种疾病的概率为
.
2.(2022·全国·统考高考真题)某地经过多年的环境治理,已将荒山改造成了绿水青山.
为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面
积(单位: )和材积量(单位: ),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积
0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得 .
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总
和为 .已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区
这种树木的总材积量的估计值.
附:相关系数 .
【答案】(1) ;
(2)
(3)
【分析】(1)计算出样本的一棵根部横截面积的平均值及一棵材积量平均值,即可估计该
林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)代入题给相关系数公式去计算即可求得样本的相关系数值;
(3)依据树木的材积量与其根部横截面积近似成正比,列方程即可求得该林区这种树木的
总材积量的估计值.【详解】(1)样本中10棵这种树木的根部横截面积的平均值
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为 ,
平均一棵的材积量为
(2)
则
(3)设该林区这种树木的总材积量的估计值为 ,
又已知树木的材积量与其根部横截面积近似成正比,
可得 ,解之得 .
则该林区这种树木的总材积量估计为
3.(2021·全国·统考高考真题)某厂研制了一种生产高精产品的设备,为检验新设备生产
产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品
该项指标数据如下:
旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7
新设备 10.1 10.4 10.1 10.0 10.1 10.3 10.6 10.5 10.4 10.5
旧设备和新设备生产产品的该项指标的样本平均数分别记为 和 ,样本方差分别记为
和 .
(1)求 , , , ;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果
,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不
认为有显著提高).
【答案】(1) ;(2)新设备生产产品的该项指标的均
值较旧设备有显著提高.
【分析】(1)根据平均数和方差的计算方法,计算出平均数和方差.
(2)根据题目所给判断依据,结合(1)的结论进行判断.
【详解】(1) ,
,
,
.(2)依题意, , ,
,所以新设备生产产品的该项指标的均值较旧设备有显著提高.
4.(2020·全国·统考高考真题)某学生兴趣小组随机调查了某市100天中每天的空气质量
等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次
[0,200] (200,400] (400,600]
空气质量等级
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为
代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级
为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据
列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有
关?
人次≤400 人次>400
空气质量好
空气质量不好
附: ,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
【答案】(1)该市一天的空气质量等级分别为 、 、 、 的概率分别为 、 、
、 ;(2) ;(3)有,理由见解析.
【分析】(1)根据频数分布表可计算出该市一天的空气质量等级分别为 、 、 、 的
概率;
(2)利用每组的中点值乘以频数,相加后除以 可得结果;
(3)根据表格中的数据完善 列联表,计算出 的观测值,再结合临界值表可得结论.
【详解】(1)由频数分布表可知,该市一天的空气质量等级为 的概率为 ,
等级为 的概率为 ,等级为 的概率为 ,等级为 的概率为
;
(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为(3) 列联表如下:
人次 人次
空气质量好
空气质量不好
,
因此,有 的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
5.(2020·全国·统考高考真题)某沙漠地区经过治理,生态系统得到很大改善,野生动物
数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这
些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,
2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物
的数量,并计算得 , , , ,
.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生
动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该
地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r= , ≈1.414.
【答案】(1) ;(2) ;(3)详见解析
【分析】(1)利用野生动物数量的估计值等于样区野生动物平均数乘以地块数,代入数据
即可;
(2)利用公式 计算即可;
(3)各地块间植物覆盖面积差异较大,为提高样本数据的代表性,应采用分层抽样.
【详解】(1)样区野生动物平均数为 ,
地块数为200,该地区这种野生动物的估计值为
(2)样本 (i=1,2,…,20)的相关系数为
(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,
由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物的数量差异很大,
采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
题型全归纳
【题型一】回归直线型
【讲题型】
例题1.某公司为了解年营销费用x(单位:万元)对年销售量y(单位:万件)的影响,统
计了近5年的年营销费用 和年销售量 ,得到的散点图如图所示,对数据
进行初步处理后,得到一些统计量的值如下表所示.
表中 , , , .已知 可以作为年销售量y关于
年营销费用x的回归方程.
(1)求y关于x的回归方程;
(2)若公司每件产品的销售利润为4元,固定成本为每年120万元,用所求的回归方程估计
该公司每年投入多少营销费用,才能使得该产品一年的收益达到最大?(收益 销售利润
营销费用 固定成本)
参考数据: , .
参考公式:对于一组数据 ,其回归直线 的斜率和截距的
最小二乘估计分别为 , .
【答案】(1) (2)该公司每年投入351万元营销费用时,该产品一年的收益达到最大
【分析】(1)根据题目要求可知,y关于x的回归方程为非线性的,设 ,可得
,代入已知条件所给的数据,计算即可.(2)列出年收益与营销费用的关系
式,通过求导来求得最值.【详解】(1)由 得, ,令 , , ,
则 .
由表中数据可得, ,
则 ,所以 .
即 ,因为 ,所以 ,
故所求的回归方程为 .
(2)设年收益为W万元,则 ,
对 求导,得 ,
令 ,解得 ,
当 时, , 单调递增,当 时, , 单调递减,
因此,当 时W有最大值,即该公司每年投入351万元营销费用时,该产品一年的收
益达到最大.
【讲技巧】
对于一组具有线性相关关系的成对样本数据 ,由最小二乘法
得
, .
将 称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图
形称为经验回归直线.这种求经验回归方程的方法叫做小二乘法,求得的 , 叫做
b,a的最小二乘估计.
(2)观测值:对于响应变量Y,通过观测得到的数据称为观测值.
(3)预测值:通过经验回归方程得到的y称为预测值.
【练题型】
5G技术对社会和国家十分重要,从战略地位来看,业界一般将其定义为继蒸汽机革命、电
气革命和计算机革命后的第四次工业革命.某科技公司生产一种5G手机的核心部件,下
表统计了该公司2017-2021年在该部件上的研发投入x(单位:千万元)与收益y(单位:
亿元)的数据,结果如下:
201
年份 2018 2019 2020 2021
7
研发投入x 2 3 4 5 6
收益y 2 3 3 3 4
(1)求研发投入x与收益y的相关系数r(精确到0.01);
(2)由表格可知y与x线性相关,试建立y关于x的线性回归方程,并估计当x为9千万元时,
该公司生产这种5G手机的核心部件的收益为多少亿元;(3)现从表格中的5组数据中随机抽取2组数据并结合公司的其他信息作进一步调研,记其
中抽中研发投入超出4千万元的组数为X,求X的分布列及数学期望.
参考公式及数据:对于一组数据 (i=1,2,3, ,n),相关系数
⋯
,其回归直线 的斜率和截距的最小二乘估计分别为
, , .
【答案】(1)0.89(2) ,5亿元(3)分布列见解析,
【分析】(1)利用利用相关系数的公式结合表格数据直接求解;
(2)根据最小二乘法先求 ,再求 ,可得回归直线方程,从而可预测x为9千万元时,
该公司生产这种5G手机的核心部件的收益;
(3)利用古典概型结合组合数计算概率,从而可得分布列和期望.
【详解】(1)由题可得 , ,
, ,所以
.
(2)因为 , ,
所以y关于x的线性回归方程为 .
当x=9时, ,所以此时该公司生产这种5G手机的核心部件收益估计为5
亿元.
(3)易知X的可能取值为0,1,2,
, , ,
所以X的分布列为
X 0 1 2
P
所以 .
【题型二】非线性回归型
【讲题型】
例题1..为了研究某种细菌随天数x变化的繁殖个数y,收集数据如下:天数x 1 2 3 4 5 6
繁殖个数y 3 6 13 25 45 100
(1)判断 ( 为常数)与 ( 为常数,且 )哪一个适宜作
为繁殖个数y关于天数x变化的回归方程类型?(给出判断即可,不必说明理由)
(2)对于非线性回归方程 ( 为常数,且 ),令 ,可以得到繁
殖个数的对数z关于天数x具有线性关系及一些统计量的值,
3.50 32 2.85 17.5 307 12.12
(ⅰ)证明:对于非线性回归方程 ,令 ,可以得到繁殖个数的对数z关于天
数x具有线性关系(即 为常数);
(ⅱ)根据(ⅰ)的判断结果及表中数据,建立y关于x的回归方程(系数保留2位小
数).
附:对于一组数据 其回归直线方程 的斜率和截距的最小
二乘估计分别为 .
【答案】(1)以 更适宜作为繁殖个数y关于天数x变化的回归方程类型;(2)(ⅰ)
证明见解析;(ⅱ) .
【分析】(1)根据给定数据作出散点图,再借助散点图即可判断作答.
(2)(ⅰ)由(1)选定的回归方程类型,取对数即可得关于x的直线方程作答;(ⅱ)
由(ⅰ)的结果,利用最小二乘法求解作答.
【详解】(1)作出繁殖个数y关于天数x变化的散点图,如图,
观察散点图知,样本点分布在一条指数型曲线周围,
所以 更适宜作为繁殖个数y关于天数x变化的回归方程类型.
(2)(ⅰ)由(1)知, ( 为常数,且 ),又 ,
因此 ,令 ,即有 为常数,
所以繁殖个数的对数z关于天数x具有线性关系.
(ⅱ) , ,由(ⅰ)知,,
,因此 ,
所以y关于x的回归方程为 .
【讲技巧】
非线性回归,可以通过换元转化为线性回归。比较常见的有反比例型换元,一元二次型
换元,指数型换元,对数型换元,对于指数型,也可以通过取对数换元转化为线性回
归。
【练题型】
学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的“自主学习”,包括预
习,复习,归纳整理等等,现在人们普遍认为课后花的时间越多越好,某研究机构抽查了
部分高中学生,对学生花在课后的学习时间(设为x分钟)和他们的数学平均成绩(设为
y)做出了以下统计数据,请根据表格回答问题:
x 60 70 80 90 100 110 120 130
y 92 109 114 120 119 121 121 122
(1)请根据所给数据绘制散点图,并且从以下三个函数从① ;②
:③ 三个函数中选择一个作为学习时间x和平均y的
回归类型,判断哪个类型更加符合,不必说明理由;
(2)根据(1)中选择的回归类型,求出y与x的回归方程;
(3)请根据此回归方程,阐述你对学习时长和成绩之间关系的看法.
参考公式:回归方程 中斜率和截距的最小二乘估计公式分别为
.
参考数据:
【答案】(1)散点图见解析, 最合适
(2) (3)答案见解析
【分析】(1)根据所给数据可得散点图,根据散点图可得函数模型;
(2)由(1)中模型可得 ,设 , ,则 ,利用公式
可求后者,从而得到前者;
(3)根据回归方程可得相应的看法.
(1)
散点图如图所示:由图象可知 最合适.
(2)
对 两边取以 为底的对数可得 ,
设 , ,则 ,
,
, ,
故 即 ,
.
(3)
此回归方程为关于时间的增函数,说明随着学习时间的增加,学习成绩是提高的,但是函
数的增速先快后慢,说明如果原来成绩较低,通过增加学习时间可以有效提高成绩,但是
当成绩提高到120分左右时,想要通过延长学习时间来提高学习成绩就比较困难了,需要
想别的办法.
【题型三】直方图型
【讲题型】
例题1.2022年卡塔尔世界杯是第二十二届世界杯足球赛,是历史上首次在卡塔尔和中东国
家境内举行、也是继2002年韩日世界杯之后时隔二十年第二次在亚洲举行的世界杯足球赛,
除此之外,卡塔尔世界杯还是首次在北半球冬季举行、第二次世界大战后首次由从未进过世
界杯的国家举办的世界杯足球赛.某学校统计了该校500名学生观看世界杯比赛直播的时长
情况(单位:分钟),将所得到的数据分成7组;
(观看时长均在
内),并根据样本数据绘制如图所示的频率分布直方图(1)求a的值,并估计样本数据的中位数;
(2)采用分层抽样的方法在观看时长在 和 的学生中抽取6人、现从这6人
中随机抽取3人分享观看感想,求抽取的3人中恰有2人的观看时长在 的概率.
【答案】(1) ;中位数为160(2)
【分析】(1)由频率和频率和为1,能求出 的值,利用直方图中能估计样本数据的中位
数;
(2)采用分层抽样的方法能求出观看时长在 和 内应抽取人数,然后利
用古典概型的概率计算公式求解即可.
【详解】(1)解:由频率分布直方图性质得:
,
解得 .
, 的频率为 .
估计样本数据的中位数为160;
(2)解:采用以样本量比例分配的分层随机抽样方式,
则 中抽取 人,分别记为 , , , ,
中抽取 人,分别记为 , ,
现从这6人中随机抽取3人分享观看感想,包含的基本事件有:
共
20个,
抽取的3人中恰有2人的观看时长在 ”基本事件有:
共12个,
所以抽取的3人中恰有2人的观看时长在 的概率为 .
【讲技巧】
众数、中位数、平均数与频率分布直方图的关系
(1)平均数:在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标
与小矩形的面积的乘积之和近似代替.
(2)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.(3)众数:众数是最高小矩形底边的中点所对应的数据.
【练题型】
某学校为调查高一新生上学路程所需要的时间 (单位:分钟),从高一年级新生中随机抽取
100名新生按上学所需时间分组: 第1组 ,第2组 ,第3组 ,第4组
,第5组 ,得到的频率分布直方图如图所示.
(1)根据图中数据求 的值;
(2)若从第3,4,5组中用分层抽样的方法抽取6名新生参与交通安全问卷调查,应从第3,
4,5组各抽取多少名新生?
(3)在(2)的条件下,该校决定从这6名新生中随机抽取2名新生参加交通安全宣传活动,
求第4组至少有一名志愿者被抽中的概率.
【答案】(1)0.02(2)3,2,1(3)
【分析】(1)利用频率分布直方图中各矩形的面积之和为1进行求解;
(2)先利用频率分布直方图计算第3,4,5组的学生人数,再利用分层抽样的特点(等比例
抽样)进行求解;
(3)利用列举法和古典概型的概率公式进行求解.
【详解】(1)因为 ,
所以 .
(2)依题意可知,
第3组的人数为 ,
第 4 组的人数为 ,
第 5 组的人数为 ,
所以第3,4,5组共有学生 (名),
所以利用分层抽样的方法在 60 名学生中抽取 6 名新生,
分层抽样的抽样比为 ,
所以在第 3 组抽取的人数为 (名),
在第 4 组抽取的人数为 (名),
在第 5 组抽取的人数为 (名).
即从第3,4,5组各抽取3,2,1名新生.
(3)记第 3 组的 3 名新生为 , , ;
第 4 组的 2 名新生为 , ; 第 5 组的 1 名新生为 ,
则从 6 名新生中抽取 2 名新生, 所有等可能的结果为:,共 15 种,
其中第 4 组的 2 名新生 至少有一名新生被抽中的有:
, 共 9 种,
所以第 4 组至少有一名新生被抽中的概率为 .
【题型四】柱状图(条形图)型
【讲题型】
例题1.某服装公司计划今年夏天在其下属实体店销售一男款衬衫,上市之前拟在该公司的
线上旗舰店进行连续20天的试销,定价为260元/件.试销结束后统计得到该线上专营店这
20天的日销售量(单位:件)的数据如图.
(1)若该线上专营店试销期间每件衬衫的进价为200元,求试销期间该衬衫日销售总利润
高于9500元的频率.
(2)试销结束后,这款衬衫正式在实体店销售,每件衬衫定价为360元,但公司对实体店
经销商不零售,只提供衬衫的整箱批发,大箱每箱有70件,批发价为160元/件;小箱每
箱有60件,批发价为165元/件.某实体店决定每天批发大小相同的2箱衬衫,根据公司规
定,当天没销售出的衬衫按批发价的8折转给另一家实体店.根据往年的销售经验,该实体
店的销售量为线上专营店销售量的 ,以线上专营店这20天的试销量估计该实体店连续
20天的销售量.以该实体店连续20天销售该款衬衫的总利润作为决策,试问该实体店每天
应该批发2大箱衬衫还是2小箱衬衫?
【答案】(1) ;(2)该实体店应该每天批发2大箱衬衫.
【分析】(1)先利用不等式性质求得要使得日销售总利润高于9500元时日销售衬衫的件
数的取值范围,然后根据频数分布图计算对应的天数,从而求得响应频率;.
(2)由题可知,该实体店20天的日销售量情况为3天日销售量为48件,6天日销售量为
80件,7天日销售量为128件,4天日销售量为160件.
分别就选择批发2小箱时和2大箱时各种情况下的日利润列举计算,并求得相应的总利润,
进行比较大小即可做出判断.
【详解】解:(1)因为试销期间每件衬衫的利润为 元,
所以要使得日销售总利润高于9500元,则日销售衬衫的件数大于 ,故所求频率为 .
(2)由题可知,该实体店20天的日销售量情况为3天日销售量为48件,6天日销售量为
80件,7天日销售量为128件,4天日销售量为160件.
若选择批发2小箱,则批发成本为 元,
当日销售量为48件时,
当日利润为 元;
当日销售量为80件时,
当日利润为 ;
当日销量为128件或160件时,
当日利润为 元.
所以这20天销售这款衬衫的总利润为 元.
若选择批发2大箱,则批发成本为 元,
当日销售量为48件时,
当日利润为 元;
当日销售量为80件时,
当日利润为 元;
当日销量为128件时,
当日利润为 元.
当日销售量为160件时,
当日利润为 元.
所以这20天销售这款衬衫的总利润为 元.
因为 ,所以该实体店应该每天批发2大箱衬衫.
【练题型】
某企业销售部门为了解员工的销售能力,设计了关于销售的问卷调查表,从该部门现有员
工中性别(男生占45%)分层抽取n名进行问卷调查,得分分为1,2,3,4,5五个档次,各
档次中参与问卷调查的员工的人数如条形图所示,已知第5档员工的人数占总人数的 .
(1)(i)求n与a的值;
(ii)若将某员工得分所在的档次作为该员工的销售能力基数(记销售能力基数 为能力
基数高,其他均为能力基数不高).在销售能力基数为5的员工中,女生与男生的比例为
7∶3,以抽的n名员工为研究对象,完成下面的 列联表,并判断是否有90%的把握认
为销售能力基数高不高与性别有关.
男生 女生 合计
销售能力基数高
销售能力基数不
高
合计
(2)为提高员工的销售能力,部门组织员工参加各种形式的培训讲座,经过培训,每位员工的营销能力指数y与销售能力基数 以及参加培训的次数t满足函数关系式
.如果员工甲的销售能力基数为4,员工乙的销售能力基数为2,则
在甲不参加培训的情况下,乙至少需要参加多少次培训,其营销能力指数才能超过甲?
参考数据及参考公式: ,
附: ,其中 .
0.15 0.10 0.05 0.01
2.072 2.706 3.841 6.635
【答案】(1)(i) ;(ii)列联表答案见解析,没有90%的把握认为销售能
力基数高不高与性别有关;(2)乙至少需要参加17次培训,其营销能力指数才能超过甲.
【分析】(1)(i)根据题意,列方程求出n、a的值;
(ii)根据题意,填写 列联表,计算出K2,对照临界值表即可得出结论;
(2)计算员工甲的学习能力以及员工乙在参加了t次学习方法课程后的学习能力,建立不
等式即可求解.
【详解】解:(1)(i)由题意,可得 ,所以 ;
(ii) 列联表如表所示:
男生 女生 合计
销售能力基数高 6 14 20
销售能力基数不
39 41 80
高
合计 45 55 100
∴ ,
所以没有90%的把握认为销售能力基数高不高与性别有关;
(2)员工甲不参加培训的营销能力指数 ,
员工乙参加t次培训后的营销能力指数 ,
由已知得 ,则 ,
所以乙至少需要参加17次培训,其营销能力指数才能超过甲.
【题型五】相关系数型
【讲题型】
例题1.党的二十大报告提出:“必须坚持科技是第一生产力、人才是第一资源、创新是第一
动力,深入实施科教兴国战略、人才强国战略、创新驱动发展战略,开辟发展新领域新赛道,
不断塑造发展新动能新优势.”某数字化公司为加快推进企业数字化进程,决定对其核心系
统DAP,采取逐年增加研发人员的办法以提升企业整体研发和创新能力.现对2018~2022年
的研发人数作了相关统计(年份代码1~5分别对应2018~2022年)如下折线图:(1)根据折线统计图中数据,计算该公司研发人数 与年份代码 的相关系数 ,并由此判
断其相关性的强弱;
(2)试求出 关于 的线性回归方程,并预测2023年该公司的研发人数(结果取整数).
参考数据: 当 认为两个变量间的相关性较
强
参考公式 相关系数 ,
回归方程 中的斜率和截距的最小二乘法估计公式分别为 ,
.
【答案】(1)相关系数为0.988,相关变量 有较强的相关性
(2) ,540人
【分析】(1)将数据代入公式计算即可求解;
(2)结合(1)和题中的数据,代入公式计算即可求解.
【详解】(1)由题知
因为 ,所以认为相关变量 有较强的相关性.
(2)由(1)得
回归方程为
当 时 ,即2023年该公司投入研发人数约540人.
【讲技巧】
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关
系称为相关关系.如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,就
称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋
势,则称这两个变量负相关.
相关系数r的性质:
①当 时,称成对样本数据正相关;
当 时,成对样本数据负相关;
当 时,成对样本数据间没有线性相关关系;
②样本相关系数r的取值范围为 _;
当 越接近1时,成对样本数据的线性相关程度越强;
当 越接近0时,成对样本数据的线性相关程度越弱.
【练题型】
目前直播带货已经席卷全国了,不论老人小孩、男生女生,大家都听说或是尝试过直播购
物,它所具有的能突破时间、空间限制的特点已经吸引了越多越多的人.由此可见,它的受
众非常广泛,是大势所趋.不管是什么行业领域,都可以去从事直播带货.直播带货的兴起为
人们提供了更多就业岗位.小明是一名刚毕业的大学生,通过直播带货的方式售卖自己家乡
的特产,下面是他近4个月的家乡特产收入 (单位:万元)情况,如表所示.
月份 5 6 7 8
时间代号 1 2 3 4
家乡特产收入 3.9 3.3 2.2 1.8
(1)根据5月至8月的数据,求y与t之间的线性相关系数(精确到0.01),并判断相关性;
(2)求出y关于t的回归直线方程,并预测9月收入能否突破1万元,请说明理由.
附:①相关系数公式: ;(若 ,
则线性相关程度非常强,可用线性回归模型拟合)
②一组数据 ,其回归直线方程 的斜率和截距的最小二乘
估计公式分别为 , ;
③参考数据: ,
, .
【答案】(1) ;认为y与t之间有很强的相关性.(2)y关于t的回归直线方程为:
,不能.
【分析】(1)直接代入公式求出认为y与t之间的线性相关系数,即可判断;
(2)代入公式求出系数 ,即可得到回归方程,并求出9月收入即可判断.
【详解】(1)由表格数据可知: , ,则,
由题意知: ,
,
代入相关系数公式可得: ,
因为 ,所以认为y与t之间有很强的相关性.
(2)由题意可得: ,
, , ,
所以 ,则 ,
所以y关于t的回归直线方程为: ,
把 代入可得: ,所以预测9月收入不能突破1万元.
【题型六】残差应用型
【讲题型】
例题1.光伏发电是利用太阳能电池及相关设备将太阳光能直接转化为电能.近几年在国内出
台的光伏发电补贴政策的引导下,某地光伏发电装机量急剧上涨,如下表:
年份 2011年 2012年 2013年 2014年 2015年 2016年 2017年 2018年
年份代码 1 2 3 4 5 6 7 8
新增光伏装机量 兆瓦 0.4 0.8 1.6 3.1 5.1 7.1 9.7 12.2
某位同学分别用两种模型:① ,② 进行拟合,得到相应的回归方程并
进行残差分析,残差图如下(注:残差等于 ):
经过计算得 , , ,,其中 , .
(1)根据残差图,比较模型①,②的拟合效果,应该选择哪个模型?并简要说明理由.
(2)根据(1)的判断结果及表中数据建立 关于 的回归方程,并预测该地区2020年新
增光伏装机量是多少.(在计算回归系数时精确到0.01)
附:回归直线的斜率和截距的最小二乘估计公式分别为: , .
【答案】(1)模型①的拟合效果相对较好;详见解析(2)回归方程为 ;
预测该地区2020年新增光伏装机量为 (兆瓦)
【分析】
(1)根据残差图的带状区域越窄,其模型的拟合效果越好即可判断;
(2)利用换元的思想,令 ,把非线性的回归方程 转化为线性的回归方程
,结合题中的数据和 公式求出 ,再由回归直线经过样本中心点 ,求出
即可求出回归方程;把 代入回归方程求出 即为所求的预测值.
(1)选择模型①.
理由如下:根据残差图可以看出,模型①的估计值和真实值相对比较接近,模型②的残差
相对较大一些,所以模型①的拟合效果相对较好.
(2)由(1),知 关于 的回归方程为 ,令 ,则 .
由所给数据可得 ,
,
所以 ,
由线性回归方程经过样本中心点 可得,
.
所以 关于 的回归方程为 .
预测该地区2020年新增光伏装机量为 (兆瓦).
【讲技巧】
残差:观测值减去_预估值称为残差
【练题型】
某新兴环保公司为了确定新开发的产品下一季度的营销计划,需了解月宣传费x(单位:
千元)对月销售量y(单位:t)和月利润z(单位:千元)的影响,收集了2019年12月至
2020年5月共6个月的月宣传费 和月销售量 ( )的数据如下表:
月份 12 1 2 3 4 5宣传费x 1 3 5 7 9 11
月销售量y 14.21 20.31 31.8 31.18 37.83 44.67
现分别用两种模型① ,② 分别进行拟合,得到相应的回归方程并进行残
差分析,得到如图所示的残差图及一些统计量的值:(注残差在数理统计中是指实际观察
值与估计值(拟合值)之间的差.)
6 30 1284.24 286
(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由;
(2)残差绝对值大于2的数据被认为是异常数据,需要剔除,剔除异常数据后求出(1)
中所选模型的回归方程;
(3)已知该产品的月利润z与x,y的关系为 ,根据(2)的结果回答下列问
题:
(i)若月宣传费 时,该模型下月销售量y的预报值为多少?
(ii)当月宣传费x为何值时,月利润z的预报值最大?
附:对于一组数据 , ,…, ,其回归直线 的斜率和截距的
最小二乘估计分别为 ,
【答案】(1)选择模型①,理由见解析;(2) ;(3)(i)53.04(千元);
(ii) (千元)时, 月利润z的预报值最大.
【分析】
(1)从两个方面说明应该选择模型①;
(2)利用最小二乘法原理求回归方程;
(3)(i)把 代入回归方程即得解;
(ii)求出 ,再利用二次函数分析得解.
(1)应该选择模型①,一是因为模型①残差点整体上更接近 ,二是因为残差点比较
均匀地落在水平的带状区域中,说明该模型拟合精度越高,回归方程的预报精度越高.
(2)剔除异常数据,即2020年2月的数据后,由题得 ;
, ,
;
,
所以 关于 的线性回归方程为 .
(3)(i)把 代入回归方程得: ,故预报值约为53.04(千元)
(ii)
所以当 (千元)时,月利润预报值最大.
【题型七】数据调整型
【讲题型】
例题1..为了监控某种零件的一条生产线的生产过程,检验员每隔 从该生产线上随机
抽取一个零件,并测量其尺寸(单位: )做好记录.下表是检验员在一天内依次抽取的
个零件的尺寸:
抽取次序
零件尺寸( )
抽取次序 9 10 11 12 13 14 15 16
零件尺寸( )
经计算得 , ,
, ,其中 为抽取的第 个零件的尺寸(
).
(1)求 的相关系数 ,并回答是否可以认为这一天生产的零件尺寸不随生
产过程的进行而系统地变大或变小(若 ,则可以认为零件的尺寸不随生产过程的
进行而系统地变大或变小);
(2)一天内抽检的零件中,如果出现了尺寸在 之外的零件,就认为这条生产线
在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
①从这一天抽检的结果看,是否需对当天的生产过程进行检查?
②在 之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零
件尺寸的均值与标准差.(精确到 )
【答案】(1) ;可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大
或变小(2)①需对当天的生产过程进行检查;②均值的估计值为 ,标准差的估计值为
.
【分析】(1)将样本数据代入相关系数公式可求得 ,根据 可得结论;
(2)①计算出 对应数据,对比样本数据即可得到结论;
②剔除出数据后,重新计算出平均数和方差,由方差和标准差关系可得标准差.
【详解】(1)由样本数据得相关系数:
.
, 可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)① , , , ,
抽取的第13个零件的尺寸在 以外,
需对当天的生产过程进行检查.
②剔除离群值,即第 个数据,剩下数据的平均数为 ,
即这条生产线当天生产的零件尺寸的均值的估计值为 ;
由 得: ,
剔除第 个数据,剩下数据的样本方差为 ,
样本标准差为 ,
即这条生产线当天生产的零件尺寸的标准差的估计值为 .
【练题型】
习近平总书记在党的十九大报告中指出,要在“幼有所育、学有所教、劳有所得、病有所
医、老有所养、住有所居、弱有所扶”上不断取得新进展,保证全体人民在共建共享发展
中有更多获得感.现S市政府针对全市10所由市财政投资建设的敬老院进行了满意度测评,
得到数据如下表:
敬老院 A B C D E F G H I K
满意度x(%) 20 34 25 19 26 20 19 24 19 13
投资原y(万元) 80 89 89 78 75 71 65 62 60 52
(1)求投资额 关于满意度 的相关系数;
(2)我们约定:投资额 关于满意度 的相关系数 的绝对值在0.75以上(含0.75)是线
性相关性较强,否则,线性相关性较弱.如果没有达到较强线性相关,则采取“末位淘汰”
制(即满意度最低的敬老院市财政不再继续投资,改为区财政投资).求在剔除“末位淘
汰”的敬老院后投资额 关于满意度 的线性回归方程(系数精确到0.1)
参考数据: , , ,
, .
附:对于一组数据 ,其回归直线 的斜率和截距的最小二乘估计公式分别为: .线性相关系数
.
【答案】(1)0.72;(2)
【分析】
(1)由题意,根据相关系数的公式,可得 的值,即可求解;
(2)由(1)可知,得投资额 关于满意度 没有达到较强线性相关,利用公式求得 的
值,即可得出回归直线的方程.
(1)由题意,根据相关系数的公式,可得
.
(2)由(1)可知,因为 ,所以投资额 关于满意度 没有达到较强线性相关,
所以要“末位淘汰”掉K敬老院.
重新计算得 , ,
,
,
所以 ,
.
所以所求线性回归方程为 .
【题型八】极差、方差、标准差型
【讲题型】
例题1.某校有高一学生1000人,其中男女生比例为 ,为获得该校高一学生的身高(单
位: )信息,采用随机抽样方法抽取了样本量为50的样本,其中男女生样本量均为
25,计算得到男生样本的均值为172,标准差为3,女生样本的均值为162,标准差为4.
(1)计算总样本均值,并估计该校高一全体学生的平均身高;
(2)计算总样本方差.
【答案】(1)167;168(2)37.5
【分析】(1)根据男女生的样本均值计算样本均值;根据男女生的平均身高得到全校所有
学生的身高总和,再求学生身高的平均值;
(2)根据男女生的样本均值和方差,直接计算样本总体的方差即可.
【详解】(1)把男生样本记为 ,平均数记为 ,方差记为 ;
把女生样本记为 ,平均数记为 ,方差记为 ;
把样本数据的平均数记为 ,方差记为 ;高一全体学生的身高均值记为 .根据平均数的定义,总样本均值为: ;
高一全体学生的身高均值为: ;
(2)根据方差的定义,总样本方差为:
,
由 ,可得: ,
同理, .
因此,
所以,总的样本方差为 .
【讲技巧】
方差的定义:
如果 的平均数为 ,那么方差可用求和符号表示为 _=
_.
方差的性质:如果a,b为常数,那么 的方差为 _.
【练题型】
随机抽取100名学生,测得他们的身高(单位: ),按照区间 , ,
, , 分组,得到样本身高的频率分布直方图如图所示.
(1)求频率分布直方图中 的值及身高在 及以上的学生人数;(2)估计该校100名生学身高的75%分位数.
(3)若一个总体划分为两层,通过按样本量比例分配分层随机抽样,各层抽取的样本量、
样本平均数和样本方差分别为: , , ; , , .记总的样本平均数为 ,样本
方差为 ,证明:
① ;
② .
【答案】(1)0.06 60人;(2) ;(3)详见解析.
【分析】(1)利用频率分布直方图中长方形面积之和为1,易求出 ,进而利用频率分布
直方图可求身高在 及以上的学生人数;
(2)可设该校100名生学身高的75%分位数,再利用频率分布直方图计算即得;
(3)利用样本平均数,方差公式化简即证.
【详解】(1)由频率分布直方图可知 ,解得
,
身高在 及以上的学生人数 (人).
(2) 的人数占比为 %,
的人数占比为 %,
所以该校100名生学身高的75%分位数落在 ,
设该校100名生学身高的75%分位数为 ,
则 %,解得 ,
故该校100名生学身高的75%分位数为 .
(3)由题得① ;②
又
同理 ,
∴
.
1(2023·辽宁·校联考一模)一所中学组织学生对某线下某实体店2022年部分月份的月利
润情况进行调查统计,得到的数据如下:
月份 2 4 6 8 10 12净利润 (万元) 0.9 2.0 4.2 3.9 5.2 5.1
0.7 1.4 1.8 2.1 2.3 2.5
1.4 2.0 2.4 2.8 3.2 3.5
根据散点图,准备用① 或② 建立 关于 的回归方程.
(1)用线性相关系数说明上面的两种模型哪种适宜作为 关于 的回归方程?
(2)由参考数据,根据(1)的判断结果,求 关于 的回归方程(精确到0.1).
附:对于一组数据 ( ,2,3, ,n),其回归直线 的斜率和截距的
⋯
最小二乘估计分别为 , .相关系数
.
参考数据: , , , , ,
, , ,
, .
【答案】(1)模型①
(2)
【分析】(1)计算相关系数比较大小即可确定更适宜的模型;
(2)利用最小二乘法相关公式即可求解.
【详解】(1)由题意 的线性相关系数的相关系数
.
的相关系数 .
所以 ,因此模型①拟合效果更好.
(2)根据(1)的判断结果,
计算 与 由参考数据 ,
所以 .于是 关于 的回归方程①为 .
2.(2023·全国·校联考模拟预测)基础学科招生改革试点,也称强基计划,强基计划是教
育部开展的招生改革工作,主要是为了选拔培养有志于服务国家重大战略需求且综合素质
优秀或基础学科拔尖的学生.聚焦高端芯片与软件、智能科技、新材料、先进制造和国家安全
等关键领域以及国家人才紧缺的人文社会科学领域.某校在一次强基计划模拟考试后,从全
体考生中随机抽取52名,获取他们本次考试的数学成绩(x)和物理成绩(y),绘制成如
图散点图:
根据散点图可以看出y与x之间有线性相关关系,但图中有两个异常点A,B.经调查得知,
A考生由于重感冒导致物理考试发挥失常,B考生因故未能参加物理考试.为了使分析结果
更科学准确,剔除这两组数据后,对剩下的数据作处理,得到一些统计的值: ,
, , , ,其中 分别
表示这50名考生的数学成绩、物理成绩, ,2,…,50,y与x的相关系数 .
(1)若不剔除A,B两名考生的数据,用52组数据作回归分析,设此时y与x的相关系数为
.试判断 与r的大小关系(不必说明理由);
(2)求y关于x的线性回归方程(系数精确到0.01),并估计如果B考生加了这次物理考试
(已知B考生的数学成绩为125分),物理成绩是多少?(精确到0.0)
附:线性回归方程 中: .
【答案】(1)
(2) ,估计B考生的物理成绩约为81.2分
【分析】(1)根据已知条件,结合散点图,即可求解.
(2)根据已知条件,结合最小二乘法,以及线性回归方程的公式,求出线性回归方程,再
将 代入,即可求解.
【详解】(1)
理由如下:由图可知, 与 成正相关关系,
①异常点 , 会降低变量之间的线性相关程度,
②52个数据点与其回归直线的总偏差更大,回归效果更差,所以相关系数更小,
③50个数据点与其回归直线的总偏差更小,回归效果更好,所以相关系数更大,
④50个数据点更贴近其回归直线 ,
⑤52个数据点与其回归直线更离散.
(2)由题中数据可得: ,
所以 ,所以 ,,
所以 ,
将 代入,得 ,
所以估计B考生的物理成绩约为81.2分.
3.(2023·河南南阳·南阳中学校考模拟预测)当顾客在超市排队结账时,“传统排队法”
中顾客会选他们认为最短的队伍结账离开,某数学兴趣小组却认为最好的办法是如图(1)
所示地排成一条长队,然后排头的人依次进入空闲的收银台结账,从而让所有的人都能快
速离开,该兴趣小组称这种方法为“长队法”.为了检验他们的想法,该兴趣小组在相同条
件下做了两种不同排队方法的实验.“传统排队法”的顾客等待平均时间为5分39秒,图
(2)为“长队法”顾客等待时间柱状图.
(1)根据柱状图估算使用“长队法”的100名顾客平均等待时间,并说明选择哪种排队法更
适合;
(2)为进一步分析“长队法”的可行性,对使用“长队法”的顾客进行满意度问卷调查,发
现等待时间为[8,10)的顾客中有5人满意,等待时间为[10,12]的顾客中仅有1人满意,
在这6人中随机选2人发放安慰奖,求获得安慰奖的都是等待时间在[8,10)顾客的概率.
【答案】(1) (分钟),选择“传统排队法”更适合
(2)
【分析】(1)根据柱状图中的数据和平均数的公式求解使用“长队法”的100名顾客平均
等待时间,从而进行比较,
(2)利用列举法求解,先列出6人中随机选2人的所有情况,然后找出先出的两人都是等
待时间在[8,10)的情况,再利用古典概型的概率公式求解
(1)
(分钟)
因为使用“长队法”顾客的平均等待时间长于使用“传统排队法”的顾客平均等待时间,
所以选择“传统排队法”更适合;
(2)
记事件A=“获得安慰奖的都是等待时间在[8,10)的顾客”,用1,2,3,4,5表示等待时
间在[8,10)的满意顾客,用a表示等待时间在[10,12]的满意顾客,
Ω={(1,2),(1,3),(1,4)(1,5),(1,a),(2,3),(2,4),(2,
5),(2,a),(3,4),(3,5),(3,a),(4,5),(4,a),(5,a)}
n(Ω)=15,事件A包含的样本点为(1,2),(1,3),(1,4)(1,5),(2,
3),(2,4),(2,5),(3,4),(3,5),(4,5),
,
.
4.(2023·云南昆明·统考一模)某新能源汽车公司从2018年到2022年汽车年销售量
(单位:万辆)的散点图如下:记年份代码为
(1)根据散点图判断,模型① 与模型② ,哪一个更适宜作为年销售量
关于年份代码 的回归方程?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果,建立 关于 的回归方程;
(3)预测2023年该公司新能源汽车销售量.
参考数据:
3
55 979 657 2805
4
参考公式:回归方程 中斜率和截距的最小二乘估计公式分别为:
,
【答案】(1)
(2)
(3)预测2023年该公司新能源汽车销售量 万辆
【分析】(1)根据散点图结合一次函数、二次函数的图象特征分析判断;
(2)换元令 ,结合题中数据与公式运算求解;
(3)令 ,代入回归方程运算求解.
【详解】(1)由散点图可知:散点图与一次函数偏差较大,与二次函数较接近,故模型②
更适合.
(2)令 ,则 , ,
对于回归方程 ,
可得: , ,
故回归方程为 ,即 .
(3)由(2)可得: ,令 ,则 ,
预测2023年该公司新能源汽车销售量 万辆.
5.(2023·陕西安康·统考二模)某公司进行工资改革,将工作效率作为工资定档的一个重
要标准,大大提高了员工的工作积极性,但也引起了一些老员工的不满.为了调查员工的
工资与工龄的情况,人力资源部随机从公司的技术研发部门中抽取了16名员工了解情况,
结果如下:
工龄
1 2 3 4 5 6 7 8
(年):
年薪
9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04
(万):
工龄
9 10 11 12 13 14 15 16
(年):
年薪
10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95
(万):
经计算得 , ,
, ,其中 表示工龄为 年的年薪,
.
(1)求年薪 与工龄 的相关系数 ,并回答是否可以认为年薪与工龄具有线性
相关关系(若 ,则可以认为年薪与工龄不具有线性相关关系).
(2)在抽取的16名员工中,如果年薪都在 之内,则继续推进工资改革,同时给
每位老员工相应的补贴,如果有员工年薪在 之外,该员工会被人力资源部约
谈并进行岗位调整,且需要重新计算原抽取的16名员工中留下的员工年薪的均值和标准差,
由于人力资源部需要安抚老员工的情绪,工作繁重,现请你帮忙计算留下的员工年薪的均
值和标准差.(精确到0.01)
附:样本 的相关系数 , ,
, , .
【答案】(1) ,可以认为年薪与工龄不具有线性相关关系
(2)均值为 万元,标准差为
【分析】(1)由样本数据得相关系数 , 可以认为年薪与工龄不具有线
性相关关系;
(2) 由样本数据可以看出工龄为13年的员工年薪在 以外,留下15名员工,求
剩下员工年薪的均值和标准差即可.
【详解】(1)由样本数据得 的相关系数为,
,因此可以认为年薪与工龄不具有线性相关关系.
(2)由于 , ,由样本数据可以看出工龄为13年的员工年薪在
以外,
因此会被约谈并进行岗位调整,所以留下15名员工,剩下员工年薪的均值为
万元,
余下员工年薪的方差为
所以标准差的估计值为
6.(2023·山东潍坊·统考一模)某学校研究性学习小组在学习生物遗传学的过程中,为验
证高尔顿提出的关于儿子成年后身高y(单位: )与父亲身高x(单位: )之间的关
系及存在的遗传规律,随机抽取了5对父子的身高数据,如下表:
17
父亲身高 160 170 185 190
5
17
儿子身高 170 174 180 186
5
(1)根据表中数据,求出 关于 的线性回归方程,并利用回归直线方程分别确定儿子比父
亲高和儿子比父亲矮的条件,由此可得到怎样的遗传规律?
(2)记 ,其中 为观测值, 为预测值, 为对应
的残差.求(1)中儿子身高的残差的和、并探究这个结果是否对任意具有线性相关关
系的两个变量都成立?若成立加以证明;若不成立说明理由.
参考数据及公式:
.
【答案】(1) , 时,儿子比父亲高; 时,儿子比父亲矮,
儿子身高有一个回归,回归到全种群平均高度的趋势.
(2)0;任意具有线性相关关系的变量 ,证明见解析
【分析】(1)根据已知求得回归方程的系数,即可得回归方程,解不等式可得到结论;
(2)结合题中数据进行计算,可求得儿子身高的残差的和,从而可得结论,结合回归方程
系数的计算公式即可证明.
【详解】(1)由题意得
,,
,所以回归直线方程为 ,
令 得 ,即 时,儿子比父亲高;
令 得 ,即 时,儿子比父亲矮,
可得当父亲身高较高时,儿子平均身高要矮于父亲,即儿子身高有一个回归,回归到全种
群平均高度的趋势.
(2)由 可得 ,
所以 ,
又 ,所以 ,
结论:对任意具有线性相关关系的变量 ,
证明: .