文档内容
第 1 讲 统计
本讲为高考命题热点,分值17分,题型以解答题为主,选择题多出现于高考前六题选
择题中,或多选题前两个题,填空题的第一二题,相对来说较为简单,但近几年概率统计
也与数列,导数等其他知识点结合,提高了难度,或者与现实生活结合,主要考查抽样,
分层抽样,古典概型,频率分布直方图,分布列,独立性检验与回归方程等内容,需要一
定的逻辑推理能力与运算求解能力。
高频考点一 求线性回归方程
【例1】我国北方广大农村地区、一些城镇以及部分大中城市的周边区域,还在大量采用
分散燃煤和散烧煤取暖,既影响了居民基本生活的改善,也加重了北方地区冬季的雾霾天
气.推进北方地区冬季清洁取暖,是重大民生工程、民心工程,关系北方地区广大群众温
暖过冬,关系雾霾天能不能减少,是能源生产和消费革命、农村生活方式革命的重要内容.
2017年9月国家发改委制定了煤改气、煤改电价格扶植新政策,从而使得煤改气、煤改电
用户大幅度增加.图1所示的条形图反映了某省2018年1~7月份煤改气、煤改电的用户数
量.
(1)在图2给定坐标系中作出煤改气、煤改电用户数量y随月份t变化的散点图,并用散点
图和相关系数说明y与t之间具有线性相关性;
(2)建立y关于t的回归方程(系数精确到0.01),预测11月份该省煤改气、煤改电的用户
数量.
参考数据: , , .
【解析】(1)作出散点图如图所示.由条形图数据和参考数据得,
, , ,
,
所以 .
y与t的相关系数近似为0.99,说明y与t的线性相关性相当高,
从而可以用线性回归模型拟合y与t的关系.
(2)由 ,又由(1)得 ,
,
所以y关于t的回归方程为 .
将 代入回归方程得 .
所以预测11月份该省煤改气、煤改电的用户数量达到2.02万户.
【变式训练】
1.(2022·福州市第一学期抽测)随着我国中医学的发展,药用昆虫的使用相应愈来愈多.每
年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫.已知一只药用昆虫
的产卵数y(单位:个)与一定范围内的温度x(单位:℃)有关,于是科研人员在3月份的31
天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如下表:
日期 2日 7日 15日 22日 30日
温度x/℃ 10 11 13 12 8
产卵数y/个 23 25 30 26 16
(1)从这5天中任选2天,记这2天药用昆虫的产卵数分别为m,n,求事件“m,n均
不小于25”的概率.(2)科研人员确定的研究方案是:先从这5组数据中任选2组,用剩下的3组数据建立y
关于x的线性回归方程,再对被选取的2组数据进行检验.
①若选取的是3月2日与30日这2组的数据,请根据3月7日、15日和22日这3组的
数据,求出y关于x的线性回归方程;
②若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过 2个,则认
为得到的线性回归方程是可靠的,试问①中所得的线性回归方程是否可靠?
附:回归直线的斜率和截距的最小二乘估计公式分别为b=,a=-b.
解:(1)依题意得,m,n 的所有情况有{23,25},{23,30},{23,26},{23,16},
{25,30},{25,26},{25,16},{30,26},{30,16},{26,16},共10个.
设“m,n均不小于25”为事件A,则事件A包含的所有情况有 {25,30},{25,26},
{30,26},共3个,
所以P(A)=,
故事件“m,n均不小于25”的概率为.
(2)①由已知数据得=12,=27,(x-)(y-)=5,(x-)2=2,
i i i
所以b==,
a=-=27-×12=-3.
所以y关于x的线性回归方程为y=x-3.
②由①知,y关于x的线性回归方程为y=x-3.
当x=10时,y=×10-3=22,|22-23|<2,
当x=8时,y=×8-3=17,|17-16|<2.
所以①中所得的线性回归方程y=x-3是可靠的.
高频考点二 相关系数及其应用
【例2】(2022·合肥市第二次质量检测)为了了解A地区足球特色学校的发展状况,某调查
机构统计得到如下数据:
年份x 2014 2015 2016 2017 2018
足球特色学校数y/百个 0.30 0.60 1.00 1.40 1.70
(1)根据表中数据,计算y与x的相关系数r,并说明y与x的线性相关性强弱(已知:0.75≤|
r|≤1,则认为y与x线性相关性很强;0.3≤|r|<0.75,则认为y与x线性相关性一般;|r|
≤0.25,则认为y与x线性相关性较弱);
(2)求y关于x的线性回归方程,并预测A地区2019年足球特色学校的个数(精确到个).
参考公式及数据:r=,
(x-)2=10,(y-)2=1.3,≈3.605 6,b=,a=-b.
i i[解] (1)=2 016,=1,r===>0.75,
∴y与x线性相关性很强.
(2)b===0.36,
a=-b=1-0.36×2 016=-724.76,
∴y关于x的线性回归方程是y=0.36x-724.76.
当x=2019时,y=0.36×2019-724.76=2.08,
即A地区2019年足球特色学校约有208个.
【方法技巧】
模型拟合效果的判断
(1)残差平方和越小,模型的拟合效果越好.
(2)相关指数R2越大,模型的拟合效果越好.
(3)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关
性越强.
【变式训练】
1.(2022·贵阳市第一学期监测)互联网使我们的生活日益便捷,网络外卖也开始成为不少人
日常生活中不可或缺的一部分,某市一调查机构针对该市市场占有率较高的甲、乙两家网
络外卖企业(以下简称外卖甲、外卖乙)的经营情况进行了调查,调查结果如下表:
1日 2日 3日 4日 5日
外卖甲日接单x/百单 5 2 9 8 11
外卖乙日接单y/百单 2 3 10 5 15
(1)试根据表格中这五天的日接单量情况,从统计的角度说明这两家外卖企业的经营状况;
(2)据统计表明,y与x之间具有线性关系.
①请用相关系数r对y与x之间的相关性强弱进行判断(若|r|>0.75,则可认为y与x有较强
的线性相关关系(r值精确到0.001));
②经计算求得y与x之间的回归方程为y=1.382x-2.674,假定每单外卖业务,企业平均能
获取纯利润3元,试预测当外卖乙日接单量不低于25百单时,外卖甲所获取的日纯利润的
大致范围(x值精确到0.01).
相关公式:r=.
参考数据:(x-)(y-)=66,
i i
≈77.
解:(1)由题可知==7(百单),
==7(百单).
外卖甲的日接单量的方差s=10,外卖乙的日接单量的方差s=23.6,
因为=,s0.75,
所以可认为y与x之间有较强的线性相关关系.
②令y≥25,得1.382x-2.674≥25,解得x≥20.02,
又20.02×100×3=6 006,
所以当外卖乙日接单量不低于25百单时,外卖甲所获取的日纯利润大约不低于6 006元.
高频考点三 独立性检验
【例3】(2022·福州市质量检测)中国房地产业协会主办的中国房价行情网调查的一份数据
显示,2018年7月,大部分一线城市的房租租金同比涨幅都在10%以上.某部门研究成果
认为,房租支出超过月收入的租户“幸福指数”低,房租支出不超过月收入的租户“幸福
指数”高.为了了解甲、乙两小区租户的幸福指数高低,随机抽取甲、乙两小区的租户各
100户进行调查.甲小区租户的月收入以[0,3),[3,6),[6,9),[9,12),[12,15](单位:千元)分
组的频率分布直方图如图所示.
乙小区租户的月收入(单位:千元)的频数分布表如下:
月收入 [0,3) [3,6) [6,9) [9,12) [12,15]
户数 38 27 24 9 2
(1)设甲、乙两小区租户的月收入相互独立,记M表示事件“甲小区租户的月收入低于6千
元,乙小区租户的月收入不低于6千元”,把频率视为概率,求M的概率;
(2)利用频率分布直方图,求所抽取的甲小区100户租户的月收入的中位数;
(3)若甲、乙两小区每户的月租费分别为2千元、1千元.请根据条件完成下面的2×2列联
表,并说明能否在犯错误的概率不超过0.001的前提下认为“幸福指数与租住的小区”有
关.
幸福指数低 幸福指数高 总 计
甲小区租户
乙小区租户
总 计
附:临界值表
P(K2≥k) 0.10 0.010 0.001k 2.706 6.635 10.828
参考公式:K2=.
[解] (1)记A表示事件“甲小区租户的月收入低于6千元”,记B表示事件“乙小区租户
的月收入不低于6千元”,
甲小区租户的月收入低于6千元的频率为(0.060+0.160)×3=0.66,
故P(A)的估计值为0.66.
乙小区租户的月收入不低于6千元的频率为=0.35,
故P(B)的估计值为0.35.
因为甲、乙两小区租户的月收入相互独立,
事件M的概率的估计值为P(M)=P(A)P(B)=0.66×0.35=0.231.
(2)设甲小区所抽取的100户的月收入的中位数为t,
则0.060×3+(t-3)×0.160=0.5,
解得t=5.
(3)设H:幸福指数与租住的小区无关,
0
幸福指数低 幸福指数高 总 计
甲小区租户 66 34 100
乙小区租户 38 62 100
总 计 104 96 200
根据2×2列联表中的数据,
得到K2的观测值k=≈15.705>10.828,
所以能在犯错误的概率不超过0.001的前提下认为“幸福指数与租住的小区”有关.
【变式训练】
1.(2022·郑州市第二次质量预测)为推动更多人去阅读和写作,联合国教科文组织确定每年
的4月23日为“世界读书日”,其设立目的是希望居住在世界各地的人,无论你是年老还
是年轻,无论你是贫穷还是富裕,都能享受阅读的乐趣,都能尊重和感谢为人类文明做出
过巨大贡献的思想大师们,都能保护知识产权.为了解不同年龄段居民的主要阅读方式,
某校兴趣小组在全市随机调查了200名居民,这200人中通过电子阅读与纸质阅读的人数
之比为3∶1.将这200人按年龄(单位:岁)分组,统计得到通过电子阅读的居民的频率分布
直方图如图所示.(1)求a的值及通过电子阅读的居民的平均年龄;
(2)把年龄在[15,45)的居民称为中青年,年龄在[45,65]的居民称为中老年,若选出的
200人中通过纸质阅读的中老年有30人,请完成下面2×2列联表,并判断是否有97.5%的
把握认为阅读方式与年龄有关?
电子阅读 纸质阅读 总计
中青年
中老年
总计
附:
P(K2≥k) 0.150 0.100 0.050 0.025 0.010
0
k 2.072 2.706 3.841 5.024 6.635
0
K2=.
解:(1)由题中频率分布直方图可得10×(0.01+0.015+a+0.03+0.01)=1,
解得a=0.035,
所以通过电子阅读的居民的平均年龄为
20×10×0.01 + 30×10×0.015 + 40×10×0.035 + 50×10×0.03 + 60×10×0.01 =
41.5(岁).
(2)这200人中通过电子阅读的人数为200×=150,通过纸质阅读的人数为200-150=
50.
因为(0.01+0.015+0.035)∶(0.03+0.01)=3∶2,
所以通过电子阅读的中青年的人数为150×=90,
中老年的人数为150-90=60.
2×2列联表为
电子阅读 纸质阅读 总计
中青年 90 20 110
中老年 60 30 90
总计 150 50 200由表中数据,得K2=≈6.061>5.024,
所以有97.5%的把握认为阅读方式与年龄有关.