文档内容
8.4 统计与统计案例(精讲)
一.简单随机抽样
1.定义:一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n(1≤n0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
资料整理【淘宝店铺:向阳百分百】(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线
性相关程度越弱.
3.一元线性回归模型参数的最小二乘估计
(1)我们将y=bx+a称为Y关于x的经验回归方程,其中
七、独立性检验
1.分类变量与列联表
(1)分类变量:在讨论问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象
或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.
(2)2×2列联表
列联表:列出的两个分类变量的频数表,称为列联表.
假设有两个分类变量X和Y,它们的可能取值分别为{x,x}和{y,y},其2×2列联表为
1 2 1 2
y y 合计
1 2
x a b a+b
1
x c d c+d
2
合计 a+c b+d a+b+c+d
2.独立性检验
(1)零假设:以Ω为样本空间的古典概型.设X和Y为定义在Ω上,取值于{0,1}的成对分类变量.
H:分类变量X和Y独立.通常称H为零假设或原假设.
0 0
(2)χ2公式
假设我们通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示:
Y
X 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
χ2=.
对于任何小概率值α,可以找到相应的正实数x,使得下面关系成立:P(χ2≥x)=α.
α α
我们称x 为α的临界值,这个临界值就可作为判断χ2大小的标准.概率值α越小,临界值x 越大.
α α
(3)独立性检验
基于小概率值α的检验规则是:
当χ2≥x 时,我们就推断H不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
α 0
当χ2<x 时,我们没有充分证据推断H不成立,可以认为X和Y独立.
α 0
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,
资料整理【淘宝店铺:向阳百分百】简称独立性检验.
一.分层随机抽样
1.抽样比==.
2.在分层随机抽样中,如果第一层的样本量为m,平均值为;第二层的样本量为n,平均值为,则样本的平
均值为.
二.计算一组数据第p百分位数的步骤
三.频率分布直方图的数字特征
1.众数:众数一般用频率分布表中频率最高的一组的组中值来表示,即在样本数据的频率分布直方图中,
最高矩形的底边中点的横坐标;
2.中位数:在频率分布直方图中,中位数左边和右边的直方图的面积和应该相等;
3.平均数:平均数在频率分布表中等于组中值与对应频率之积的和,即在频率分布直方图中,每个小矩形
的面积乘以小矩形底边中点的横坐标之和.
四.常用结论
1.画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相
关.
2.相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强.
3.经验回归方程:当b>0时,正相关;当b<0时,负相关.
4.若x,x,…,x 的平均数为,那么mx+a,mx+a,…,mx+a的平均数为m+a;
1 2 n 1 2 n
5.若x,x,…,x 的方差为s2,那么ax+b,ax+b,…,ax+b的方差为a2s2;
1 2 n 1 2 n
6.s2=∑ (x-)2=∑x-2,即各数平方的平均数减去平均数的平方.
i
资料整理【淘宝店铺:向阳百分百】考点一 简单随机抽样及分层抽样
【例1-1】(2023·贵州·校联考模拟预测)已知某班共有学生46人,该班语文老师为了了解学生每天阅读
课外书籍的时长情况,决定利用随机数表法从全班学生中抽取10人进行调查.将46名学生按01,
02,…,46进行编号.现提供随机数表的第7行至第9行:
84 42 17 53 31 57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76
63 01 63 78 59 16 95 56 57 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 79
33 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 99 66 02 79 54
若从表中第7行第41列开始向右依次读取2个数据,每行结束后,下一行依然向右读数,则得到的第8个
样本编号是( )
A.07 B.12 C.39 D.44
【答案】D
【解析】由题意可知得到的样本编号依次为12,06,01,16,19,10,07,44,39,38,则得到的第8个
样本编号是44.故选:D.
【例1-2】(2023秋·湖南长沙·高三长郡中学校考假期作业)为了庆祝中国共产党第二十次全国代表大会,
学校采用按比例分配的分层随机抽样的方法从高一1002人,高二1002人,高三1503人中抽取126人观看
“中国共产党第二十次全国代表大会”直播,那么高三年级被抽取的人数为( )
A.36 B.42 C.50 D.54
【答案】D
【解析】根据分层抽样的方法,抽样比为 ,
高三年级被抽取的人数为 人.故选:D.
【一隅三反】
1.(2023秋·云南·高三校联考阶段练习)要调查某地区高中学生身体素质,从高中生中抽取 人进行跳
远测试,根据测试成绩制作频率分布直方图如图,现从成绩在 之间的学生中用分层抽样的方法抽
取 人,应从 间抽取人数为 ,则( ).
资料整理【淘宝店铺:向阳百分百】A. , B. ,
C. , D. ,
【答案】D
【解析】由题得 ,所以 .
在 之间的学生: 人,
在 之间的学生: 人,
在 之间的学生: 人,
又用分层抽样的方法在 之间的学生50人中抽取5人,即抽取比为: ,
所以成绩在 之间的学生中抽取的人数应为 ,即 .
故选:D.
2.(2023·西藏日喀则·统考一模)某市四区夜市地摊的摊位数和食品摊位比例分别如图 、图 所示,为
提升夜市消费品质,现用分层抽样的方法抽取 的摊位进行调查分析,则抽取的样本容量与 区被抽取
的食品摊位数分别为( )
A.210, 24 B.210, 12
C.252, 24 D.252, 12
资料整理【淘宝店铺:向阳百分百】【答案】B
【解析】根据分层抽样原则知:抽取的样本容量为 ;
区抽取的食品推位数为 .
故选:B.
3.(2023·河南·襄城高中校联考三模)现有300名老年人,500名中年人,400名青年人,从中按比例用分
层随机抽样的方法抽取 人,若抽取的老年人与青年人共21名,则 的值为( )
A.15 B.30 C.32 D.36
【答案】D
【解析】由题可知 ,解得 .故选:D.
4.(2023·全国·高三对口高考)某学校为了调查学生的学习状况,由每班随机抽取5名学生进行调查.若一
班有50名学生,将每一学生编号,从01到50为止,请从随机数表的第2行第11列(下表为随机数表的
前5行)的42开始,依次向右,直到取足样本,则抽取样本的号码是 .
0347437386 3696473661 4698637162 3326168045 6011141095
9774246762 4281145720 4253323732 2707360751 2451798973
1676622766 5650267107 3290797853 1355385859 8897541410
1256859926 9696682731 0503729315 5712101421 8826498176
5559563564 3854824622 3162430990 0618443253 2383013030
【答案】42,14,20,32,37
【解析】由题意,从随机数表的第2行第6列的42开始,根据随机数表法的读取规则,依次读取01到50
为的两位数,得到抽取的样本为42,14,20,32,37.
故答案为:42,14,20,32,37.
5.(2022·全国·高三专题练习)总体由编号为 的20个个体组成,利用下面的随机数表选取
5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始从左到右依次选取两个数字,则选出来
的第5个个体的编号为 .
7816 6572 0802 6314 0702 4369 9728 0198
3204 9234 4935 8200 3623 4869 6938 7481
【答案】01
【解析】从随机数表第1行的第5列和第6列数字开始从左到右依次选取两个数字,得
资料整理【淘宝店铺:向阳百分百】,去掉不在编号范围内的 ,再去掉一个重复的
,得前 个个体的编号为 ,故选出来的第5个个体的编号为 .故答案为: .
考点二 统计图表
【例2-1】(2023秋·陕西西安·高三校联考开学考试)某公司统计了2023年1月至6月的月销售额(单位:
万元),并与2022年比较,得到同比增长率数据,绘制了如图所示的统计图,则下列说法正确的是(
)
注:同比增长率 (今年月销售额 去年同期月销售额) 去年同期月销售额 .
A.2023年1月至6月的月销售额的极差为6
B.2023年1月至6月的月销售额逐月递增
C.2023年1月至6月的月销售额的中位数为9.5
D.2022年5月的月销售额为8万元
【答案】C
【解析】对于A,2023年1月至6月的月销售额的极差为 ,故A不正确;
对于B,2023年1月的月销售额大于2月的销售额,故B不正确;
对于C,将2023年1月至6月的月销售额从小到大排列为:6,7,8,11,12,14,
则中位数为 ,故C正确;
对于D,设2022年5月的月销售额为 万元,则 ,解得 ,故D不正确.
故选:C.
【例2-2】(2023·福建三明·统考三模)(多选)已知某地区中小学生人数如图①所示,为了解该地区中小
学生的近视情况,卫生部门根据当地中小学生人数,用分层抽样的方法抽取了 的学生进行视力调查,
调查数据如图②所示,下列说法正确的有( )
资料整理【淘宝店铺:向阳百分百】图① 图②
A.该地区的中小学生中,高中生占比为
B.抽取调查的高中生人数为 人
C.该地区近视的中小学生中,高中生占比超过
D.从该地区的中小学生中任取 名学生,记近视人数为 ,则 的数学期望约为
【答案】ABD
【解析】对于A选项,由图①可知,该地区的中小学生中,高中生占比为 ,
A对;
对于B选项,用分层抽样抽取了 的学生,则抽取的高中生人数为 人,B对;
对于C选项,该地区近视的中小学生中,小学生近视的人数为 人,
初中生近视的人数为 人,高中生近视的人数为 人,
所以,该地区近视的中小学生中,高中生占比为 ,C错;
对于D选项,从该地区中的中小学生中任意抽取一名,该学生近视的概率为 ,
从该地区的中小学生中任取 名学生,记近视人数为 ,则 ,
所以, ,D对.
故选:ABD.
【一隅三反】
1.(2023·全国·高三专题练习)Keep是一款具有社交属性的健身APP,致力于提供健身教学、跑步、骑行、
交友及健身饮食指导、装备购买等一站式运动解决方案.Keep可以让你随时随地进行锻炼,记录你每天的
训练进程.不仅如此,它还可以根据不同人的体质,制定不同的健身计划.小张根据Keep记录的2022年
1月至2022年11月期间每月跑步的里程(单位:十公里)数据整理并绘制了下面的折线图.根据该折线
资料整理【淘宝店铺:向阳百分百】图,下列说法错误的是( )
A.月跑步里程逐月增加
B.月跑步里程最大值出现在10月
C.月跑步里程的中位数为5月份对应的里程数
D.1月至5月的月跑步里程相对于6月至11月波动性更小
【答案】A
【解析】由折线图可知,月跑步里程不是逐月增加的,故A不正确;
月跑步里程最大值出现在10月,故B正确;
月跑步里程数从小到大排列分别是:2月,8月,3月,4月,1月,5月,7月,6月,11月,9月,10月,
故5月份对应的里程数为中位数,故C正确;
1月到5月的月跑步里程相对于6月至11月波动性更小,变化比较平稳,故D正确.
故选:A.
2(2023秋·河北保定·高三校联考开学考试)(多选)某公司统计了2023年1月至6月的月销售额(单位:
万元),并与2022年比较,得到同比增长率数据,绘制了如图所示的统计图,则下列说法正确的是(
)
注:同比增长率=(今年月销售额一去年同期月销售额)÷去年同期月销售额 .
A.2023年1月至6月的月销售额的极差为8
B.2023年1月至6月的月销售额的第60百分位数为8
C.2023年1月至6月的月销售额的中位数为9.5
资料整理【淘宝店铺:向阳百分百】D.2022年5月的月销售额为10万元
【答案】ACD
【解析】对于A,2023年1月至6月的月销售额的最大值是14,最小值是6,极差为8,故A正确;
对于B,六个数从小到大排列为 ,因为 ,所以2023年1月至6月的月销售额的
第60百分位数为第四个数11,故B错误;
对于C,2023年1月至6月的月销售额的中位数为 9.5,故C正确;
对于D,设2022年5月的月销售额为 万元,则 ,解得 ,故D正确.
故选:ACD.
3.(2023秋·广东·高三校联考阶段练习)(多选)航海模型项目在我国已开展四十余年,深受青少年的喜
爱.该项目整合国防、科技、工程、艺术、物理、数学等知识,主要通过让参赛选手制作、遥控各类船只、
舰艇等模型航行,普及船艇知识,探究海洋奥秘,助力培养未来海洋强国的建设者.某学样为了解学生对航
海模型项目的喜爱程度,用比例分配的分层随机抽样法从某校高一、高二、高三年级所有学生中抽取部分
学生做抽样调查.已知该学校高一、高二、高三年级学生人数的比例如图所示,若抽取的样本中高三年级学
生有32人,则下列说法正确的是( )
A.该校高一学生人数是2000
B.样本中高二学生人数是28
C.样本中高三学生人数比高一学生人数多12
D.该校学生总人数是8000
【答案】BC
【解析】由图可知高三年级学生人数占总人数的40%,抽取的样本中高三年级学生有32人,
则抽取的学生总人数为 ,
资料整理【淘宝店铺:向阳百分百】则样本中高一学生人数为 ,样本中高二学生人数为 ,
从而样本中高三学生人数比高一学生人数多 .
因为从该校所有学生中抽取的学生总人数是80,但抽取的比例不知道,
所以该校高一学生人数和该校学生总人数求不出来,
所以AD错误,BC正确,
故选:BC.
考点三 特征数的计算
【例3-1】(2023秋·广东湛江·高三湛江一中校考开学考试)(多选)一组数据:0,1,5,6,7,11,
12,则( )
A.这组数据的平均数为6 B.这组数据的方差为16
C.这组数据的极差为11 D.这组数据的第70百分位数为7
【答案】AD
【解析】对A,这组数据的平均数为: ,故A选项正确;
对B,这组数据的方差为: ,故B选项错误;
对C,这组数据的极差为: ,故C选项错误;
对D,由 ,则第70百分位数是第5个数7,故D选项正确.
故选:AD.
【例3-2】(2023·福建福州·福州四中校考模拟预测)(多选)在某市高三年级举行的一次调研考试中,共
有30000人参加考试.为了解考生的某科成绩情况,抽取了样本容量为 的部分考生成绩,已知所有考生成
绩均在 ,按照 的分组作出如图所示的频率分布直方图.若
在样本中,成绩落在区间 的人数为16,则由样本估计总体可知下列结论正确的为( )
资料整理【淘宝店铺:向阳百分百】A.
B.
C.考生成绩的第70百分位数为76
D.估计该市全体考生成绩的平均分为71
【答案】AC
【解析】对于A,因为 ,解得 ,故A正确;
对于B,因为成绩落在区间 内的人数为16,所以样本容量 ,故B错误;
对于C,因为 , ,
所以考生成绩的第70百分位数落在区间 ,
设考生成绩的第70百分位数为 ,则 ,解得 ,
即考生成绩的第70百分位数为76,故C正确;
对于D,学生成绩平均分为
,故D错误.
故选:AC.
【一隅三反】
1.(2024·江西·校联考模拟预测)(多选)为庆祝江西籍航天员邓清明顺利从太空返航,邓清明家乡的某
所中学举办了一场“我爱星辰大海”航天知识竞赛,满分100分,该校高一(1)班代表队6位参赛学生的
成绩(单位:分)分别为:84,100,91,95,95,98,则关于这6位参赛学生的成绩.下列说法正确的是
( )
A.众数为95 B.中位数为93
资料整理【淘宝店铺:向阳百分百】C.平均成绩超过93分 D.第 分位数是91
【答案】ACD
【解析】将成绩按从小到大的顺序排序为: ,
对于A,95出现两次,其他数据只出现一次,所以众数为95,故A正确;
对于B,中位数为第3,4个数据的平均数,为 ,故B错误;
对于C,平均数为 ,故C正确;
对于D, ,所以第 分位数是第二个数,为91,故D正确.
故选:ACD
2.(2023秋·全国·高三校联考开学考试)(多选)某书店为了解其受众人群,对100名顾客的年龄 进
行调研,并将所统计的数据制成如图所示的频率分布直方图.已知 是各个小矩形上短边的中点,
若点 在一条直线上,点 在一条直线上,且 ,则下列描述正确的是
( )
A. 的值为0.0108
B.数据 的众数大于中位数
C.数据 的中位数小于平均数
D.数据 的第80百分位数大于60
【答案】AC
【解析】因为点 在一条直线上,且 的横坐标的差相同,
所以它们的纵坐标的差值也相同,
资料整理【淘宝店铺:向阳百分百】因为 ,
所以 , .
因为 ,
点 在一条直线上,
所以 ,A正确;
数据 的众数的估计值为 ,
设中位数为 ,因为 ,
所以 ,
解得 ,即数据 的中位数约为41.02,
所以数据 的众数小于中位数,B错误;
因为 ,所以平均数大
于中位数,C正确;
因为 ,所以数据 的第80百分位数小于60,D错误.
故选:AC.
3.(2023·全国·高三专题练习)(多选)近年来,加强青少年体育锻炼,重视体质健康已经在社会形成高
度共识,某校为了了解学生的身体素质状况,举行了一场身体素质体能测试,以便对体能不达标的学生进
行有效地训练,促进他们体能的提升,现从全部测试成绩中随机抽取200名学生的测试成绩,进行适当分
组后,画出如图所示频率分布直方图,则( )
A.
资料整理【淘宝店铺:向阳百分百】B.在被抽取的学生中,成绩在区间 内的学生有70人
C.估计全校学生体能测试成绩的平均数为77
D.估计全校学生体能测试成绩的 分位数为84
【答案】AD
【解析】对于A,根据频率和等于1得 ,解得 ,
故A正确;
对于B,成绩在区间[80,100]内的学生人数约为 ,故B错误;
对于C,学生体能测试成绩的平均数约为
,故C错误;
对于D,
,
所以这组数据的 分位数的估计值落在区间 内,
又因为 ,故学生体能测试成绩的 分位数为84,故D正确,
故选:AD.
考点四 一元线性回归方程
【例4-1】(2023秋·江苏苏州·高三苏州中学校考开学考试)(多选)已知变量 , 之间的经验回归方程
为 ,且变量 , 的数据如图所示,则下列说法正确的是( )
6 8 10 12
6 m 3 2
A.变量 , 之间呈正相关关系 B.实数m的值等于5
C.该回归直线必过 D.相应于 的残差估计值为0.6
【答案】BC
【解析】由表格数据得, , ,
资料整理【淘宝店铺:向阳百分百】将样本中心点 代入回归直线方程 得,
,解得 .所以选项B正确;
又 ,即样本中心点为 ,所以选项C正确;
对选项A,当变量 增加,变量 相应值减少,两个变量之间呈负相关关系,所以选项A错误;
对选项D,由残差定义知,观测值减去预测值为残差.
由经验回归方程 ,令 ,得预测值 ,
则相应于 的残差为 ,所以选项D错误.
故选:BC.
【例4-2】(2023秋·四川成都·高三树德中学校考开学考试)某新能源汽车制造公司,为鼓励消费者购买其
生产的汽车,约定从今年元月开始,凡购买一辆该品牌汽车,在行驶三年后,公司将给予适当金额的购车
补贴.某调研机构对已购买该品牌汽车的消费者,就购车补贴金额的心理预期值进行了抽样调查,得其样
本频率分布直方图如图所示.
(1)估计已购买该品牌汽车的消费群体对购车补贴金额的心理预期值的平均数;
(2)统计今年以来元月~5月该品牌汽车的市场销售量,得其频数分布表如下:
月份 元月 2月 3月 4月 5月
销售量(万
0.5 0.6 1.0 1.4 1.7
辆)
预测该品牌汽车在今年6月份的销售量约为多少万辆?
附:对于一组样本数据 , , , ,其回归直线 的斜率和截距的最小二乘
资料整理【淘宝店铺:向阳百分百】估计值分别为 , .
【答案】(1) 万元
(2)2万辆
【解析】(1)因为直方图的组距为1,则各组数据的频率即为相应小矩形的高,
所以平均数的估计值为 万元.
(2)记 , , , , , ,
由散点图可知,5组样本数据呈线性相关关系.
因为 , , , ,则
, ,
所以回归直线方程是 .
当 时, ,
预计该品牌汽车在今天6月份的销售量约为2万辆.
【一隅三反】
1.(2023·江苏徐州·校考模拟预测)(多选)某研究小组采集了 组数据,作出如图所示的散点图.若去
掉 后,下列说法正确的是( )
A.相关系数 变小
资料整理【淘宝店铺:向阳百分百】B.决定系数 变大
C.残差平方和变大
D.解释变量 与预报变量 的相关性变强
【答案】BD
【解析】根据散点图可知,去掉点 后, 与 的线性相关性加强,且为正相关,
相关系数 变大,则A错D对,
去掉点 后,残差平方和变小,则 变大,B对C错.
故选:BD.
2.(2023·湖北·荆门市龙泉中学校联考模拟预测)(多选)某学校一同学研究温差 与本校当天新增
感冒人数 (人)的关系,该同学记录了5天的数据:
x 5 6 8 9 12
y 17 20 25 28 35
经过拟合,发现基本符合经验回归方程 ,则( )
A.样本中心点为 B.
C. ,残差为 D.若去掉样本点 ,则样本的相关系数r增大
【答案】ABC
【解析】对于A项,因为 , ,
所以样本中心点为 ,故A项正确;
对于B项,由回归直线必过样本中心可得: 解得: ,故B项正确;
对于C项,由B项知, ,令 ,则 ,
所以残差为 ,故C项正确;
对于D项,由相关系数公式可知,去掉样本点 后,x与y的样本相关系数r不变,故D项错误.
资料整理【淘宝店铺:向阳百分百】故选:ABC.
3.(2023春·陕西西安·高三西安中学校考阶段练习)3月14日OpenAI公司宣布正式发布为ChatGPT提供
支持的更强大的下一代人工智能技术GPT-4,科技产业的发展迎来新的格局,数据显示,它在各种专业和
学术基准上与人类水平相当,优秀到令人难以置信,虽然给各行业带来了不同程度的挑战,但是也孕育了
新的发展机遇.下表是某教育公司从2019年至2023年人工智能上的投入情况,其中 表示年份代码(2019
年用1表示,2020年用2表示,以此类推), 表示投入资金(单位:百万元).
1 2 3 4 5
3 7 8 10 12
(1)已知可用线性回归模型拟合 与 的关系,请用相关系数加以说明;(若 ,则线性相关程度很
高)(运算结果保留两位小数)
(2)求 关于 的线性回归方程 ,并预测该公司2024年的投入资金.
参考公式与数据:
【答案】(1)答案见解析
(2) ,14.3(百万元)
【解析】(1)由题知 , ,
因为 ,
, ,
所以 ,
又 ,
所以线性相关程度很高,可用线性回归模型拟合 与 的关系.
(2)由(1)知 , ,
资料整理【淘宝店铺:向阳百分百】所以 , ,
所以回归方程为 ,
令 ,得到 ,
故预测该公司2024年的投入资金为14.3(百万元).
4.(2023秋·湖南衡阳·高三校考阶段练习)随着人们生活水平的提高,健康越来越成为当下人们关心的话
题,因此,健身也成了广大市民的一项必修课.某健身机构统计了2022年1 5月份某初级私人健身教练课
程的月报名人数 (单位:人)与该初级私人健身教练价格 (单位:元/小∼时)的情况,如下表所示.
月份 1 2 3 4 5
初级私人健身教练价格 (元/小时) 210 200 190 170 150
初级私人健身教练课程的月报名人数
5 8 7 9 11
(人)
(1)求 ( ,2,3,4,5)的相关系数r,并判断月报名人数y与价格x是否有很强的线性相关性?
(当 时,可以认为两个变量有很强的线性相关性;否则,没有很强的线性相关性)(精确到
0.001)
(2)请建立 关于 的线性回归方程;(精确到0.001)
(3)当价格为每小时230元时,估计该课程的月报名人数为多少人?(结果保留整数)
参考公式:对于一组数据 ( ,2,3,…,n),相关系数 ,其回归
直线 的斜率和截距的最小二乘估计分别为 , .
参考数据: . , , .
【答案】(1)-0.929, 与 有很强的线性相关性
资料整理【淘宝店铺:向阳百分百】(2)
(3)4人.
【解析】1)解:由已知数据可得:
,
,
相关系数
因为 ,所以 与 有很强的线性相关性.
(2)因为 ,
,
所以 关于 的线性回归方程为 .
(3)当 时, ,
故当价格为每小时230元时,估计该课程的月报名人数为4人.
考点五 非线性回归方程
【例5-1】(2023·陕西·西北工业大学附属中学校联考模拟预测)为了反映城市的人口数量x与就业压力指
数y之间的变量关系,研究人员选择使用非线性回归模型 对所测数据进行拟合,并设 ,
得到的数据如表所示,则 .
x 4 6 8 10
z 2 c 5 6
【答案】3
【解析】 , ,
资料整理【淘宝店铺:向阳百分百】依题意, ,
而回归直线方程 过点 ,故 ,解得 .
故答案为:3
【例5-2】(2023·四川绵阳·统考二模)抗体药物的研发是生物技术制药领域的一个重要组成部分,抗体药
物的摄入量与体内抗体数量的关系成为研究抗体药物的一个重要方面.某研究团队收集了10组抗体药物的
摄入量与体内抗体数量的数据,并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值,
抗体药物摄入量为x(单位: ),体内抗体数量为y(单位: ).
29.2 12 16 34.4
(1)根据经验,我们选择 作为体内抗体数量y关于抗体药物摄入量x的回归方程,将 两边取对
数,得 ,可以看出 与 具有线性相关关系,试根据参考数据建立 关于 的回归方
程,并预测抗体药物摄入量为 时,体内抗体数量 的值;
(2)经技术改造后,该抗体药物的有效率z大幅提高,经试验统计得z服从正态分布 ,那这
种抗体药物的有效率 超过0.54的概率约为多少?
附:①对于一组数据 ,其回归直线 的斜率和截距的最小二乘估计分别为
资料整理【淘宝店铺:向阳百分百】, ;
②若随机变量 ,则有 , ,
;
③取 .
【答案】(1) ;
(2)
【解析】(1)将 两边取对数,得 ,
设 , ,则回归方程变为 ,
由表中数据可知, , ,
所以 , ,
所以 ,即 ,
故y关于x的回归方程为 ,
当 时, .
(2)因为z服从正态分布 ,其中 , ,
所以 ,
所以 ,
故这种抗体药物的有效率z超过0.54的概率约为 .
【一隅三反】
1.(2023·全国·镇海中学校联考模拟预测)害虫防控对于提高农作物产量具有重要意义.已知某种害虫产卵
资料整理【淘宝店铺:向阳百分百】数 (单位:个)与温度 (单位: )有关,测得一组数据 ,可用模型 进
行拟合,利用 变换得到的线性回归方程为 .若 ,则 的值为
.
【答案】
【解析】对 两边同时取对数可得 ;
即 ,可得
由 可得 ,
代入 可得 ,即 ,所以 .
故答案为:
2.(2023春·重庆沙坪坝·高三重庆八中校考阶段练习)在正常生产条件下,根据经验,可以认为化肥的有
效利用率近似服从正态分布 ,而化肥施肥量因农作物的种类不同每亩也存在差异.
(1)假设生产条件正常,记 表示化肥的有效利用率,求 ;
(2)课题组为研究每亩化肥施用量与某农作物亩产量之间的关系,收集了10组数据,并对这些数据作了初
步处理,得到了如图所示的散点图及一些统计量的值.其中每亩化肥施用量为 (单位:公斤),粮食亩产
量为 (单位:百公斤)
参考数据:
资料整理【淘宝店铺:向阳百分百】650 91.5 52.5 1478.6 30.5 15 15 46.5
, ,2, , .
(i)根据散点图判断, 与 ,哪一个适宜作为该农作物亩产量 关于每亩化肥施用量 的回
归方程(给出判断即可,不必说明理由);
(ii)根据(i)的判断结果及表中数据,建立 关于 的回归方程;并预测每亩化肥施用量为27公斤时,
粮食亩产量 的值.
附:①对于一组数据 ,2,3, , ,其回归直线 的斜率和截距的最小二乘估计分
别为 , ;
②若随机变量 ,则 , .
【答案】(1)
(2)(i) 适宜作为粮食亩产量 关于每亩化肥施用量 的回归方程;(ii) , (百公斤)
【解析】(1)解:由 ,根据正态分布曲线的对称性,
可得 .
(2)解:(i)由散点图可知 与 的关系不是线性关系,所以 适宜作为粮食亩产量 关于每亩化
肥施用量 的回归方程;
(ii)因为 ,所以 ,令 ,则 ,
资料整理【淘宝店铺:向阳百分百】由表可得 ,所以 ,
所以 ,所以 ,所以 ,
当 时, (百公斤)
3.(2023·江苏镇江·江苏省镇江中学校考三模)经观测,长江中某鱼类的产卵数 与温度 有关,现将收
集到的温度 和产卵数 的10组观测数据作了初步处理,得到如图的散点图及一些统计量
表.
360
表中
(1)根据散点图判断, 与 哪一个适宜作为 与 之间的回归方程模型并求出
关于 回归方程;(给出判断即可,不必说明理由)
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,
其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布
列及数学期望.
资料整理【淘宝店铺:向阳百分百】附:对于一组数据 ,其回归直线 的斜率和截距的最小二乘估计分别为
.
【答案】(1) 适宜,
(2)分布列见解析, .
【解析】(1)根据散点图判断,看出样本点分布在一条指数函数的周围,
所以 适宜作为 与 之间的回归方程模型;
令 ,则 ,
,
关于 的回归方程为 .
(2)由题意,设随机挑选一批,取出两个鱼卵,其中“死卵”个数为 ,则 的取值为 ,
设 “所取两个鱼卵来自第 批” ,所以 ,
设 “所取两个鱼卵有 个”“死卵” ,
由全概率公式
,
,
资料整理【淘宝店铺:向阳百分百】,
所以取出“死卵”个数的分布列为:
0 1 2
.
所以取出“死卵”个数的数学期望 .
考点六 独立性检验
【例6-1】(2024秋·安徽·高三合肥市第八中学校联考开学考试)(多选)电影《八角笼中》是由王宝强导
演并参演的一部电影,讲述了年轻人为理想而努力奋斗的故事. 该电影一上映就引起了广大观众的热议,
票房也超出了预期,现随机抽取若干名观众进行调查,所得数据统计如下表所示,则( )
喜欢该电
不喜欢该电影
影
男性观众 160 40
女性观众 140 60
附: .
0. 10 0. 05 0. 01 0. 001
2. 706 3. 841 6. 635 10. 828
A.若在被调查的观众中随机抽取1人,则抽到喜欢该电影的男性观众的概率为
B.在被调查的观众中,男性不喜欢该电影的比例高于女性
C.根据小概率值 的独立性检验,可以认为被调查观众的性别与对电影的喜爱程度有差异
D.根据小概率值 的独立性检验,可以认为被调查观众的性别与对电影的喜爱程度有差异
【答案】AC
【解析】根据题意,喜欢该电影的男性观众有160人,可得 ,所以A正确;
资料整理【淘宝店铺:向阳百分百】由男性不喜欢该电影的比例为 ,女性不喜欢该电影的比例为 ,
可得 ,所以B错误;
由 ,因为 ,所以C正确,D错误.
故选:AC.
【例6-2】(2023·河南开封·统考模拟预测)北京2022年冬奥会吉祥物“冰墩墩”和冬残奥会吉祥物“雪
容融”一亮相,好评不断.为了研究“冰墩墩”与“雪容融”在不同性别的人群中受欢迎程度是否存在差
异,某机构从关注冬奥会公众号的微信用户中随机调查了200人,得到如下 列联表:
男生 女生 总计
更喜欢“冰墩
50
墩”
更喜欢“雪容
70
融”
总计 100 100 200
参考公式: ,其中 .附表:
0.100 0.050 0.010 0.001
2.706 3.841 6.635 10.828
(1)完善列联表,并求女生中更喜欢“冰墩墩”的频率是多少?
(2)是否有90%的把握认为“对两个吉祥物的喜好倾向与性别有关”.
【答案】(1) ;
(2)有90%的把握认为“对两个吉祥物的喜好倾向与性别有关”.
【解析】(1)由列联表可得 ,解得 ,
故完善列联表如下:
资料整理【淘宝店铺:向阳百分百】男生 女生 总计
更喜欢“冰墩
50 30 80
墩”
更喜欢“雪容
50 70 120
融”
总计 100 100 200
故女生中更喜欢“冰墩墩”的频率是 .
(2) ,
所以有90%的把握认为“对两个吉祥物的喜好倾向与性别有关”.
【一隅三反】
1.(2023·河南开封·统考三模)2021年5月11日,第七次全国人口普查结果显示,中国65岁及以上人口
为19064万人,占总人口的 .随着出生率和死亡率的下降,我国人口老龄化趋势日益加剧,与老年
群体相关的疾病负担问题越来越受到社会关注,虚弱作为疾病前期的亚健康状态,多发于65岁以上人群.
虚弱指数量表(frailty in—dex,FI,取值范围是 )可以用来判定老年人是否虚弱,若FI 分,则定
义为“虚弱”.某研究团队随机调查了某地1170名男性与1300名女性65岁及以上老年人的身体状况,并
采用虚弱指数量表分析后得出虚弱指数频数分布表如下:
FI
男 411 579 101 79
女 417 463 162 258
(1)根据所调查的65岁及以上老年人的虚弱指数频数分布表作出65岁及以上老年人虚弱与性别的 列联
表,并分析能否在犯错误的概率不超过0.01的前提下认为老年人身体虚弱与性别有关?
非虚
虚弱 总计
弱
男 1170
女 1300
总计
资料整理【淘宝店铺:向阳百分百】(2)以频率估计概率,现从该地区随机调查两位男性65岁以上老年人,这两位老人中身体虚弱的人数为随
机变量 ,求随机变量 的分布列、期望与方差?附表及公式: ,
.
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
【答案】(1)表格见解析,能在犯错误的概率不超过0.01的前提下认为老年人身体虚弱与性别有关系
(2)分布列见解析,期望 ,方差 .
【解析】(1)由频率分布表可得列联表如下:
非虚
虚弱 总计
弱
男 990 180 1170
女 880 420 1300
总计 1870 600 2470
所以 的观测值 ,
因为 ,
故能在犯错误的概率不超过0.01的前提下认为老年人身体虚弱与性别有关系.
(2)由频率估计概率知:从当地随机调查一名65岁以上男性老年人虚弱的概率为 ,
所以随机变量 服从二项分布 ,
于是为 ,
,
资料整理【淘宝店铺:向阳百分百】,
所以随机变量 的分布列为:
0 1 2
期望 ,
方差 .
2.(2023秋·山西吕梁·高三校联考开学考试)电影评论,简称影评,是对一部电影的导演、演员、镜头、
摄影、剧情、线索、环境、色彩、光线、视听语言、道具作用、转场、剪辑等进行分析和评论.电影评论
的目的在于分析、鉴定和评价蕴含在银幕中的审美价值、认识价值、社会意义、镜头语言等方面,达到拍
摄影片的目的,解释影片中所表达的主题,既能通过分析影片的成败得失,帮助导演开阔视野,提高创作
水平,以促进电影艺术的繁荣和发展;同时能通过分析和评价,影响观众对影片的理解和鉴赏,提高观众
的欣赏水平,从而间接促进电影艺术的发展.某观影平台为了解观众对最近上映的某部影片的评价情况
(评价结果仅有“好评”“差评”),从平台所有参与评价的观众中随机抽取220人进行调查,得到数据
如下表所示(单位:人):
好评 差评 合计
男性 70 110
女性 60
合计 220
(1)请将 列联表补充完整,并依据小概率值 的独立性检验,能否认为对该部影片的评价与性别
有关联?
(2)从给出“好评”的观众中按性别用分层抽样的方法抽取10人,再从这10人中随机抽出3人送电影优惠
券,记随机变量X表示这3人中女性观众的人数,求X的分布列和数学期望.
参考公式: ,其中 .
参考数据:
资料整理【淘宝店铺:向阳百分百】【答案】(1)列联表见解析,认为对该部影片的评价与性别有关联,此推断犯错误的概率不大于0.010.
(2)分布列见解析,数学期望为
【解析】(1) 列联表如下:
好评 差评 合计
男性 40 70 110
女性 60 50 110
合计 100 120 220
零假设为 :对该部影片的评价与性别无关联.
根据列联表中的数据,经计算得到
,
根据小概率值 的独立性检验,我们推断 不成立,即认为对该部影片的评价与性别有关联,此
推断犯错误的概率不大于0.010.
(2)从给出“好评”的观众中按性别用分层抽样的方法抽取10人,
男性有: (人),女性有: (人).
X的所有可能取值为0,1,2,3,
所以 , , , ,
所以X的分布列为
X 0 1 2 3
P
所以 .
资料整理【淘宝店铺:向阳百分百】