文档内容
§9.2 用样本估计总体
课标要求 1.会用统计图表对总体进行估计,会求n个数据的第p百分位数.2.能用数字特
征估计总体集中趋势和总体离散程度.
知识梳理
1.百分位数
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有 p % 的数据小于
或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
2.平均数、中位数和众数
(1)平均数:=(x+x+…+x).
1 2 n
(2)中位数:将一组数据按从小到大或从大到小的顺序排列,处在最中间的一个数据(当数据
个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时).
(3)众数:一组数据中出现次数最多的数据(即频数最大值所对应的样本数据).
3.方差和标准差
(1)方差:s2=(x-)2或-2.
i
(2)标准差:s=.
4.总体方差和总体标准差
(1)一般式:如果总体中所有个体的变量值分别为Y,Y,…,Y ,总体平均数为,则总体方
1 2 N
差S2=(Y-)2.
i
(2)加权式:如果总体的N个变量值中,不同的值共有 k(k≤N)个,不妨记为Y ,Y ,…,
1 2
Y,其中Y出现的频数为f(i=1,2,…,k),则总体方差为S2=(Y-)2.
k i i i i
常用结论
1.若x,x,…,x 的平均数为,那么mx+a,mx+a,…,mx+a的平均数为m+a.
1 2 n 1 2 n
2.数据x ,x ,…,x 与数据x′=x +a,x′=x +a,…,x′=x +a 的方差相等,即
1 2 n 1 1 2 2 n n
数据经过平移后方差不变.
3.若x,x,…,x 的方差为s2,那么ax+b,ax+b,…,ax+b的方差为a2s2.
1 2 n 1 2 n
自主诊断
1.判断下列结论是否正确.(请在括号中打“√”或“×”)
(1)对一组数据来说,平均数和中位数总是非常接近.( × )
(2)方差与标准差具有相同的单位.( × )
(3)如果一组数中每个数减去同一个非零常数,则这组数的平均数改变,方差不变.( √ )
(4)在频率分布直方图中,可以用最高的小长方形底边中点的横坐标作为众数的估计值.( √ )
2.在下列统计量中,用来描述一组数据离散程度的量是( )
A.平均数 B.众数
C.百分位数 D.标准差
答案 D
解析 标准差反映了数据分散程度的大小,所以说标准差是用来描述一组数据离散程度的统
计量,故D正确.
3.甲、乙、丙、丁四人参加射击项目选拔赛,成绩如下,则他们中参加奥运会的最佳人选
是______.
甲 乙 丙 丁
平均环数 8.5 8.8 8.8 8
方差 3.5 3.5 2.1 8.7
答案 丙
解析 由平均数及方差的定义知,丙的平均成绩较高且较稳定,是最佳人选.
4.有一组数据:-1,a,-2,3,4,2,它们的中位数是1,则这组数据的平均数是________.
答案 1
解析 数据-1,a,-2,3,4,2,已知除a以外的数据从小到大排序为-2,-1,2,3,4,要使得
中位数为1,则a在第3位或第4位,即=1,a=0,经检验符合题意,
所以这组数据的平均数是=1.
题型一 样本的数字特征的估计
例1 (1)(多选)(2023·荆门联考)某单位为了解该单位党员开展学习党史知识活动情况,随机
抽取了30名党员,对他们一周的党史学习时间进行了统计,统计数据如下.则下列对该单
位党员一周学习党史时间的叙述,正确的有( )
党史学习时间(小时) 7 8 9 10 11
党员人数 4 8 7 6 5
A.众数是8 B.第40百分位数为8
C.平均数是9 D.中位数是9
答案 ACD
解析 由题意,随机抽取30名党员,
由表可知,党史学习时间为8小时的人最多,为8人,故众数是8,故A正确;
因为30×40%=12,第40百分位数为=8.5,故B错误;平均数为×(7×4+8×8+9×7+10×6+11×5)=9,故C正确;
因为共有30名党员,故中位数为第15项和第16项的平均数,因为第15项和第16项均为
9,故中位数为9,故D正确.
(2)(多选)(2023·新高考全国Ⅰ)有一组样本数据x ,x ,…,x ,其中x 是最小值,x 是最大
1 2 6 1 6
值,则( )
A.x,x,x,x 的平均数等于x,x,…,x 的平均数
2 3 4 5 1 2 6
B.x,x,x,x 的中位数等于x,x,…,x 的中位数
2 3 4 5 1 2 6
C.x,x,x,x 的标准差不小于x,x,…,x 的标准差
2 3 4 5 1 2 6
D.x,x,x,x 的极差不大于x,x,…,x 的极差
2 3 4 5 1 2 6
答案 BD
解析 取x=1,x=x=x=x=2,x=9,
1 2 3 4 5 6
则x ,x ,x ,x 的平均数等于2,标准差为0,x ,x ,…,x 的平均数等于3,标准差为=,
2 3 4 5 1 2 6
故A,C均不正确;
根据中位数的定义,将x ,x ,…,x 按从小到大的顺序进行排列,中位数是中间两个数的
1 2 6
算术平均数,由于x 是最小值,x 是最大值,故x ,x ,x ,x 的中位数是将x ,x ,x ,x
1 6 2 3 4 5 2 3 4 5
按从小到大的顺序排列后中间两个数的算术平均数,与 x ,x ,…,x 的中位数相等,故B
1 2 6
正确;
根据极差的定义,知x,x,x,x 的极差不大于x,x,…,x 的极差,故D正确.
2 3 4 5 1 2 6
思维升华 计算一组n个数据第p百分位数的步骤
跟踪训练1 (1)(多选)(2023·商丘模拟)在某次演讲比赛中,由两个评委小组(分别为专业人士
“小组A”和观众代表“小组B”)给参赛选手打分,根据两个评委小组给同一名选手打分的
分值绘制成如图所示的折线图,则下列结论正确的是( )A.小组A打分的分值的平均数为48
B.小组B打分的分值的中位数为66
C.小组A打分的分值的极差大于小组B打分的分值的极差
D.小组A打分的分值的方差小于小组B打分的分值的方差
答案 ABD
解析 由图可知,小组A打分的平均数为×(43+47+46+48+50+47+54+50+47)=48,
故A正确;
将小组B打分从小到大排列为36,55,58,62,66,68,68,70,75,所以中位数为66,故B正确;
小组A打分的分值的极差为54-43=11,小组B打分的分值的极差为75-36=39,故C错
误;
小组A打分的分值相对更集中,所以小组A打分的分值的方差小于小组B打分的分值的方
差,故D正确.
(2)某小组成员的年龄分布茎叶图如图所示,则该小组成员年龄的第25百分位数是________.
答案 32.5
解析 由茎叶图知数据从小到大排列为27,28,32,33,36,36,38,40,45,52,54,58,
因为12×25%=3,
所以第25百分位数是=32.5.
题型二 总体集中趋势的估计
例2 2024年,安徽、甘肃、广西、贵州、黑龙江、吉林、江西七省区作为第四批实施改革
的省份进入新高考.2023年10月,进入新高考的七个省份相继公布了高考选考科目的试卷结
构.某考试机构举行了新高考适应性考试,在联考结束后,根据联考成绩,考生可了解自己
的学习情况,作出升学规划,决定是否参加强基计划.在本次适应性考试中,某学校为了解
高三学生的联考情况,随机抽取了 100名学生的联考数学成绩作为样本,并按照分数段
[50,70),[70,90),[90,110),[110,130),[130,150]分组,绘制了如图所示的频率分布直方图.
(1)求出图中a的值并估计本次考试的及格率(“及格率”指得分为90分及以上的学生所占比
例);(2)估计该校学生联考数学成绩的第80百分位数;
(3)估计该校学生联考数学成绩的众数、平均数.
解 (1)由频率分布直方图的性质,可得(a+0.004+0.013+0.014+0.016)×20=1,
解得a=0.003.
所以及格率为(0.016+0.014+0.003)×20=0.66=66%.
(2)得分在110以下的学生所占比例为(0.004+0.013+0.016)×20=0.66,
得分在130以下的学生所占比例为0.66+0.014×20=0.94,
所以第80百分位数位于[110,130)内,
由110+20×=120,估计第80百分位数为120.
(3)由图可得,众数的估计值为100.
平均数的估计值为0.08×60+0.26×80+0.32×100+0.28×120+0.06×140=99.6.
思维升华 频率分布直方图中的数字特征
(1)众数:最高矩形的底边中点的横坐标.
(2)中位数:中位数左边和右边的矩形的面积和应该相等.
(3)平均数:平均数在频率分布直方图中等于各组区间的中点值与对应频率之积的和.
跟踪训练2 某市共有居民60万人,为了制定合理的节水方案,对居民用水情况进行了调查,
通过抽样,获得了某年 100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),
[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.
(1)求a的值,并估计该市居民月均用水量不少于3吨的人数;
(2)估计该市居民月均用水量的众数和中位数.
解 (1)由频率分布直方图,可知(0.04+0.08×2+0.12+0.16+2a+0.42+0.50)×0.5=1,
解得a=0.3;
月均用水量不少于3吨的人数为(0.12+0.08+0.04)×0.5×60×104=72 000.
(2)由图可估计众数为2.25;
设中位数为x,
因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5,
而前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5,所以2,s×(2-6)2=3.2,因为
3.2>2.4,则当平均数为2,方差为2.4时,一定不会出现点数6,故A正确;
B选项,若5个点数为3,3,3,5,6,则此时满足中位数为3,平均数为4,则方差s2=×[(3-
4)2×3+(5-4)2+(6-4)2]=1.6,故B错误;
C选项,取5个点数为2,2,3,5,6,满足中位数为3,众数为2,故C错误;
D选项,取5个点数为1,1,2,5,6,满足中位数为2,平均数为3,故D错误.
二、多项选择题
7.(2023·潮州模拟)根据气象学上的标准,如果连续5天的日平均气温都低于10 ℃即为入
冬.现将连续5天的日平均气温的记录数据(记录数据都是自然数)作为一组样本,则下列样
本中一定符合入冬指标的有( )
A.平均数小于4
B.平均数小于4且极差小于或等于3
C.平均数小于4且标准差小于或等于4
D.众数等于5且极差小于或等于4
答案 BD
解析 举反例,如0,0,0,0,15,平均数为3小于4,但不符合入冬标准,故A错误;
假设有数据大于或等于10,由极差小于或等于3知,此组数据最小值大于或等于7,与平均
值小于4矛盾,故假设不成立,故B正确;
举反例,如1,1,1,1,11,平均数为3,且标准差为4,但不符合入冬标准,故C错误;
众数等于5且极差小于或等于4时,最大数不超过9,故D正确.
8.已知数据x,x,…,x 成公差大于0的等差数列,若去掉数据x,则( )
1 2 9 5
A.极差不变 B.第25百分位数变大
C.平均数不变 D.方差变小
答案 AC
解析 选项A,根据极差的定义,原数据的极差为 x -x ,去掉x 后的极差为x -x ,即极
9 1 5 9 1
差不变,故A正确;
选项B,原数据的第25百分位数为x ,去掉x 后的第25百分位数为(x +x)