文档内容
第六章 数据的分析
6.2中位数与箱线图导学案
►
学习目标与重难点
学习目标:
知识与技能:理解中位数的概念及其在数据分析中的作用;掌握箱线图的绘制方法及如何从箱线图
中读取信息。
过程与方法:通过实际问题情境引入,让学生经历数据收集、整理、描述的过程,培养学生的统计
意识和数据分析能力。
情感态度与价值观:激发学生对数学的兴趣,培养学生的合作交流能力和批判性思维。
学习重点:掌握中位数、百分位数、四分位数概念,从箱线图中获取信息。
学习难点:运用箱线图分析数据分布。
►
预习自测
一、知识链接
1、某公司员工月工资收入如下
经理:我公司员工收入很高,平均5400元。数据5400是这组数据的 数。
职员C:我的工资4800,在公司算中等收入。数据4800是这组数据的 数。
职员D:我们好几个人的工资都是4500元。数据4500是这组数据的 数。
应聘者:这个公司的收入到底怎样?
2、议一议:众数、平均数、中位数各有什么特点
众数、平均数、中位数都是描述数据 的统计量
① 存在性:平均数和中位数必然 且 ,众数可能 。
② 数据依赖性:平均数依赖 ,中位数仅依赖 ,众数依赖 的数据。
③ 极端值影响:平均数最敏感,中位数次之(仅在偶数个数据时可能受中间两数影响),众数完全
不受影响。
3、中位数
定义:一般地,n个数据按大小顺序排列,处于最 的一个数据(或 )叫做这组数据
的中位数。
例:数据2,3,3,5,7,它们的中位数为 ;
数据2,3,3,5,7,8,它们的中位数为 。
中位数是刻画一组数据“ ”的一个代表
4、求中位数步骤
(1)排序 (2)判奇偶 (3)定中位数
►
教学过程
探究1百分位数的计算
中位数是一组数据从小到大排列数据中占据50%位置的数,优点是简单,受极端数据的影响较小。
但仅有中位数不能完整反映数据的分布情况,为此,通常还可以找出其他百分位位置上的数据,
(处于p%位置上的数据称为第P百分位数,记为p%分位数,制作百分位数值表。它能更细致地反
映数据在整体中的分布情况,比如在身高数据中,可明确自己身高在同龄人中的位置。
下表是根据世界卫生组织的相关数据制作的14岁学生身高百分位数值表,你能读懂这张表吗?
能能判断自己的身高在同龄人中的大致位置吗?
探究2,四分位数的计算
在百分位数中,除了最大值和最小值外,我们尤为关注25%,50%、75%分位数,把一组数据分位
个数相等的四部分,因此分别称为下四分位数( )、中位数( )、上四分位数,(
),如何计算一组数据的四分位数呢?同学之间互相交流。
例题:某市12月16日--31日每日的最高气温(单位:摄氏度)依次如下;
5 3 2 2 2 2 3 3 5 5 -2 -2 -5 -1 -1 -1
中位数(50%分位数)(2+2)÷2=2 即 =2C
下四分位数(25%分位数),前一半数据的中位数 [(-1)+(-1)]÷2=-1 即 =-1C
上四分位数(75%分位数),后一半数据的中位数 (3+3)÷2=3 即 =3C
【强调】怎样计算四分位数:
1、把这组数据从小到大排列
2、计算这组数据的中位数( )
3、下四分位:计算前一半数据的中位数( )
4、上四分位:计算后一半数据的中位数( )
探究3:箱线图
1、下面是全班40个同学1min跳绳的次数;
132,136,144,162,144,115,132,136,123,144,136,132,132,159,136,144,129,
136,139,153,123,133,144,137,152,138,136,129,129,134,138,149,125,128,
128,133,138,134,146,148。
求全班同学1min跳绳的最小值,下四分位数,中位数,上四分位数、最大值。
2、下面是有关40个同学1min跳绳的箱线图,
看图回答下列问题
①图中有5条横线:分别表示什么含义?
②中间长方形(箱子)被136分成两部分,上半部分比下半部分大,说明说明原因?
③估计一下这组数据的平均数大还是中位数大?
3、箱线图也可以表示为4、直方图与箱线图的比较
直方图的特点是能够显示各组频数分布的情况, 箱线图包括最大值、最小值、四分位数信息
易于比较各组之间频数的差异,并反映数据的 反映一组数据的分布情况,适应于多组数据
整
分布形态。 体分布情况的比较。
5、利用箱线图进行数据分析
下图是同一个班级两次1min跳绳成绩箱线图,两次跳绳成绩比较(填写下表)
最 小 中 位 最 大
值 数 值
第一次
第二次
结论:该班跳绳的成绩有所提升。
6、强调
(1)箱线图的特点:
箱线图包括最大值、最小值、四分位数信息。反映一组数据的分布情况,适应于多组数据整体分布情况的比较。
(2)上、下四分位数的计算
下四分位数;前一半数据的中位数;
上四分位数:后一半数据的中位数。
课堂练习、巩固提高
基础达标:
1.某射击运动员在一次训练中,10次射击的成绩(环数)分别是:9.2, 9.5, 9.8, 10.0, 9.0,
9.6, 9.3, 9.7, 9.9, 9.4。这组数据的中位数是 环。
2.对于一组数据,其下四分位数( )、中位数( )、上四分位数( )将所有数据分成
了四个部分。每个部分包含的数据个数约占总数据个数的 %。
3.一组数据的上四分位数是85,下四分位数是60,则这组数据的四分位距(IQR)是 。
4.某班25名学生的身高数据(单位:cm)已按从小到大的顺序排列。已知第7名学生的身高是
160cm,第13名学生的身高是168cm,第19名学生的身高是175cm。则这组身高的中位数是
cm,下四分位数( )约是 cm,上四分位数( )约是 cm。
(提示:对于n=25, 的位置是第(n+1)÷4, 的位置是第3(n+1)÷4)
5.某小组8名同学的数学测试成绩如下(单位:分):
85, 92, 78, 95, 88, 85, 90, 98
(1)求这组数据的平均数、中位数和众数。
(2)求这组数据下四分位数( )、上四分位数( ) 。
能力提升:
6.甲、乙两名运动员在10次训练中的跳远成绩(单位:米)如下:
甲: 5.8, 5.9, 6.0, 6.1, 6.1, 6.2, 6.3, 6.3, 6.4, 6.5
乙: 5.5, 5.7, 5.9, 6.0, 6.1, 6.1, 6.2, 6.4, 6.7, 7.0
(1)分别计算甲、乙两组数据的五数概括(最小值、 、中位数、 、最大值)。
(2)在同一数轴上,绘制出甲、乙两名运动员跳远成绩的箱线图。(3)根据箱线图,比较两名运动员成绩的异同点(至少写出两点)。
拓展迁移:
7. 为了解A、B两个品种的小麦生长情况,农业技术员各抽取了 10株小麦,测量了它们的株高
(单位:cm),数据如下:
品种A: 45, 48, 50, 52, 53, 55, 56, 58, 60, 65
品种B: 40, 42, 50, 52, 53, 54, 55, 56, 58, 80
(1)计算两个品种小麦株高的中位数和平均数。
(2)计算两个品种小麦株高的四分位数 和 。
(3)一位技术员说:“品种B的平均高度更高,所以品种B的生长情况更好。” 你同意这个观点
吗?请结合中位数、四分位距和箱线图(可自行绘制或想象)的知识,从稳定性和异常情况等方面
进行分析,并说明理由。
四、总结反思、拓展升华
【课堂总结】
1、一般地,n个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)
叫做这组数据的中位数。中位数是刻画一组数据“中等水平”的一个代表( )
2、下四分位数;前一半数据的中位数;( )
3、上四分位数:后一半数据的中位数。( )
4、箱线图包括最大值、最小值、上下四分位数信息。反映一组数据的分布情况,适应于多组数据整体分布情况的比较。
五、【作业布置】
基础达标:
1、某公司8名员工的月薪(单位:元)分别为:4500, 4800, 5000, 5200, 5500, 5800, 6000,
20000。为了更真实地反映该公司员工的普遍收入水平,下列统计量中最合适的是( )。
A. 平均数 B. 中位数 C. 众数 D. 方差
2、在箱线图中,能反映数据离散程度,且不受极端值影响的部分是( )。
A. 上边缘 B. 中位数线 C. 箱体(四分位距 IQR) D. 下边缘
3、一组数据有15个数,已排序。下列说法不正确的是( )。
A. 第8个数是这组数据的中位数 B. 第7个数和第8个数的平均值是中位数
C. 第4个数是下四分位数 D. 第12个数是上四分位数
4、某小组9名同学的数学测验成绩如下(单位:分):
78, 85, 92, 95, 98, 100, 100, 65, 88
(1) 求这组数据的平均数、中位数和众数。
(2) 如果去掉一个最低分65分,再求剩下8个成绩的平均数和中位数。
(3) 比较(1)和(2)的结果,说明极端值对平均数和中位数的影响。
能力提升:
5. 箱线图绘制与分析
为了解A、B两个工厂生产的同一种零件的直径稳定性,质检员各随机抽取了10个零件进行测量,
得到如下数据(单位:mm):
A工厂: 20.1, 20.2, 20.3, 20.3, 20.4, 20.5, 20.5, 20.6, 20.7, 22.0
B工厂: 19.8, 19.9, 20.0, 20.1, 20.2, 20.3, 20.4, 20.5, 20.6, 20.7
(1) 分别计算A、B两厂数据的中位数、下四分位数、上四分位数和四分位距。
(2) 根据计算结果,在同一个数轴上绘制A、B两厂数据的箱线图。
(3) 根据箱线图,比较A、B两厂生产的零件直径的分布特征,并判断哪个工厂的生产过程更稳定。
请说明理由。拓展迁移:
6.实际应用与综合分析
某市连续15天记录了每日的PM2.5浓度(单位:μg/m³),数据如下:
35, 42, 55, 60, 68, 72, 75, 78, 80, 82, 85, 90, 95, 120, 150
(1) 求这组数据的五数概括(最小值、 , , , 最大值)。
(2) 计算四分位距(IQR),并利用“1.5×IQR”法则判断这组数据中是否存在异常值。如果存在,
请指出是哪个(或哪些)。
(3) 剔除异常值后,重新计算剩余数据的五数概括,并绘制新的箱线图(草图即可)。
(4) 结合原始数据和剔除异常值后的分析,评价这15天该市的空气质量情况。
课堂作业参考答案:
基础达标:
1.9.552. 25%
3.25
4.168;160;175。
(提示:对于n=25, 的位置是第(n+1)÷4, 的位置是第3(n+1)÷4)
5.解析(1):首先,将数据按从小到大的顺序排列:
78, 85, 85, 88, 90, 92, 95, 98
平均数:(78 + 85 + 85 + 88 + 90 + 92 + 95 + 98) ÷8 = 88.875 (分)
中位数= (88 + 90) ÷ 2 = 89 (分)
众数:数据中出现次数最多的数是85(出现了2次),众数= 85 (分)
(2)下四分位数是前半部分数据的中位数。前半部分数据为 78, 85, 85, 88。
=(85 + 85) ÷2 = 85 (分)。
上四分位数是后半部分数据的中位数。后半部分数据为 90, 92, 95, 98。
=(92 + 95) ÷2 = 93.5 (分)。
能力提升:
6.解(1)
甲: 最小值=5.8, =6.0, 中位数=6.15, =6.3, 最大值=6.5
乙: 最小值=5.5, =5.9, 中位数=6.1,
=6.55, 最大值=7.0
(2)甲跳远成绩的箱线图
5.8 6.0 6.1 6.3 6.5
乙跳远成绩的箱线图。
5.5 5.9 6.1 6.55 7.0
(3)相同点:
集中趋势相近:甲的中位数(6.15米)和乙的中位数(6.1米)非常接近,说明两名运动员成绩的
中间水平差不多。
都有较好的稳定性:从箱子的长度来看,甲的为0.3米,乙的为0.65米,说明甲的成绩中间50%更
集中,稳定性略好。但两者都没有特别离谱的极端值(在箱线图须线范围内)。
不同点:成绩的离散程度(波动性)不同:甲的箱线图整体更“紧凑”,箱子(IQR=0.3)和须线(范围
=0.7)都较短,说明甲的成绩波动小,表现非常稳定。乙的箱线图整体更“分散”,箱子
(IQR=0.65)和须线(范围=1.5)都较长,说明乙的成绩波动大,表现不够稳定。
成绩的分布范围不同:甲的成绩集中在5.8米到6.5米之间。乙的成绩范围更广,从5.5米到7.0米,
说明乙既有发挥失常的时候(5.5米),也有超常发挥的时候(7.0米)。
拓展迁移:
7.解:(1)计算中位数和平均数。
品种A:中位数 = (53 + 55) ÷2 = 54 cm
平均数= (45+48+50+52+53+55+56+58+60+65) ÷10 = 54.2 cm
品种B:中位数 = (53 + 54) ÷2 = 53.5 cm
平均数= (40+42+50+52+53+54+55+56+58+80) ÷ 10 = 54 cm
(2)品种A:
(前半段 45, 48, 50, 52, 53 的中位数)
= 50 cm
(后半段 55, 56, 58, 60, 65 的中位数)
= 58 cm
品种B:
(前半段 40, 42, 50, 52, 53 的中位数)
= 50 cm
(后半段 54, 55, 56, 58, 80 的中位数)
= 56 cm
(3)我不同意这个观点。理由如下:
从集中趋势看,品种A更优:
技术员只看到了平均数(A: 54.2 cm, B: 54.0 cm),两者几乎一样。但 中位数 是更能抵抗极
端值影响的集中趋势指标。品种A的中位数(54 cm)高于品种B的中位数(53.5 cm),这说明品
种A中大多数植株的高度要高于品种B。因此,从普遍水平来看,品种A的生长情况更好。
从稳定性和离散程度看,品种A远胜于品种B:
品种B的平均数被一个 异常值(80cm)严重拉高了。如果没有这个80cm的植株,品种B的平均数
会远低于品种A。这说明品种B的生长情况 极不稳定,大部分植株长势一般,但存在个别“疯长”
的特例。
从 箱线图 的角度看(可以想象),品种B的箱线图会有一个非常长的上须线,指向80cm,这明显是一个异常值。而品种A的数据分布则相对均匀和稳定。
虽然 四分位距 显示品种B(IQR=6cm)中间50%的数据比品种A(IQR=8cm)更集中,但这主要是
因为品种B的异常值“拉大”了整体范围,使得其 相对靠后。IQR在这里的参考价值需要结
合整体分布来看。品种A的整体分布(从最小值45到最大值65)比品种B(从最小值40到最大值
80)要 稳健得多。
结论:
评价一个品种的生长情况,不能只看平均数。一个稳定、普遍长势良好的品种(如品种 A)比一个
大部分长势一般、仅靠个别植株拉高平均数的品种(如品种 B) 更具推广价值和实际意义。因此,
品种A的生长情况更好。
课外作业参考答案:
基础达标:
1、B
2、C
3、B
4、解:(1) 求平均数、中位数和众数。
排序: 65, 78, 85, 88, 92, 95, 98, 100, 100
平均数: (65+78+85+88+92+95+98+100+100) ÷9 = 89 (分)
中位数: 共9个数据,中位数是第5个数,即 92 (分)。
众数: 100出现了2次,是出现次数最多的数,所以众数是 100 (分)。
(2) 去掉最低分65后,求平均数和中位数。
新数据: 78, 85, 88, 92, 95, 98, 100, 100
新平均数: (801 - 65) ÷8 = 92 (分)
新中位数: 共8个数据,中位数是第4和第5个数的平均值,
即 (92 + 95) ÷ 2 = 93.5 (分)。
(3) 比较与说明。
原平均数为89分,新平均数为92分,上升了3分。
原中位数为92分,新中位数为93.5分,上升了1.5分。
结论: 极端值(最低分65)对平均数的影响比对中位数的影响更大。当数据中存在极端值时,平
均数会向极端值的方向偏移,而中位数则相对稳定,更能反映数据的中间水平。
能力提升:
5.解:(1)
A工厂: 20.1, 20.2, 20.3, 20.3, 20.4, 20.5, 20.5, 20.6, 20.7, 22.0
最小值= 20.1 ,最大值= 22.0,
中位数( ) = (第5个数 + 第6个数) ÷2 = (20.4 + 20.5) ÷ 2 = 20.45下四分位数( )前一半数据的中位数 = 20.3
上四分位数( )后一半数据的中位数 = 20.6
四分位距=20.6-20.3=0.3
B工厂: 19.8, 19.9, 20.0, 20.1, 20.2, 20.3, 20.4, 20.5, 20.6, 20.7
最小值= 19.8 ,最大值= 20.7,
中位数( ) = (第5个数 + 第6个数) ÷2 = (20.2 + 20.3) ÷ 2 = 20.25
下四分位数( )前一半数据的中位数 = 20.0
上四分位数( )后一半数据的中位数 = 20.5
四分位距=20.5-20.0=0.5
(2) 绘制箱线图。
A厂箱线图。
20.1 20.3 20.45 20.6 22.0
B厂箱线图
19.8 20.0 20.25 20.5 20.7
(3) 比较与分析。
集中趋势: A工厂的中位数(20.45mm)略高于B工厂的中位数(20.25mm),说明A工厂生产的
零件直径整体上偏大。
离散程度:
A工厂的箱体长度(IQR=0.3)比B工厂的箱体长度(IQR=0.5)短,说明A工厂中间50%的数据更集
中,波动更小。
但是,A工厂存在一个明显的极端值(22.0mm),导致其数据范围(最大值-最小值)远大于B工
厂。这表明A工厂的生产过程偶尔会出现严重的偏离。
稳定性判断: B工厂的生产过程更稳定。
理由: 虽然A工厂中间大部分产品的直径更集中,但那个极端值(22.0mm)暴露了其生产过程存
在不稳定因素,质量控制可能存在漏洞。而B工厂的所有数据点分布都比较均匀,没有出现离群值,
整体表现更平稳、更可靠。稳定性不仅看中间部分的集中程度,更要看整个生产过程的可控性,B
工厂显然表现更好。
拓展迁移:
6.解:
(1) 求五数概括。数据排序:35, 42, 55, 60, 68, 72, 75, 78, 80, 82, 85, 90, 95, 120, 150
最小值: 35 最大值: 150
中位数( ): n=15,位置是第(15+1)÷2=8个数,即 78。
位置是第(15+1)÷4=4个数,即 60。
位置是第3(15+1)÷4=12个数,即 90
2) 判断异常值。
计算四分位距;IQR: IQR = - = 90 - 60 = 30。
计算上下限:
下限= - 1.5 × IQR = 60 - 1.5 × 30 = 60 - 45 = 15。
上限= + 1.5 × IQR = 90 + 1.5 × 30 = 90 + 45 = 135。
判断: 数据中小于15或大于135的值为异常值。数据中150 > 135,所以 150是异常值。
(3)剔除异常值后,重新计算并绘图。
新数据: 35, 42, 55, 60, 68, 72, 75, 78, 80, 82, 85, 90, 95, 120 (共14个)
新五数概括:最小值= 35 最大值= 120
中位数( ) = (第7个数 + 第8个数) ÷ 2 = 76.5
= 第 (14+1)÷4 = 3.75 个数 ≈ 第4个数 = 60
= 第 3(14+1)÷4 = 11.25 个数 ≈ 第11个数 = 85
绘制新箱线图(草图):
35 60 76.5 85 120
(4) 空气质量评价。
基于原始数据分析: 15天的PM2.5浓度中位数为78μg/m³,根据国家标准,这属于“轻度污染”
水平。但数据范围很大(35-150),且存在一个严重污染的异常值(150μg/m³,达到“重度污
染”),表明这期间空气质量波动剧烈,大部分时间处于不健康状态,并出现过非常糟糕的情况。
基于剔除异常值后分析: 剔除最糟糕的一天后,剩余 14 天的中位数降至 76.5μg/m³,也从90降到85,说明整体污染水平略有下降。IQR变为25,数据相对集中了一些。但最大值仍
有120,表明即使在没有极端值的日子里,也出现过“中度污染”的情况。
综合评价: 总体来看,这15天该市的空气质量不容乐观。虽然大部分时间的 PM2.5浓度集中在
60-85之间(轻度污染),但污染水平波动较大,且频繁出现中度甚至重度污染天气。这表明该市
在监测期间可能受到了不利气象条件或污染源排放增加的影响,空气质量不稳定,对市民健康构成
潜在威胁。相关部门需要关注并采取措施以改善空气质量。