文档内容
微专题 3 统计与成对数据的统计分析
[考情分析] 高考对本讲内容的考查往往以实际问题为背景,考查随机抽样与用样本估计总体、经验回归
方程的求解与运用、独立性检验问题,常与概率综合考查,中等难度.
考点一 统计图表、数字特征
频率 频率
1.频率分布直方图中相邻两横坐标之差表示组距,纵坐标表示 ,频率=组距× .
组距 组距
2.在频率分布直方图中各小长方形的面积之和为1.
3.利用频率分布直方图求众数、中位数与平均数
(1)最高的小长方形底边中点的横坐标即众数.
(2)中位数左边和右边的小长方形的面积和相等.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中
点的横坐标之和.
例1 (1)(多选)(2024·泰安模拟)某灯具配件厂生产了一种塑胶配件,该厂质检人员某日随机抽取了100
个该配件的质量指标值(单位:分)作为一个样本,得到如图所示的频率分布直方图,则(同一组中的数
据用该组区间的中点值作代表)( )
A.m=0.030
B.样本质量指标值的平均数为75
C.样本质量指标值的众数小于其平均数
D.样本质量指标值的第75百分位数为85
答案 ACD
解析 对于A项,由题意知(0.010+0.015+m+0.035+0.010)×10=1,解得m=0.030,故A项正确;
对于B项,样本质量指标值的平均数为55×0.1+65×0.15+75×0.35+85×0.3+95×0.1=76.5,故B项错误;
70+80
对于C项,样本质量指标值的众数是 =75<76.5,故C项正确;
2
对于D项,前3组的频率之和为(0.010+0.015+0.035)×10=0.60,前4组的频率之和为0.60+0.030×10=0.90,
故第75百分位数位于第4组,设其为t,
则(t-80)×0.030+0.60=0.75,解得t=85,
即第75百分位数为85,故D项正确.(2)(多选)(2024·嘉兴模拟)已知一组数据1,3,5,7,9,其中位数为a,平均数为x,极差为b,方差为
s2.现从中删去某一个数,得到一组新数据,其中位数为a',平均数为x',极差为b',方差为s'2,则下
列说法中正确的是( )
A.若删去3,则ax',B选项错误;
C选项,根据极差的定义,若去掉的数是3,5,7中的一个,显然去掉前后极差都是9-1=8,满足b=b',
若去掉1,b'=9-3=60)的方差为s2,平均数x
1 2 3 4 5 1 2 3 4 5
>0,则( )
A.数据3x -2,3x -2,3x -2,3x -2,3x -2的方差为9s2
1 2 3 4 5
B.数据3x -2,3x -2,3x -2,3x -2,3x -2的平均数大于0
1 2 3 4 5
C.数据x ,x ,x ,x 的方差大于s2
2 3 4 5
D.数据x ,x ,x ,x 的平均数大于x
2 3 4 5
答案 AD
解析 对于A,数据3x -2,3x -2,3x -2,3x -2,3x -2的方差为9s2,故A正确;
1 2 3 4 5
对于B,数据3x -2,3x -2,3x -2,3x -2,3x -2的平均数为3x-2,
1 2 3 4 5
2
当00,
5x +x +x +x
数据x ,x ,x ,x 的平均数 2 3 4 5
2 3 4 5 4
5 x
= x- 1,
4 4
因为x <0,故数据x ,x ,x ,x 的平均数大于x,故D正确.
1 2 3 4 5
考点二 回归分析
求经验回归方程的步骤
(1)依据成对样本数据画出散点图,确定两个变量具有线性相关关系(有时可省略).
^ ^
(2)计算出x,y,a,b.
(3)写出经验回归方程.
例2 (1)(多选)(2024·晋中模拟)下列有关回归分析的结论中,正确的有( )
^
A.在成对样本数据(x
i
,y
i
)(i=1,2,3,…,10)中,根据最小二乘法求得经验回归方程为 y=3x-1,去除一
个样本点(x ,y )后,得到的新经验回归方程一定会发生改变
1 1
B.具有相关关系的两个变量x,y的样本相关系数为r,那么r越大,x,y之间的线性相关程度越强
C.若散点图中的散点均落在一条斜率非零的直线上,则决定系数R2=1
D.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高
答案 CD
解析 对于A,若去除的点恰好在原经验回归直线上,则去除该点后,经验回归方程不会发生改变,故A
错误;
对于B,|r|越接近于1,则x,y之间的线性相关程度越强,故B错误;
对于C,若散点图中的散点均落在一条斜率非零的直线上,则变量与变量之间满足线性函数关系,决定系
数R2=1,故C正确;
对于D,在残差图中,残差点分布的水平带状区域越窄,说明波动越小,即模型的拟合精度越高,故D正
确.
(2)(2024·温州模拟)2024年之前某淀粉厂只生产食品淀粉,下表为近几年年投入资金x(万元)与年收益
y(万元)的8组数据:
x 10 20 30 40 50 60 70 80
y 12.8 16.5 19 20.9 21.5 21.9 23 25.4
①用y=bln x+a模拟生产食品淀粉年收益y与年投入资金x的关系,求出非线性经验回归方程;
②为响应国家“加快调整产业结构”的号召,该企业又自主研发出一种药用淀粉,预计其收益为投入
的10%.2024年该企业计划投入200万元用于生产两种淀粉,求年收益的最大值(精确到0.1万元).n
Σ v u -nv u
i i
^ ^ ^ ^
i=1 ^
附:Ⅰ.经验回归直线u=bv+a中斜率和截距的最小二乘估计公式分别为:b= ,a=u-
n
Σ
v2-nv2
i
i=1
^
bv.
Ⅱ.
8 8 8 8 8
Σ y Σ ln x Σ
x2
Σ (ln x)2 Σ yln x
i i i i i i
i=1 i=1 i=1 i=1 i=1
161 29 20 400 109 603
Ⅲ.ln 2≈0.7,ln 5≈1.6.
8
Σ t y -8t·y
i i
^
i=1
解 ①令t=ln x ,b=
8
Σ
t2-8t2
i
i=1
29 161
603-8× ×
8 8
= =5,
(29) 2
109-8×
8
^ ^ 161 29
a=y-bt= -5× =2,
8 8
^
∴非线性经验回归方程为 y=5ln x+2.
②2024年设该企业投入食品淀粉生产m万元,预计收益w万元,
1
w=5ln m+2+(200-m)· ,00得07.879=x .
0.005
24×12×12×24
根据小概率值α=0.005的独立性检验,我们推断H 不成立,即认为期末统考中的数学成绩与建立个性化错
0
题本有关.
k(a+b+c+d)(ka·kd-kb·kc) 2 k(a+b+c+d)(ad-bc) 2
(3)χ'2= = =9k≥10.828,
k(a+b)·k(c+d)·k(a+c)·k(b+d) (a+b)(c+d)(a+c)(b+d)
10.828
解得k≥ .
9
要使新列联表中的数据都为整数,则需4k∈Z.
10.828×4
又因为4k≥ ≈4.8,
9
5
所以4k的最小值为5,故k的最小值是 .
4
[易错提醒] (1)χ2越大两分类变量无关的可能性越小,推断犯错误的概率越小,通过表格查得无关的可能
性.
(2)在犯错误的概率不大于0.01的前提下认为两个变量有关,并不是指两个变量无关的可能性为0.01.
跟踪演练3 (2024·福州模拟)人的性格可以大体分为“外向型”和“内向型”两种,某中学为了了解这
两种性格特征与人的性别是否存在关联,采用简单随机抽样的方法抽取90名学生,得到如下数据:
外向型 内向型
男生 45 15
女生 20 10
(1)以上述统计结果的频率估计概率,从该校男生中随机抽取2人、女生中随机抽取1人担任志愿者.设
这三人中性格外向型的人数为X,求X的数学期望;(2)对表格中的数据,依据α=0.1的独立性检验,可以得出独立性检验的结论是这两种性格特征与人的
性别没有关联.如果将表格中的所有数据都扩大为原来10倍,在相同的检验标准下,再用独立性检验推
断这两种性格特征与人的性别之间的关联性,得到的结论是否一致?请说明理由.
参考公式与临界值表:
n(ad-bc) 2
χ2= .
(a+b)(c+d)(a+c)(b+d)
α 0.1 0.05 0.01
x 2.706 3.841 6.635
α
3 2
解 (1)由统计结果可知,外向型男生在所有男生中占比为 ,外向型女生在所有女生中占比为 ,
4 3
3
故从该校男生中随机抽取一人为外向型男生的概率是 ,从该校女生中随机抽取一人为外向型女生的概率
4
2
是 .
3
方法一 X的所有可能取值为0,1,2,3,
(1) 2 1 1
则P(X=0)= × = ,
4 3 48
P(X=1)=C1×
3
×
1
×
1
+
(1) 2
×
2
=
1
,
2 4 4 3 4 3 6
P(X=2)=
(3) 2
×
1
+C1×
3
×
1
×
2
=
7
,
4 3 2 4 4 3 16
(3) 2 2 3
P(X=3)= × = ,
4 3 8
1 1 7 3 13
所以E(X)=0× +1× +2× +3× = .
48 6 16 8 6
方法二 从该校男生中随机抽取2人,抽到性格外向型的人数记为Y ;
1
从该校女生中随机抽取1人,抽到性格外向型的人数记为Y ,
2
( 3) ( 2)
则Y ~B 2, ,Y ~B 1, ,
1 4 2 3
3 3
所以E(Y )=2× = ,
1 4 2
2 2
E(Y )=1× = ,
2 3 3
所以E(X)=E(Y +Y )=E(Y )+E(Y )
1 2 1 2
3 2 13
= + = .
2 3 6
(2)零假设为H :这两种性格特征与人的性别无关联.
0由所获得的所有数据都扩大为原来10倍,可知
900×(450×100-150×200) 2 90
χ2= = ≈6.923>2.706=x ,
600×300×650×250 13 0.1
依据α=0.1的独立性检验,可以推断这两种性格特征与人的性别有关联,与原来的结论不一致,
原因是每个数据扩大为原来的10倍,相当于样本量变大为原来的10倍,导致推断结论发生了变化.
专题强化练
(分值:90分)
一、单项选择题(每小题5分,共30分)
1.(2024·南通模拟)某工厂利用随机数表对生产的50个零件进行抽样测试,先将50个零件进行编号,编号
分别为01,02,…,50,从中抽取5个样本,下面提供随机数表的第1行到第2行:
66 67 40 37 14 64 05 71 11 05 65
09 95 86 68 76 83 20 37 90
57 16 03 11 63 14 90 84 45 21 75
73 88 05 90 52 23 59 43 10
若从表中第1行第9列开始向右依次读取数据,则得到的第4个样本编号是( )
A.10 B.09
C.71 D.20
答案 B
解析 从随机数表第1行的第9列数字开始由左向右每次连续读取2个数字,删除超出范围及重复的编号,
符合条件的编号有14,05,11,09,所以选出来的第4个样本的编号为09.
2.(2024·张家口模拟)现有一组数据x ,x ,…,x ,将这组数据按照从小到大的顺序排列,则去掉第一个数
1 2 n
和最后一个数后,下列统计量一定不变的是( )
A.平均数 B.中位数
C.方差 D.极差
答案 B
解析 现有一组数据x ,x ,…,x ,将这组数据按照从小到大的顺序排列为y ,y ,…,y ,去掉第一个
1 2 n 1 2 n
数和最后一个数后为y ,…,y .
2 n-1
y + y + y +…+ y y + y +…+ y
原平均数为
1 2 3 n,删除后平均数为 2 3 n-1,不一定相等,故A不正确;
n n-2
根据中位数的定义可知,中位数不会发生改变,故B正确;
因为最小的数据变大,最大的数据变小,其余数据不变,方差的意义是新数据与新平均值的波动情况,不
能确定不变,故C不正确;原极差为y -y ,删除后极差为y -y ,不一定相等,故D不正确.
n 1 n-1 2
3.某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列联表(单位:人):
月收入
月收入5 000元以下 月收入5 000元及以上 合计
文化程度
高中文化以上 10 45 55
高中文化及以下 20 30 50
合计 30 75 105
105×(10×30-45×20) 2
由上表中数据计算得χ2= ≈6.109.如果认为文化程度与月收入有关系,那么犯错误
55×50×30×75
的概率不会超过( )
附表:
α 0.10 0.05 0.010 0.005 0.001
x 2.706 3.841 6.635 7.879 10.828
α
A.0.001 B.0.005
C.0.01 D.0.05
答案 D
解析 因为χ2≈6.109>3.841=x ,所以认为文化程度与月收入有关系,那么犯错误的概率不会超过0.05.
0.05
4.(2024·临沂模拟)一组数据按从小到大的顺序排列为1,4,m,12,14,21,若该组数据的中位数是极差
2
的 ,则该组数据的第45百分位数是( )
5
A.4 B.6
C.8 D.12
答案 A
m+12
解析 根据中位数的定义,该组数据的中位数是 ,
2
根据极差的定义,该组数据的极差是21-1=20,
m+12 2
依题意得, =20× ,解得m=4,6×0.45=2.7∉Z,
2 5
根据百分位数的定义,该组数据的第45百分位数是从小到大排列的第3个数,即4.
5.(2024·新课标全国Ⅱ)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩
产量(单位:kg)并整理得下表:
亩产量 [900,950) [950,1 000) [1 000,1 050) [1 050,1 100) [1 100,1 150) [1 150,1 200]频数 6 12 18 30 24 10
根据表中数据,下列结论中正确的是( )
A.100块稻田亩产量的中位数小于1 050 kg
B.100块稻田中亩产量低于1 100 kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200 kg至300 kg之间
D.100块稻田亩产量的平均值介于900 kg至1 000 kg之间
答案 C
解析 对于A,根据频数分布表可知,
6+12+18=36<50,
所以亩产量的中位数不小于1 050 kg,故A错误;
对于B,亩产量不低于1 100 kg的频数为24+10=34,
100-34
所以低于1 100 kg的稻田占比为 ×100%=66%,故B错误;
100
对于C,因为1 200-900=300,1 150-950=200,故C正确;
对于D,由频数分布表可得,
1
平均值为 ×(6×925+12×975+18×1 025+30×1 075+24×1 125+10×1 175)=1 067,故D错误.
100
6.(2024·秦皇岛模拟)某校为了解本校高一男生身高和体重的相关关系,在该校高一年级随机抽取了7名男
生,测量了他们的身高和体重得下表:
身高x(单位:cm) 167 173 175 177 178 180 181
体重y(单位:kg) 90 54 59 64 67 72 76
由表格制作成如图所示的散点图:
^ ^ ^
由最小二乘法计算得到经验回归直线l 1 的方程为 y=b x+a , 其样本相关系数为r 1 ;经过残差分析,点
1 1
^ ^ ^
(167,90)对应残差过大,把它去掉后,再用剩下的6组数据计算得到经验回归直线l 2 的方程为 y=b x+a ,
2 2
样本相关系数为r .则下列选项正确的是( )
2^ ^ ^ ^
A.b >b ,a >a ,r 1 b ,a r 2
1 2 1 2
^ ^ ^ ^
C.b r 2
1 2 1 2
^ ^ ^ ^
D.b a ,r 1 a ,b 10.828,
40×360×150×250 3
依据小概率值α=0.001的独立性检验,认为过量饮酒与患疾病A有关,所以D正确.
8.(2024·邢台模拟)下列命题为真命题的是( )
A.若样本数据x ,x ,x ,x ,x ,x 的方差为2,则数据2x -3,2x -3,2x -3,2x -3,2x -3,2x -3的方差为
1 2 3 4 5 6 1 2 3 4 5 6
5
B.一组数据8,9,10,11,12的第80百分位数是11.5
C.用决定系数R2比较两个模型的拟合效果时,若R2越大,则相应模型的拟合效果越好
^
D.以模型 y=cekx去拟合一组数据时,为了求出经验回归方程,设z=ln y,求得经验回归方程为 z=2x+0.4,
则c,k的值分别是e0.4和2
答案 BCD
解析 对于A,若样本数据x ,x ,…,x 的方差为2,则数据2x -3,2x -3,2x -3,2x -3,2x -3,2x -3的
1 2 6 1 2 3 4 5 6
方差为22×2=8≠5,故A错误;
11+12
对于B,5×80%=4,则其第80百分位数是 =11.5,故B正确;
2
对于C,根据决定系数的含义知R2越大,则相应模型的拟合效果越好,故C正确;
对于D,以模型y=cekx去拟合一组数据时,为了求出经验回归方程,设z=ln y,
则z=ln y=ln c+ln ekx=ln c+kx,
^
由题知经验回归方程为z=2x+0.4,则ln c=0.4,k=2,故c,k的值分别是e0.4和2,故D正确.
三、填空题(每小题5分,共10分)
9.(2024·深圳模拟)已知样本x ,x ,x 的平均数为2,方差为1,则x2,x2,x2的平均数为 .
1 2 3 1 2 3答案 5
x +x +x
解析 由题意知
1 2 3=2,
3
所以x +x +x =6,
1 2 3
(x -2) 2+(x -2) 2+(x -2) 2
由 1 2 3 =1,
3
x2+x2+x2
得x2 +x2 +x2 =15,所以 1 2 3=5.
1 2 3 3
10.(2024·广州模拟)某校数学建模兴趣小组收集了一组恒温动物体重W(单位:克)与脉搏率f(单位:心跳次
数/分钟)的对应数据(W,f)(i=1,2,…,8),根据生物学常识和散点图得出f与W近似满足f=cWk(c,k为
i i
8
参数).令x i =ln W i ,y i =ln f i ,计算得x=8,y=5, Σ y i 2 =214.由最小二乘法得经验回归方程为 y ^ =b ^ x+7.4,则k
i=1
^
的值为 ;为判断拟合效果,通过经验回归方程求得预测值
y i
(i=1,2,…,8),若残差平方和
n
^
( Σ (y - y ) 2)
8 i i
^ i=1
Σ (y - y ) 2 ≈0.28,则决定系数R2≈ . 参考公式:决定系数R2=1-
i i n
i=1
Σ (y - y) 2
i
i=1
答案 -0.3 0.98
解析 因为f=cWk,两边取对数可得ln f=ln c+kln W,又x=ln W,y=ln f,
i i i i
^ ^
依题意经验回归方程y=bx+7.4必过点(x,y),
^
所以5=8b+7.4,
^
解得b=-0.3,所以k=-0.3,
8 8
^ ^
Σ (y - y ) 2 Σ (y - y ) 2
i i i i
i=1 i=1
又R2=1- =1-
8 8
Σ (y - y) 2 Σ y2-8 y2
i i
i=1 i=1
0.28
≈1- =0.98.
214-8×52
四、解答题(共27分)
11.(12分)(2024·开封模拟)某学校有A,B两家餐厅,A餐厅有2种套餐选择,B餐厅有4种套餐选择,且这
6种套餐各不相同.A餐厅距离教学楼相比于B餐厅要近很多,经调查发现,100名不同性别的学生选择餐
厅用餐的情况如下:男 女
在A餐厅用餐 40 20
在B餐厅用餐 15 25
(1)求某天甲、乙两名同学选择同一套餐用餐的概率;(6分)
(2)依据α=0.005的独立性检验,能否认为性别与选择餐厅之间有关联?(6分)
n(ad-bc) 2
附:χ2= .
(a+b)(c+d)(a+c)(b+d)
α 0.05 0.01 0.005 0.001
x 3.841 6.635 7.879 10.828
α
60 3 40 2
解 (1)由表中数据可得,选择A餐厅的概率为 = ,选择B餐厅的概率为 = ,
100 5 100 5
设事件A 为“甲乙去A餐厅用餐”,
1
事件B 为“甲乙去B餐厅用餐”,
1
事件A 为“甲乙选择同一种套餐”,
2
事件A为“甲、乙两名同学选择同一套餐用餐”,
(3) 2 (2) 2 1
P(A )= ,P(B )= ,P(A |A )= ,
1 5 1 5 2 1 2
1
P(A |B )= ,
2 1 4
(3) 2 1 (2) 2 1 11
则P(A)=P(A )P(A |A )+P(B )P(A |B )= × + × = ,
1 2 1 1 2 1 5 2 5 4 50
11
故甲、乙两名同学选择同一套餐用餐的概率为 .
50
(2)根据数据可得2×2列联表为
男 女 合计
在A餐厅用餐 40 20 60
在B餐厅用餐 15 25 40
合计 55 45 100
零假设为H :认为性别与选择餐厅之间无关.
0
100×(40×25-20×15) 2
根据列联表中的数据,经计算得到χ2= ≈8.249>7.879=x ,
0.005
55×45×40×60
依据小概率值α=0.005的独立性检验,可以推断H 不成立,即性别与选择餐厅之间有关.
012.(15分)(2024·柳州模拟)某企业为了对一批新研发的产品进行合理定价,将该产品按事先拟定的价格进行
试销,得到一组销售数据(x,y)(i=1,2,3,4,5,6),如表所示:
i i
试销单价x(百元) 1 2 3 4 5 6
产品销量y(件) 91 86 p 78 73 70
n n
Σ (x -x)(y - y) Σ x y -nx y
i i i i
^
i=1 i=1
参考公式:b= = ,
n n
Σ (x -x) 2 Σ x2-nx2
i i
i=1 i=1
^ ^
=y- .
a bx
6 6 6
1
参考数据:y= Σ y=80, Σ xy=1 606, Σ x2 =91.
6 i i i i
i=1 i=1 i=1
(1)求p的值;(3分)
^ ^ ^
(2)已知变量x,y具有线性相关关系,求产品销量y(件)关于试销单价x(百元)的经验回归方程 y=bx+a(计算
结果精确到整数位);(6分)
^ ^
(3)y 表示用正确的经验回归方程得到的与x
i
对应的产品销量的估计值.当销售数据(x
i
,y
i
)的残差的绝对值|y
i i
-y|<1时,则将销售数据称为一个“有效数据”.现从这6组销售数据中任取2组,求“有效数据”个数ξ的
i
分布列和期望.(6分)
6
1
解 (1)由y= Σ y=80,
6 i
i=1
91+86+p+78+73+70
得 =80,
6
解得p=82.
1+2+3+4+5+6
(2)∵x= =3.5,
6
6 6 6
1
而y= Σ y=80, Σ xy=1 606, Σ x2 =91,
6 i i i i
i=1 i=1 i=1
^
1 606-6×3.5×80 -74
∴ b=
91-6×3.52
=
17.5
≈-4,
^
a=80-(-4)×3.5=94,
^
所求的经验回归方程为y=-4x+94.^ ^ ^ ^ ^ ^
(3)由(2)可知,y =90,y =86,y =82,y =78,y =74,y =70,
1 2 3 4 5 6
故有效数据为(2,86),(3,82),(4,78),(6,70),
ξ的可能取值为0,1,2,
C2
1
P(ξ=0)= 2 = ,
C2 15
6
C1C1
8
P(ξ=1)= 4 2 = ,
C2 15
6
C2
2
P(ξ=2)= 4 = ,
C2 5
6
则ξ的分布列为
ξ 0 1 2
1 8 2
P
15 15 5
1 8 2 4
E(ξ)=0× +1× +2× = .
15 15 5 3
13题5分,14题6分,共11分
13.(2024·揭阳模拟)已知变量x与y具有线性相关关系,在研究变量x与y之间的关系时,进行实验后得到
了一组样本数据(x ,y ),(x ,y ),…,(x ,y ),(6,28),(0,28),利用此样本数据求得的经验回归方程
1 1 2 2 5 5
^ 10 166 ^
为 y= x+ ,现发现数据(6,28)和(0,28)误差较大,剔除这两对数据后,求得的经验回归方程为 y
7 7
5
=4x+m,且 Σ y=140,则m等于( )
i
i=1
A.8 B.12
C.16 D.20
答案 C
解析 设没剔除两对数据前的x,y的平均数分别为x,y,
剔除两对数据后的x,y的平均数分别为x',y',
5 5
1
因为 Σ y=140,所以y'= Σ y=28,
i 5 i
i=1 i=1
y'-m 28-m
则x'= = ,
4 4
因为两对数据为(6,28)和(0,28),1
所以y= ×(140+56)=28,
7
1
所以x= (7×y-166)=3,
10
7x-6-0 28-m
所以x'= =3= ,
5 4
解得m=16.
14.(多选)(2024·海口模拟)已知甲、乙两组样本各有10个数据,甲、乙两组数据合并后得到一组新数据,下
列说法正确的是( )
A.若甲、乙两组数据的平均数都为a,则新数据的平均数等于a
B.若甲、乙两组数据的极差都为b,则新数据的极差可能大于b
C.若甲、乙两组数据的方差都为c,则新数据的方差可能小于c
D.若甲、乙两组数据的中位数都为d,则新数据的中位数等于d
答案 ABD
解析 设甲为x ,x ,…,x ,乙为y ,y ,…,y ,新数据为z ,z ,…,z ,
1 2 10 1 2 10 1 2 20
1 1
对于A,因为z= (z +z +…+z )= (10a+10a)=a,所以A正确;
20 1 2 20 20
对于B,设甲:1,2,…,10;乙:21,22,…,30,两组数据的极差均为9,但混合后数据的极差为
29,所以B正确;
1 1
对于C,因为 (x2 +x2 +…+x2 -10x2)= (y2 +y2 +…+y2 -10y2)=c,
10 1 2 10 10 1 2 10
x+ y
所以x2 +x2 +…+x2 =10c+10x2,y2 +y2 +…+y2 =10c+10y2,z= ,
1 2 10 1 2 10 2
1 1
所以新数据的方差为 (x2 +x2 +…+x2 +y2 +y2 +…+y2 -20z2) = (10c+10x2+10c+10y2-20z2)=c+
20 1 2 10 1 2 10 20
x2+ y2-2z2
,
2
(x+ y) 2 (x- y) 2
因为x2+y2-2z2=x2+y2-2× = ≥0,
2 2
所以新数据的方差一定不小于c,所以C错误;
对于D,不妨设x ≤x ≤…≤x ,y ≤y ≤…≤y ,
1 2 10 1 2 10
x +x y + y
则d= 5 6= 5 6,
2 2
将混合后数据按从小到大排列,
若x ≤y ,则x ≥y ,所以第10,11个数为y 和y ;
5 5 6 6 5 6
若x >y ,则x