文档内容
训练 32 统 计
一、单项选择题
1.(2024·上饶模拟)根据如下样本数据,得到线性回归方程y=bx+a,则( )
x 3 4 5 6 7 8
y -3.0 -2.0 0.5 -0.5 2.5 4.0
A.a>0,b>0 B.a>0,b<0
C.a<0,b>0 D.a<0,b<0
答案 C
解析 如图,从整体上看这些点大致分布在一条直线的周围,且该回归直线的斜率为正,在
y轴上的截距为负,则a<0,b>0.
2.(2021·全国甲卷改编)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,
将农户家庭年收入的调查数据整理得到如下频率直方图:
根据此频率直方图,下面结论中不正确的是( )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
答案 C
解析 对于A,根据频率直方图可知,家庭年收入低于 4.5万元的农户比率约为(0.02+
0.04)×1×100%=6%,故A正确;对于B,根据频率直方图可知,家庭年收入不低于 10.5
万元的农户比率约为(0.04+0.02+0.02+0.02)×1×100%=10%,故B正确;对于C,根据
频率直方图可知,该地农户家庭年收入的平均值约为 3×0.02+4×0.04+5×0.10+6×0.14+7×0.20+8×0.20+9×0.10+10×0.10+11×0.04+12×0.02+13×0.02+14×0.02=
7.68(万元),故C错误;对于D,根据频率直方图可知,家庭年收入介于4.5万元至8.5万元
之间的农户比率约为(0.10+0.14+0.20+0.20)×1×100%=64%>50%,故D正确.
3.(2023·贵州模拟)小明处理一组数据,漏掉了一个数10,计算得平均数为10,方差为2,
加上这个数后的这组数据( )
A.平均数等于10,方差等于2
B.平均数等于10,方差小于2
C.平均数大于10,方差小于2
D.平均数小于10,方差大于2
答案 B
解析 设这组数据为x,x,…,x,它的平均数为10,方差为2,
1 2 n
所以x+x+…+x=10n,(x-10)2+(x-10)2+…+(x-10)2=2n,
1 2 n 1 2 n
添上数据10后,这组数据的平均数为×(x+x+…+x+10)=×(10n+10)=10,
1 2 n
方差为[(x-10)2+(x-10)2+…+(x-10)2+(10-10)2]=2·<2.
1 2 n
所以加上这个数后的这组数据平均数等于10,方差小于2.
4.(2023·湘豫名校模拟)疫苗是为预防、控制传染病的发生、流行,用于人体预防接种的预
防性生物制品,其前期研发过程中,一般都会进行动物保护测试,为了考察某种疫苗预防效
果,在进行动物试验时,得到如下统计数据:
未发病 发病 合计
未注射疫苗 20
注射疫苗 30
合计 50 50 100
附表及公式:
χ2=,
n=a+b+c+d.
P(χ2≥x) 0.05 0.01 0.005 0.001
0
x 3.841 6.635 7.879 10.828
0
现从试验动物中任取一只,取得“注射疫苗”的概率为,则下列判断错误的是( )
A.注射疫苗发病的动物数为10
B.从该试验未注射疫苗的动物中任取一只,发病的概率为
C.能在犯错概率不超过0.001的前提下,认为疫苗有效
D.该疫苗的有效率为75%
答案 D解析 由题意知,注射疫苗的动物共40只,未注射疫苗的动物为60只,
补充列联表,
未发病 发病 合计
未注射疫苗 20 40 60
注射疫苗 30 10 40
合计 50 50 100
由此可得A,B正确.
计算得χ2=
≈16.67>10.828,
故能在犯错概率不超过0.001的前提下认为疫苗有效.C正确,D错误.
二、多项选择题
5.研究变量x,y得到一组样本数据,进行回归分析,以下结论正确的是( )
A.可利用最小二乘思想求得使随机误差平方和最小的线性回归模型
B.用相关系数r来刻画回归效果,|r|越小说明拟合效果越好
C.线性回归方程对应的直线y=bx+a至少经过其样本数据点中的一个点
D.若变量y和x之间的相关系数r=-0.946 2,则变量y和x之间的负相关性很强
答案 AD
解析 对于A,利用最小二乘法求得线性回归方程,A正确;
对于B,相关系数r来刻画回归的效果时,|r|越大,说明模型的拟合效果越好,B错误;
对于C,线性回归方程y=bx+a必过点(,),但可能不经过样本数据点中的任何一个点,C
错误;
对于D,变量y和x之间的相关系数r=-0.946 2时,说明变量y和x呈负相关关系,且负
相关性很强,D正确.
6.(2024·南京模拟)下表显示的是2020年4月份到12月份中国社会消费品零售总额数据,
其中同比增长率是指和去年同期相比较的增长率,环比增长率是指与上个月份相比较的增长
率,则下列说法正确的是( )
中国社会消费品零售总额
月份 零售总额(亿元) 同比增长 环比增长 累计(亿元)
4 28 178 -7.50% 6.53% 106 758
5 31 973 -2.80% 13.47% 138 730
6 33 526 -1.80% 4.86% 172 256
7 32 203 -1.10% -3.95% 204 459
8 33 571 0.50% 4.25% 238 029
9 35 295 3.30% 5.14% 273 32410 38 576 4.30% 9.30% 311 901
11 39 514 5.00% 2.43% 351 415
12 40 566 4.60% 2.66% 391 981
A.2020年4月份到12月份,社会消费品零售总额逐月上升
B.2020年4月份到12月份,11月份同比增长率最大
C.2020年4月份到12月份,5月份环比增长率最大
D.第4季度的月消费品零售总额相比第2季度的月消费品零售总额,方差更小
答案 BCD
解析 对于A选项,7月份的零售总额比6月份的少,A选项错误;
对于B选项,由表格中数据可知,2020年4月份到12月份,11月份同比增长率最大,B选
项正确;
对于C选项,由表格中数据可知,2020年4月份到12月份,5月份环比增长率最大,C选
项正确;
对于D选项,第4季度的月消费品零售总额在(38 000,41 000)内,而第2季度的月消费品
零售总额在(28 000,34 000)内,前者数据更集中,方差更小,D选项正确.
三、填空题
7.如果数据x ,x ,…,x 的平均数为10,方差为3,则3x +5,3x +5,…,3x +5的平均
1 2 n 1 2 n
数为________,方差为________.
答案 35 27
解析 因为x,x,…,x 的平均数为10,
1 2 n
所以3x+5,3x+5,…,3x+5的平均数为+5=35,
1 2 n
其方差为[(3x-30)2+(3x-30)2+…+(3x-30)2]=9×3=27.
1 2 n
8.2023年7月15日,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行
调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示:
价格x 9 9.5 m 10.5 11
销售量y 11 n 8 6 5
可知,销售量y与价格x之间有较强的线性相关关系,其线性回归方程是y=-3.2x+40,且
m+n=20,则其中的n=______.
答案 10
解析 依题意=,=,代入线性回归方程得=-3.2×+40,根据题意m+n=20,解方程组
得m=n=10.
四、解答题
9.某中学为了解学生数学课程的学习情况,在3 000名学生中随机抽取200名,并统计这200名学生的某次数学考试成绩(满分100分),得到了样本的频率直方图(如图).
一般学校认为成绩大于等于80分的学生为优秀.
(1)根据频率直方图,估计3 000名学生在该次数学考试中成绩优秀的学生数;
(2)依据样本的频率直方图,估计总体成绩的众数和平均数(每组数据以所在区间的中点值为
代表).
解 (1)由样本的频率直方图可知,
在该次数学考试中成绩优秀的频率是
(0.020+0.008)×10=0.28,
则估计3 000名学生在该次数学考试中成绩优秀的学生有3 000×0.28=840(名).
(2)由样本的频率直方图可知,估计总体成绩的众数为=75,
平均数为0.002×10×35+0.006×10×45+0.012×10×55+0.024×10×65+0.028×10×75
+0.020×10×85+0.008×10×95=71.2.
所以估计总体成绩的众数为75,平均数为71.2.
10.为推动更多人去阅读和写作,联合国教科文组织确定每年的 4月23日为“世界读书
日”,其设立目的是希望居住在世界各地的人,无论你是年老还是年轻,无论你是贫穷还是
富裕,都能享受阅读的乐趣,都能尊重和感谢为人类文明做出过巨大贡献的思想大师们,都
能保护知识产权.为了解不同年龄段居民的主要阅读方式,某校兴趣小组在全市随机调查了
200名居民,这200人中通过电子阅读与纸质阅读的人数之比为3∶1.将这200人按年龄(单
位:岁)分组,统计得到通过电子阅读的居民的频率直方图如图所示.
(1)求a的值及通过电子阅读的居民的平均年龄;
(2)把年龄在[15,45) 内的居民称为中青年,年龄在[45,65]内的居民称为中老年,若选出的
200人中通过纸质阅读的中老年有30人,请完成下面2×2列联表,并判断能否有97.5%的
把握认为阅读方式与年龄有关.电子阅读 纸质阅读 合计
中青年
中老年
合计
附:χ2=,
n=a+b+c+d.
P(χ2≥x) 0.15 0.1 0.05 0.025 0.01
0
x 2.072 2.706 3.841 5.024 6.635
0
解 (1)由频率直方图可得10×(0.01+0.015+a+0.03+0.01)=1,解得a=0.035,
所以通过电子阅读的居民的平均年龄为
20×10×0.01+30×10×0.015+40×10×0.035+50×10×0.03+60×10×0.01=41.5(岁).
(2)这200人中通过电子阅读的人数为
200×=150,
通过纸质阅读的人数为200-150=50.
因为(0.01+0.015+0.035)∶(0.03+0.01)=3∶2,
所以通过电子阅读的中青年的人数为
150×=90,
中老年的人数为150-90=60.
2×2列联表为
电子阅读 纸质阅读 合计
中青年 90 20 110
中老年 60 30 90
合计 150 50 200
提出假设H:阅读方式与年龄无关.
0
由表中数据,得χ2=
≈6.061,
因为当H 成立时,χ2≥5.024的概率约为0.025,
0
所以有97.5%的把握认为阅读方式与年龄有关.