文档内容
必刷大题 18 统计与统计分析
1.某中学为了解学生数学课程的学习情况,在3 000名学生中随机抽取200名,并统计这
200名学生的某次数学考试成绩(满分100分),得到了样本的频率分布直方图(如图).
一般学校认为成绩大于等于80分的学生为优秀.
(1)根据频率分布直方图,估计3 000名学生在该次数学考试中成绩优秀的学生数;
(2)依据样本的频率分布直方图,估计总体成绩的众数和平均数(每组数据以所在区间的中点
值为代表).
解 (1)由样本的频率分布直方图可知,
在该次数学考试中成绩优秀的频率是
(0.020+0.008)×10=0.28,
则估计3 000名学生在该次数学考试中成绩优秀的学生有3 000×0.28=840(名).
(2)由样本的频率分布直方图可知,估计总体成绩的众数为=75,
平均数为0.002×10×35+0.006×10×45+0.012×10×55+0.024×10×65+0.028×10×75
+0.020×10×85+0.008×10×95=71.2.
所以估计总体成绩的众数为75,平均数为71.2.
2.(2024·海南模拟)实验发现,猴痘病毒与天花病毒有共同抗原,两者之间有很强的血清交
叉反应和交叉免疫,故猴痘流行的时候可接种牛痘疫苗预防.某医学研究机构对 120个接种
与未接种牛痘疫苗的密切接触者进行医学观察后,统计了感染病毒情况,得到下面的 2×2
列联表:
感染猴痘病毒 未感染猴痘病毒
未接种牛痘疫苗 20 30
已接种牛痘疫苗 10 60
(1)根据上表,分别估计在未接种牛痘疫苗和已接种牛痘疫苗的情况下,感染猴痘病毒的概
率;
(2)是否能依据小概率值α=0.01的独立性检验,认为密切接触者未感染猴痘病毒与接种牛痘
疫苗有关?附:χ2=,n=a+b+c+d.
α 0.1 0.05 0.01
x 2.706 3.841 6.635
α
解 (1)由题意可知,估计未接种牛痘疫苗者感染猴痘病毒的概率为P==,
1
已接种牛痘疫苗者感染猴痘病毒的概率为
P==.
2
(2)列联表如表所示:
感染猴痘病毒 未感染猴痘病毒 合计
未接种牛痘疫苗 20 30 50
已接种牛痘疫苗 10 60 70
合计 30 90 120
零假设为H:密切接触者未感染猴痘病毒与接种牛痘疫苗无关.
0
则χ2=≈10.286>6.635=x ,
0.01
所以根据小概率值α=0.01的独立性检验,我们推断H 不成立,即认为密切接触者未感染猴
0
痘病毒与接种牛痘疫苗有关,此推断犯错误的概率不超过0.01.
3.(2024·沧州模拟)“绿水青山就是金山银山”的口号已经深入民心,人们对环境的保护意
识日益增强,质检部门也会不时地对一些企业的生产污染情况进行排查,并作出相应的处理,
本次排查了30个企业,共查出510个污染点,其中造成污染点前10名的企业分别造成的污
染点数为58,36,36,35,33,32,28,26,24,22.
(1)求这30个企业造成污染点的第80百分位数;
(2)已知造成污染点前10名的企业的方差为92.4,其他20个企业造成污染点的方差为44.7,
求这30个企业造成污染点的总体方差.
解 (1)根据定义可得,此30个数据从小到大排列,且30×80%=24,
所以这30个企业造成污染的第80百分位数是第24个数据与第25个数据的平均数,即前10
名中第六名与第七名数据的平均数,即=30.
(2)按照企业造成的污染点数从小到大排列,记为x,x,…,x ,其平均数记为,方差记为
1 2 20
s;
把剩下10个数据记为y,y,…,y ,其平均数记为,方差记为s;
1 2 10
把总样本数据的平均数记为,方差记为s2.
由题意可知,==17,
=×(58+36+36+35+33+32+28+26+24+22)=×330=33,
则=×(510-330)=9,由题知s=44.7,s=92.4,
s2=×{20[s+(-)2]+10[s+(-)2]}
代入数据可得s2=×{20×[44.7+(9-17)2]+10×[92.4+(33-17)2]}=188.6,
所以这30个企业造成污染点的总体方差为188.6.
4.(2023·淄博模拟)某电商平台统计了近七年小家电的年度广告费支出x(万元)与年度销售量
i
y(万台)的数据,如表所示:
i
年份 2016 2017 2018 2019 2020 2021 2022
广告费支出x 1 2 4 6 11 13 19
销售量y 1.9 3.2 4.0 4.4 5.2 5.3 5.4
其中 y=279.4,=708.
i i
(1)若用线性回归模型拟合y与x的关系,求出y关于x的经验回归方程;
(2)若用y=c+d模型拟合得到的回归方程为y=1.63+0.99,经计算(1)中的回归模型及该模
型的R2分别为0.75和0.88,请根据R2的数值选择更好的回归模型拟合y与x的关系,进而
计算出年度广告费x为何值时,利润z=200y-x的预报值最大?
参考公式:b==,a=-b.
解 (1)由题意可得
==8,
==4.2,
所以b===0.17,
a=-b=4.2-0.17×8=2.84,
y关于x的经验回归方程为y=0.17x+2.84.
(2)因为0.75<0.88,R2越大拟合效果越好,
所以选用回归方程y=1.63+0.99更好,
z=200(1.63+0.99)-x=-x+198+326
=-(-99)2+10 127,
即当=99,即x=9 801时,利润的预报值最大.
5.(2023·福州模拟)国内某大学想了解本校学生的运动状况,采用简单随机抽样的方法从全
校学生中抽取2 000人,调查他们平均每天运动的时间(单位:小时),统计表明该校学生平
均每天运动的时间范围是[0,3],记平均每天运动的时间不少于2小时的学生为“运动达人”,
少于2小时的学生为“非运动达人”.整理分析数据得到的列联表如表所示(单位:人):
运动时间
性别 合计
“运动达人” “非运动达人”
男生 1 100 300 1 400女生 400 200 600
合计 1 500 500 2 000
零假设为H:运动时间与性别之间无关联.根据列联表中的数据,算得 χ2≈31.746,根据小
0
概率值α=0.001的χ2独立性检验,则认为运动时间与性别有关,此推断犯错误的概率不大
于0.001.
(1)如果将表中所有数据都缩小为原来的,在相同的检验标准下,再用独立性检验推断运动
时间与性别之间的关联性,结论还一样吗?请用统计语言解释其中的原因;
(2)采用按样本性别比例分配的分层随机抽样的方法抽取20名同学,并统计每位同学的运动
时间,统计数据为男生运动时间的平均数为2.5,方差为1;女生运动时间的平均数为1.5,
方差为0.5,求这20名同学运动时间的均值与方差.
附:χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
x 2.706 3.841 6.635 7.879 10.828
α
解 (1)方法一 改变数据之后的列联表为
运动时间
性别 合计
“运动达人” “非运动达人”
男生 110 30 140
女生 40 20 60
合计 150 50 200
则调整后的χ2==≈3.175<10.828=x .
0.001
则根据小概率值α=0.001的独立性检验,没有充分证据推断运动时间与性别有关.
与之前结论不一样,
原因是每个数据都缩小为原来的,相当于样本容量缩小为原来的,导致推断结论发生了变化,
当样本容量越大,用样本估计总体的准确性会越高.
方法二 调整后的χ2=
==≈3.175<10.828=x ,
0.001
根据小概率值α=0.001的独立性检验,没有充分证据推断运动时间与性别有关.
与之前结论不一样,原因是每个数据都缩小为原来的,相当于样本容量缩小为原来的,导致
推断结论发生了变化,
当样本容量越大,用样本估计总体的准确性会越高.
(2)男生抽取×20=14(人),女生抽取×20=6(人),
由已知男生运动时间的平均数为=2.5,样本方差为s=1;女生运动时间的平均数为=1.5,样本方差为s=0.5.
记样本均值为,则==2.2,
记样本方差为s2,则s2==1.06,
所以这20名同学运动时间的均值为2.2,方差为1.06.
6.(2023·泰安模拟)近年来,我国新能源汽车发展进入新阶段.某品牌2018年到2022年新
能源汽车年销量w(万辆)如表所示,其中2018年~2022年对应的年份代码t为1~5.
年份代码t 1 2 3 4 5
销量w(万辆) 4 9 14 18 25
(1)判断两个变量是否线性相关,并计算样本相关系数(精确到0.001);
(2)①假设变量x与变量Y的n对观测数据为(x ,y),(x ,y),…,(x ,y),两个变量满足
1 1 2 2 n n
一元线性回归模型(随机误差e=y-bx),请写出参数b的最小二乘估计;
i i i
②令变量x=t-,y=w-,则变量x与变量Y满足一元线性回归模型利用①中结论求y关于
x的经验回归方程,并预测2025年该品牌新能源汽车的销售量.
附:样本相关系数r=,(t-)(w-)=51,(w-)2=262,(t-)2=10,≈25.6.
i i i i
解 (1)通过作散点图如图所示,发现样本点大致分布在一条直线附近,
因此是线性相关.
r=
=≈≈0.996,
∴两变量有较强的正相关.
(2)①Q==(y-bx)2=(y-2bxy+b2x)=b2-2by+,
i i i i i i
要使残差平方和最小,当且仅当b=.
②∵x=t-,y=w-,
由①知b====5.1,
∴y关于x的经验回归方程为y=5.1x,
∴w-=5.1(t-),
∵=3,=14,∴w=5.1(t-)+=5.1t-1.3,
当t=8时,w=5.1×8-1.3=39.5(万辆),
因此,预计2025年该品牌新能源汽车的销售量将达到39.5万辆.