文档内容
专题 13 统计
易错点一:统计用表中概念不清、识图不准致误(频率分布直方图、总体
取值规律)
频率分布直方图
作频率分布直方图的步骤
①求极差:极差为一组数据中最大值与最小值的 差 .
②决定组距与组数
将数据分组时,一般取等长组距,并且组距应力求“取整”,组数应力求合适,以使数据的分布规律能较
清楚地呈现出来.
③将数据分组
④列频率分布表
各小组的频率=.
⑤画频率分布直方图
纵轴表示,实际上就是频率分布直方图中各小长方形的高度,小长方形的面积=组距×=频率.
频率分布直方图的性质
①因为小矩形的面积=组距×=频率,所以各小矩形的面积表示相应各组的频率.这样,频率分布直方图就
以面积的形式反映了数据落在各个小组内的频率大小.
②在频率分布直方图中,各小矩形的面积之和等于1.
③=样本容量.
④频率分布直方图反映了样本在各个范围内取值的可能性,由抽样的代表性利用样本在某一范围内的频率,
可近似地估计总体在这一范围内的可能性.
易错提醒:频率分布条形图和频率分布直方图是两个完全不同的概念,考生应注意两者之间的区别.虽然它
们的横轴表示的内容是相同的,但是频率分布条形图的纵轴表示频率;频率分布直方图的纵轴表示频率与组距的比值,其各小组的频率等于该小组上的矩形的面积.
例:如图所示是某公司(共有员工300人)2021年员工年薪情况的频率分布直方图,由此可知,员工中年
薪在1.4万元~1.6万元之间的共有______人.
易错分析:解本题容易出现的错误是审题不细,对所给图形观察不细心,认为员工中年薪在1.4万元~1.6
万元之间的频率为 ,从而得到员工中年薪在1.4万元~1.6万元之间的共有
(人)的错误结论.
正解:由所给图形,可知员工中年薪在1.4万元~1.6万元之间的频率为
,所以员工中年薪在1.4万元~1.6万元之间的共有
(人).故72.
易错警示:考生误认为频率分布直方图中纵轴表示的是频率,这是错误的,而是“频率/组距”,所以频率
对应的是各矩形的面积.
变式1:某大学有男生 名.为了解该校男生的身体体重情况,随机抽查了该校 名男生的体重,并
将这 名男生的体重(单位: )分成以下六组: 、 、 、 、 、
,绘制成如下的频率分布直方图:该校体重(单位: )在区间 上的男生大约有 人.
变式2:现对某类文物进行某种物性指标检测,从 件中随机抽取了 件,测量物性指标值,得到如
下频率分布直方图,据此估计这 件文物中物性指标值不小于 的件数为 .
变式3:如图是根据我国部分城市某年6月份的平均气温数据得到的样本频率分布直方图,其中平均气温
的范围是[20,26], 样本数据的分组为[20,21), [21,22),[22, 23),[23, 24), [24, 25),[25,
26]. 已知样本中平均气温低于22°C的城市个数为11,样本中平均气温不低于25°C的城市个数是 .
1.已知某班全体学生在某次数学考试中的成绩(单位:分)的频率分布直方图如图所示,则图中 a所代表的数值是 .
2.某校共有400名学生参加了趣味知识竞赛(满分:150分),且每位学生的竞赛成绩均不低于90分.
将这400名学生的竞赛成绩分组如下: ,得到的
频率分布直方图如图所示,则这400名学生中竞赛成绩不低于120分的人数为 .
3.从某小学所有学生中随机抽取100名学生,将他们的身高(单位: )数据绘制成频率分布直方图
(如图),其中样本数据分组 ,则 = .
4.某工厂抽取100件产品测其重量(单位: ).其中每件产品的重量范围是 .数据的分组依次为 ,据此绘制出如图所示的频率分布直方图,则重量在 内的产
品件数为 .
5.某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,
得到如下的患病者和未患病者该指标的频率分布直方图:
利用该指标制定一个检测标准,需要确定临界值 ,将该指标大于 的人判定为阳性,小于或等于 的人判
定为阴性,此检测标准的漏诊率是将患病者判定为阴性的概率,记为 ;误诊率是将未患病者判定为阳
性的概率,记为 .假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.设函数
,则函数 在区间 取得最小值时 .
6.某大学有男生10000名.为了解该校男生的身体体重情况,随机抽查了该校100名男生的体重,并将这
100名男生的体重(单位:kg)分成以下六组: 、 、 、 、 、 ,
绘制成如图所示的频率分布直方图,该校体重(单位: )在区间 上的男生大约有 人.7.某中学为了解高三男生的体能情况,通过随机抽样,获得了200名男生的100米体能测试成绩(单位:
秒),将数据按照 , ,…, 分成9组,制成了如图所示的频率分布直方图.由直
方图估计本校高三男生100米体能测试成绩大于13.25秒的频率是 .
8.某工厂对一批产品的长度(单位: )进行检验,将抽查的产品所得数据分为五组,整理后得到的频
率分布直方图如图所示,若长度在 以下的产品有30个,则长度在区间 内的产品个数为
.
9.某中学为了解学生的数学学习情况,在全体学生中随机抽取200名,统计这200名学生某次数学考试的成绩,将所得的数据分为7组: , ,…, , ,并整理得到如下频率分布直
方图,则在被抽取的学生中,该次数学考试成绩不低于80分的人数为 .
10.某区为了解全区 名高二学生的体能素质情况,在全区高二学生中随机抽取了 名学生进行体
能测试,并将这 名的体能测试成绩整理成如下频率分布直方图.根据此频率分布直方图,这 名学
生平均成绩的估计值为 .
11.将一个容量为100的样本数据,按照从小到大的顺序分为8个组,如下表:
组号 1 2 3 4 5 6 7 8
1
频数 10 18 15 11 9
6
若第6组的频率是第3组频率的2倍,则第6组的频率是 .
12.节约用水是中华民族的传统美德,某市政府希望在本市试行居民生活用水定额管理,即确定一个合理
的居民月用水量标准 (吨),用水量不超过 的部分按平价收费,超过 的部分按议价收费.为此希望
已经学习过统计的小明,来给出建议.为了了解全市居民用水量的分布情况,小明通过随机走访,获得了
100位居民某年的月均用水量(单位:吨),将数据按照 分成9组,制成了如图所
示的频率分布直方图.若该市政府希望使 的居民每月的用水量不超过标准 (吨),如果你是小明,
你觉得 的估计值为 (精确到小数点后1位)易错点二:统计中的数字特征的实际意义理解不清楚致误(频率分布直方
图特征数考查)
众数、中位数、平均数
①众数:一组数据中出现次数最多的数.
②中位数:把一组数据按从小到大(或从大到小)的顺序排列,处在中间位置的数(或中间两个数的平均数)叫
做这组数据的中位数.
n
1 1
③平均数:如果n个数x,x,…,x,那么x= (x +x +⋯+x )= ∑ x 叫做这n个数的平均数.
1 2 n n 1 2 n n i
i=1
总体集中趋势的估计
①平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度刻画了一组数据的集中趋势.
②一般地,对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述,可以用平均数、中位数;而
对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用众数.
频率分布直方图中平均数、中位数、众数的求法
①样本平均数:可以用每个小矩形底边中点的横坐标与小矩形面积的乘积之和近似代替.
②在频率分布直方图中,中位数左边和右边的直方图的面积应相等.
③将最高小矩形所在的区间中点作为众数的估计值.
易错提醒:利用频率分布直方图求众数、中位数与平均数时,易出错,应注意区分这三者.在频率分布直
方图中:
(1)最高的小长方形底边中点的横坐标即是众数;
(2)中位数左边和右边的小长方形的面积和是相等的;
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底
边中点的横坐标之和.例.某班 名学生期中考试数学成绩的频率分布直方图如图所示.根据频率分布直方图,估计该班本次测
试众数为 .
变式1:为响应自己城市倡导的低碳出行,小李上班可以选择自行车,他记录了 次骑车所用时间(单位:
分钟),得到频率分布直方图,则骑车时间的众数的估计值是 分钟
变式2:数学兴趣小组的四名同学各自抛掷骰子5次,分别记录每次骰子出现的点数,四名同学的部分统
计结果如下:
甲同学:中位数为3,方差为2.8; 乙同学:平均数为3.4,方差为1.04;
丙同学:中位数为3,众数为3; 丁同学:平均数为3,中位数为2.
根据统计结果,数据中肯定没有出现点数6的是 同学.
变式3:以下5个命题中真命题的序号有 .
①样本数据的数字特征中,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息;
②若数据 , , ,…, 的标准差为S,则数据 , , ,…, 的标准差为
aS;
③将二进制数 转化成十进制数是200;
④x是区间[0,5]内任意一个整数,则满足“ ”的概率是 .1.2022年11月卡塔尔世界杯如期举行,这是世界足球的一场盛宴.为了了解全民对足球的热爱程度,组
委会在某场比赛结束后,随机抽取了1000名观众进行对足球“喜爱度”的调查评分,将得到的分数分成 6
段: , , , , , ,得到如图所示的频率分布直方图.图中部
分数据丢失,若已知这1000名观众评分的中位数估计值为87.5,则m= .
2.为了普及环保知识,增强环保意识,某中学随机抽取30名学生参加环保知识测试,得分(十分制)如图
所示,假设得分值的中位数为 ,众数为 ,平均数为 ,则 的大小关系是 .
3.《中国居民膳食指南( )》数据显示, 岁至 岁儿童青少年超重肥胖率高达 .为了解某
地中学生的体重情况,某机构从该地中学生中随机抽取 名学生,测量他们的体重(单位:千克),根
据测量数据,按 , , , , , 分成六组,得到的频率分布直方
图如图所示.根据调查的数据,估计该地中学生体重的中位数是 .4.为了解某校高三学生的数学成绩,随机地抽查了该校100名高三学生的期中考试数学成绩,得到频率分
布直方图如图所示.请根据以上信息,估计该校高三学生数学成绩的中位数为 .(结果保留到小数点
后两位)
5.2021年某省高考体育百米测试中,成绩全部介于12秒与18秒之间,抽取其中100个样本,将测试结果
按如下方式分成六组:第一组 ,第二组 ,…,第六组 ,得到如下频率分布直方图.则
该100名考生的成绩的中位数(保留一位小数)是 .
6.200辆汽车通过某一段公路时的时速的频率分布直方图如图所示,则时速的众数、中位数的估计值分别
为 .
7.某快递驿站统计了近期每天代收快件的数量,并制成如下图所示的频率分布直方图.则该快递驿站每天代收包裹数量的中位数为 .
8.某质检部门对某新产品的质量指标随机抽取100件检测,由检测结果得到如图所示的频率分布直方图.
由频率分布直方图可以认为,该产品的质量指标值 服从正态分布 ,其中 近似为样本平均数
近似为样本方差 .设 表示从该种产品中随机抽取10件,其质量指标值位于 的件数,则
的数学期望= .(精确到 )
注:①同一组数据用该区间的中点值作代表,计算得样本标准差 ;②若 ,则
, .
9.由于受到网络电商的冲击,某品牌的洗衣机在线下的销售受到影响,承受了一定的经济损失,现将
地区200家实体店该品牌洗衣机的月经济损失统计如图所示,估算月经济损失的平均数为 ,中位数为
n,则 .10.某大学天文台随机调查了该校100位天文爱好者的年龄,得到如下样本数据频率分布直方图,则估计
该校100名天文爱好者的平均岁数为 .
11.众数、平均数和中位数都描述了数据的集中趋势,它们的大小关系和数据分布的形态有关.在如图的分
布形态中, 分别表示众数、平均数、中位数,则 中最小值为 .
12.如图为某工厂工人生产能力频率分布直方图,则估计此工厂工人生产能力的平均值为 .
易错点三:运用数字特征作评价时考虑不周(方差、标准差的求算)方差、标准差
n
1 1
①假设一组数据为 ,则这组数据的平均数x= (x +x +⋯+x )= ∑ x ,
x ,x ,x ,⋯x n 1 2 n n i
1 2 3 n i=1
n n
1 1 1( )
方差为s2 = [(x −x) 2 +(x −x) 2 +⋯(x −x) 2]= ∑(x −x) 2 = ∑ x −nx2 ,
n 1 2 n n i n i 2
i=1 i
√1 n
标准差s= ∑(x −x) 2
n i
i=1
②若假设一组数据为 x ,x ,x ,⋯x ,它的平均数为x,方差为s2,
1 2 3 n
则一组数据为 ax +b,ax +b,ax +b,⋯ax +b ,的平均数为ax+b,方差为a2s2。
1 2 3 n
③标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离
散程度越小.
易错提醒:方差(标准差)越大,说明数据的离散性越大;方差(标准差)越小,说明数据的离散性越小,数据
越集中、稳定.用样本的数字特征估计总体的数字特征时,如果抽样的方法比较合理,那么样本可以反映
总体的信息,但从样本得到的信息会有偏差,这些偏差是由样本的随机性引起的.虽然样本的数字特征并
不是总体真正的数字特征,而是总体的一个估计,但这种估计是合理的,特别是当样本容量很大时,样本
的数字特征稳定于总体的数字特征.
例、若甲、乙两台机床同时加工直径为100 mm的零件,为了检验产品的质量,从产品中随机抽取6件进
行测量,测得数据如下:(单位:mm):甲:99,100,98,100,103;乙:99,100,102,99,100,100.
通过计算,请你说明哪一台机床加工的零件更符合要求.
【错解】 = =100,
= =100,
因为两个机床所加工零件的平均数相等,平均数描绘了数据的平均水平,
所以两台机床加工的零件都符合要求.
【错因】平均数 对数据有“取齐”作用,它描述了一组数据的平均水平,定量地反映了数据的集中趋势,因此平均数是与样本数据最接近、最理想的近似值,但由于样本选取的随机性,有时用平均数衡量总体的
特征会失之偏颇,因此应进一步计算方差或标准差来比较它们的波动大小.
【正解】 = =100,
= =100,
s = ×[(99-100)2+3×(100-100)2+(98-100)2+(103-100)2]= ,
s = ×[2×(99-100)2+3×(100-100)2+(102-100)2]=1.
s >s ,说明甲机床加工的零件波动比较大.
故乙机床加工的零件更符合要求.
变式1:泉州,作为古代海上丝绸之路的起点,具有深厚的历史文化底蕴,是全国同时拥有联合国三大类
非遗项目的唯一城市.为高效统筹整合优质文旅资源,文旅局在“五一”假期精心策划文旅活动,使得来泉
旅游人数突破了 万人次.某数学兴趣小组为了解来泉游客的旅游体验满意度,用问卷的方式随机调查
了 名来泉旅游的游客,被抽到的游客根据旅游体验给出满意度分值 (满分 分),该兴趣小组将收
集到的数据分成五段: , , , , ,处理后绘制了如下频率分布直方图.
(1)求图中 的值并估计 名游客满意度分值 的中位数(结果用分数表示);
(2)已知 在 的平均数为 ,方差为 , 在 的平均数为 ,方差为 ,试求被调查的
名游客的满意度分值 的平均数及方差.
变式2:拔尖创新人才是21世纪社会经济发展的巨大动力,培养拔尖创新人才也成为世界各国教育的主要
任务.某市为了解市民对拔尖人才培养理念的关注程度,举办了“拔尖人才素养必备”知识普及竞赛,从
所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段: ,得到如图所示的频率分布直方图.
(1)求频率分布直方图中 的值,并估计该市这次竞赛成绩的众数;
(2)已知落在 的平均成绩 ,方差 ,落在 的平均成绩 ,方差 ,求这
两组成绩的总平均数 和总方差 .
变式3:为了研究网民的上网习惯,某机构随机抽取了年龄在10岁到60岁的网民进行问卷调查,按年龄
分为5组,即 , , , , ,并绘制出频率分布直方图,如图所示.
(1)若按分层抽样的方法,从上述网民中抽取n人做采访,其中年龄在 中被抽取的人数为7,求n;
(2)若各区间的值以该区间的中点值作代表,求上述网民年龄的方差的估计值.
1.已知甲、乙两位同学在一次射击练习中各射靶10次,射中环数频率分布如图所示:令 , 分别表示甲、乙射中环数的均值; , 分别表示甲、乙射中环数的方差,则( )
A. , B. ,
C. , D. ,
2.某学校组织学生参加数学测试,某班成绩的频率分布直方图如图,数据的分组依次为
.若不低于 分的人数是 人,且同一组中的数据用该组区间的中点值代
表,则下列说法中正确的是( )
A.该班的学生人数是
B.成绩在 的学生人数是
C.估计该班成绩的众数是 分
D.估计该班成绩的方差为
3.从某企业生产的某种产品中抽取500件,测量这些产品的一项质量指标值,由测量结果得频率分布直方
图,则这500件产品质量指标值的样本方差 是 (同一组中的数据用该组区间的中点值作代
表).4.在一次区域统考中,为了了解各学科的成绩情况,从所有考生成绩中随机抽出20位考生的成绩进行统
计分析,其中数学学科的频率分布直方图如图所示,据此估计,在本次考试中数学成绩的方差为 .
(同一组中的数据用该组区间的中点值作代表)
5.为了解本市居民的生活成本,甲、乙、丙三名同学利用假期分别对三个社区进行了“家庭每月日常消费
额”的调查.他们将调查所得的数据分别绘制成频率分布直方图(如图所示),记甲、乙、丙所调查数据的标准差
分别为 , , ,则它们的大小关系为 .6.某工厂从生产的一批产品中随机抽出一部分,对这些产品的一项质量指标进行了检测,整理检测结果
得到如下频率分布表:
质量指标分组
频率 0.1 0.6 0.3
据此可估计这批产品的此项质量指标的方差为 .
7.2023年10月22日,汉江生态城2023襄阳马拉松在湖北省襄阳市成功举行,志愿者的服务工作是马拉
松成功举办的重要保障,襄阳市新时代文明实践中心承办了志愿者选拔的面试工作.现随机抽取了100名
候选者的面试成绩,并分成五组:第一组 ,第二组 ,第三组 ,第四组 ,第五
组 ,绘制成如图所示的频率分布直方图.已知第一、二组的频率之和为0.3,第一组和第五组的频
率相同.
(1)估计这100名候选者面试成绩的平均数和第25百分位数;
(2)现从以上各组中用分层随机抽样的方法选取20人,担任本市的宣传者.
①现计划从第一组和第二组抽取的人中,再随机抽取2名作为组长.求选出的两人来自不同组的概率.
②若本市宣传者中第二组面试者的面试成绩的平均数和方差分别为62和40,第四组面试者的面试成绩的
平均数和方差分别为80和70,据此估计这次第二组和第四组面试者所有人的方差.
8.古人云“民以食为天”,某校为了了解学生食堂服务的整体情况,进一步提高食堂的服务质量,营造
和谐的就餐环境,使同学们能够获得更好的饮食服务为此做了一次全校的问卷调查,问卷所涉及的问题均量化成对应的分数(满分100分),从所有答卷中随机抽取100份分数作为样本,将样本的分数(成绩均
为不低于40分的整数)分成六段: ,得到如图所示的频数分布表.
样本分数
段
频数 5 10 20 a 25 10
频率 0.05 0.1 0.2 b 0.25 0.1
(1)求频数分布表中a和b的值,并求样本成绩的中位数和平均数;
(2)已知落在 的分数的平均值为56,方差是7;落在 的分数的平均值为65,方差是4,求两
组成绩的总平均数 和总方差 .
9.某电信运营公司为响应国家5G网络建设政策,拟实行5G网络流量阶梯定价,每人月用流量中不超过
一种流量计算单位 的部分按 元 收费,超过kGB的部分按2元 收费,从用户群中随机调
查了10000位用户,获得了他们某月的流量使用数据,整理得到如下的频率分布直方图.已知用户月使用流
量的中位数为
(1)求表中的
(2)若k为整数,依据本次调查为使 以上用户在该月的流量价格为 元 ,则k至少定为多少?
(3)为了进一步了解用户使用5G流量与年龄的相关关系,由频率分布直方图中流量在 和 两
组用户中,按人数比例分配的分层抽样方法中抽取了100名用户,已知 组用户平均年龄为30,方差为36,流量在 组用户的平均年龄为20,方差为16,求抽取的100名用户年龄的方差.
10.为建立健全国家学生体质健康监测评价机制,激励学生积极参加身体锻炼,教育部印发《国家学生体
质健康标准》,要求各学校每学年开展覆盖本校各年级学生的《标准》测试工作.为做好全省的迎检工作,
成都市在高三年级开展了一次体质健康模拟测试,并从中随机抽取了200名学生的数据,根据他们的健康
指数绘制了如图所示的频率分布直方图.
(1)估计这200名学生健康指数的平均数 和样本方差 (同一组数据用该组区间的中点值作代表);
(2)从健康指数在 的两组中利用分层抽样抽出7人进行电话回访,并再随机抽出2人赠送奖
品,求从7人中抽出的2人来自不同组的概率.
11. 年入冬以来,为进一步做好疫情防控工作,避免疫情的再度爆发, 地区规定居民出行或者出席
公共场合均需佩戴口罩,现将 地区 个居民一周的口罩使用个数统计如下表所示,其中每周的口罩
使用个数在 以上(含 )的有 人.
口罩使用数量
频率
(1)求 的值,根据表中数据,完善上面的频率分布直方图;(只画图,不要过程)
(2)根据频率分布直方图估计 地区居民一周口罩使用个数的 分位数和中位数;(四舍五入,精确到)
(3)根据频率分布直方图估计 地区居民一周口罩使用个数的平均数以及方差.(每组数据用每组中点值代
替)
12.某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100户居民每人
的月均用水量(单位:吨).将数据按照 , ,…, 分成9组,制成了如下图所示的频率
分布直方图.
(1)求直方图中a的值;
(2)用每组区间的中点作为每组用水量的平均值,这9组居民每人的月均用水量前四组的方差都为0.3,后5
组的方差都为0.4,求这100户居民月均用水量的方差.
13.亚洲运动会简称亚运会,是亚洲规模最大的综合性运动会,由亚洲奥林匹克理事会的成员国轮流主办,
每四年举办一届.1951年第1届亚运会在印度首都新德里举行,七十多年来亚洲运动员已成为世界体坛上一
支不可忽视的力量,而中国更是世界的体育大国和亚洲的体育霸主.第19届杭州2022年亚运会将于2023
年9月23日至10月8日举办,为普及体育知识,增强群众体育锻炼意识,某地举办了亚运知识竞赛活动.
活动分为男子组和女子组进行,最终决赛男女各有40名选手参加,右图是其中男子组成绩的频率分布直方
图(成绩介于85到145之间),(1)求图中缺失部分的直方图的高度,并估算男子组成绩排名第10的选手分数;
(2)若计划从男子组中105分以下的选手中随机抽样调查2个同学的答题状况,则抽到的选手中至少有1位
是95分以下选手的概率是多少?
(3)若女子组40位选手的平均分为117,标准差为12,试求所有选手的平均分和方差.
14.某中学组织了数学知识竞赛,从参加考试的学生中抽出40名学生,将其成绩(均为整数)分成六组
,其部分频率分布直方图如图所示.观察图形,回答下列问题.
(1)求成绩在 的频率,并补全这个频率分布直方图;
(2)估计这次考试成绩的众数,平均分和方差.
15.某学校为了了解高二年级学生数学运算能力,对高二年级的300名学生进行了一次测试.已知参加此次
测试的学生的分数 全部介于45分到95分之间,该校将所有分数分成5组:
,整理得到如下频率分布直方图(同组数据以这组数据的中间值作为代表).
(1)求 的值,并估计此次校内测试分数的平均值 ;
(2)学校要求按照分数从高到低选拔前30名的学生进行培训,试估计这30名学生的最低分数;
(3)试估计这300名学生的分数 的方差 ,并判断此次得分为52分和94分的两名同学的成
绩是否进入到了 范围内?(参考公式: ,其中 为各组频数;参考数据: )
易错点四:忽略百分位数两种情况的选取(百分位数的考查)
百分位数
①百分位数定义:一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小
于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
②常用的百分位数
1.四分位数:第25百分位数,第50百分位数,第75百分位数.
2.其它常用的百分位数:第1百分位数,第5百分位数,第95百分位数,第99百分位数.
③计算一组n个数据的第p百分位数的一般步骤如下:
第一步:按从小到大排列原始数据;
第二步:计算i=n×p%;
第三步:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分
位数为第i项与第(i+1)项数据的平均数.
易错提醒:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百
分位数为第i项与第(i+1)项数据的平均数.
例.某高校承办了杭州亚运会志愿者选拔的面试工作.现随机抽取了100名候选者的面试成绩,并分成五组:
第一组 ,第二组 ,第三组 ,第四组 ,第五组 ,绘制成如图所示的频
率分布直方图.已知第三、四、五组的频率之和为0.7,第一组和第五组的频率相同.
(1)求 , 的值;(2)估计这100名候选者面试成绩的第65百分位数(分位数精确到0.1);
(3)在第四,第五两组志愿者中,采用分层抽样的方法从中抽取5人,然后再从这5人中选出2人,以确定
组长人选,求选出的两人来自同一组的概率.
变式1.某市政府为了倡议市民节约用电,计划对居民生活用电费用实施阶梯式电价制度,即确定一户居
民月均用电量标准 a,用电量不超过 a的部分按照平价收费,超出部分按议价收费.为了确定一个合理的
标准,从某小区抽取了100户居民进行用电量调查 单位 ,并绘制了如图所示的频率分布直方图:
(1)求x的值:
(2)求被调查用户的月用电量平均值: 同一组数据用该区间的中点值作代表
(3)若使 居民用户的水费支出不受影响,应确定a值为多少?
变式2.长沙市某中学近几年加大了对学生奥赛的培训,为了选择培训的对象,2023年5月该中学进行一
次数学竞赛,从参加竞赛的同学中,选取50名同学将其成绩(百分制,均为整数)分成六组:第1组
,第2组 ,第3组 ,第4组 ,第5组 ,第6组 ,得到频率分
布直方图(如图),观察图中信息,回答下列问题:
(1)根据频率分布直方图,估计本次考试成绩的平均数和第71百分位数(同一组中的数据用该组区间的中
点值作代表);
(2)已知学生成绩评定等级有优秀、良好、一般三个等级,其中成绩不小于90分时为优秀等级,若从成绩在第5组和第6组的学生中,随机抽取2人,求所抽取的2人中至少有1人成绩优秀的概率.
变式3.一个容量为20的样本,其数据按从小到大的顺序排列为:1,2,2,3,5,6,6,7,8,8,9,
10,13,13,14,15,17,17,18,18,则该组数据的第75百分位数为 ,第86百分位数为 .
1.以下数据为某学校参加学科节数学竞赛决赛的10人的成绩:(单位:分)72,78,79,80,81,83,
84,86,88,90.这10人成绩的第 百分位数是85,则 ( )
A.65 B.70 C.75 D.80
2.某校排球社的同学为训练动作组织了垫排球比赛,以下为根据排球社 位同学的垫球个数画的频率分
布直方图,所有同学垫球数都在 之间.估计垫球数的样本数据的第 百分位数是( )
A. B. C. D.
3.“幸福感指数”是指人们主观地评价自己目前生活状态的满意程度的指标,常用区间 内的一个数
来表示,该数越接近10表示满意程度越高.现随机抽取10位某小区居民,他们的幸福感指数分别为3,
4,5,5,6,6,7,8,9,10,则这组数据的第80百分位数是( )
A.7.5 B.8 C.8.5 D.9
4.为了进一步学习贯彻党的二十大精神,推进科普宣传教育,激发学生的学习热情,营造良好的学习氛
围,不断提高学生对科学、法律、健康等知识的了解,某学校组织全校班级开展“红色百年路•科普万里
行”知识竞赛.现抽取10个班级的平均成绩: ,据此估计该校各个班级平均成
绩的第40百分位数为( )
A.77 B.78 C.76 D.80
5.某地一年之内12个月的月降水量分别为:46,51, 48,53,56, 53,56,64,58,56,66,71,则
下列说法正确的是( )
A.该地区的月降水量20%分位数为51
B.该地区的月降水量50%分位数为53
C.该地区的月降水量75%分位数为61D.该地区的月降水量80%分位数为64
6.习近平总书记强调,要坚持健康第一的教育理念,加强学校体育工作,推动青少年文化学习和体育锻
炼协调发展.某学校对高一年级学生每周在校体育锻炼时长(单位:小时)进行了统计,得到如下频率分布
表:
分
组
频
0.25 0.30 0.20 0.25
率
则下列关于高一年级学生每周体育锻炼时长的说法中正确的是( )
A.众数约为2.5
B.中位数约为3.83
C.平均数为3.95
D.第80百分位数约为5.2
7.某公司为了解用户对其产品的满意度,随机调查了10个用户,得到用户对产品的满意度评分如表所示,
评分用区间 内的一个数来表示,该数越接近10表示满意度越高,则下列说法正确的( )
7 8 9 7 5 4 10 9 4 7
A.这组数据的平均数为0
B.这组数据的众数为7
C.这组数据的极差为6
D.这组数据的第75百分位数为9
8.人均国内生产总值是人们了解和把握一个国家或地区的宏观经济运行状况的有效工具,即“人均
GDP”,常作为发展经济学中衡量经济发展状况的指标,是最重要的宏观经济指标之一.在国家统计局的官
网上可以查询到我国2013年至2022年人均国内生产总值(单位:元)的数据,如图所示,则( )A.2013年至2022年人均国内生产总值逐年递增
B.2013年至2022年人均国内生产总值的极差为42201
C.这10年的人均国内生产总值的80%分位数是71828
D.这10年的人均国内生产总值的增长量最小的是2020年
9.已知互不相同的30个样本数据,若去掉其中最大和最小的数据,设剩下的28个样本数据的方差为 ,
平均数为 ;去掉的两个数据的方差为 ,平均数为 ﹔原样本数据的方差为 ,平均数为 ,若 = ,
则下列说法正确的是( )
A.
B.
C.剩下28个数据的中位数大于原样本数据的中位数
D.剩下28个数据的22%分位数不等于原样本数据的22%分位数
10.8名学生参加 跑的成绩(单位:s)分别为13.10,12.99,13.01,13.20,13.01,13.20,12.91,
13.01,则( )
A.极差为0.29 B.众数为13.01
C.平均数近似为13.05 D.第75百分位数为13.10
11.党的二十大报告提出,要加快发展数字经济,促进数字经济与实体经济的深度融合,数字化构建社区
服务新模式成为一种时尚.某社区为优化数字化社区服务,问卷调查调研数字化社区服务的满意度,满意
度采用计分制(满分100分),统计满意度绘制成如下频率分布直方图,图中 .则下列结论正确的
是( )A.
B.满意度计分的众数为80分
C.满意度计分的 分位数是85分
D.满意度计分的平均分是76.5
12.某校1500名学生参加数学竞赛,随机抽取了40名学生的竞赛成绩(单位:分),成绩的频率分布直
方图如图所示,则( )
A.频率分布直方图中a的值为0.005 B.估计这40名学生的竞赛成绩的第60百分位数为75
C.估计这40名学生的竞赛成绩的众数为80 D.估计总体中成绩落在 内的学生人数为225
13.甘肃省2017到2022年常住人口变化图如图所示:
则( )
A.甘肃省2017到2020年这4年的常住人口呈递增趋势
B.甘肃省2017到2022年这6年的常住人口的第40百分位数为2501.98万
C.甘肃省2017到2022年这6年的常住人口的极差为156.41万D.从2017到2022年这6年中任选1年,则该年的甘肃省常住人口大于2500万的概率为
14.下表是某公司的月固定工资统计表:
总工程 工程 技术员 技术员 技术员 技术员 技术员 见习技术
师 师 A B C D E 员
固定工资
9000 7000 4000 3200 2600 2000 1500 1000
(元)
由该表能判断出该公司职工固定工资的75%分位数是 元.
15.某城市30天的空气质量指数如下:29,26,28,29,38,29,26,26,40,31,35,44,33,28,
80,86,65,53,70,34,36, ,31,38,63,60,56,34,74,34.则这组数据的第75百分位数为
.
易错点五:忽略相关性检验而出错(统计案例)
Ⅰ:变量间的相关关系
1.变量之间的相关关系
当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关
关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大
量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.
注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且
函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
2.散点图
将样本中的 个数据点 描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点
的分布可以直观地判断两个变量之间的关系.
(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称
为正相关,如图(1)所示;
(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称
为负相关,如图(2)所示.3.相关系数
若相应于变量 的取值 ,变量 的观测值为 ,则变量 与 的相关系数
,通常用 来衡量 与 之间的线性关系的强弱,
的范围为 .
(1)当 时,表示两个变量正相关;当 时,表示两个变量负相关.
(2) 越接近 ,表示两个变量的线性相关性越强; 越接近 ,表示两个变量间几乎不存在线性相关关
系.当 时,所有数据点都在一条直线上.
(3)通常当 时,认为两个变量具有很强的线性相关关系.
Ⅱ:线性回归
1.线性回归
线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.
对于一组具有线性相关关系的数据(x,y),(x,y),…,(x,y),其回归方程 的求法
1 1 2 2 n n
为
其中, , ,( , )称为样本点的中心.
2.残差分析
对于预报变量 ,通过观测得到的数据称为观测值 ,通过回归方程得到的 称为预测值,观测值减去预测值等于残差, 称为相应于点 的残差,即有 .残差是随机误差的估计结果,通过对残
差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分
析.
(1)残差图
通过残差分析,残差点 比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的
带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和 分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反
之,不合适.
(3)相关指数
用相关指数来刻画回归的效果,其计算公式是: .
越接近于 ,说明残差的平方和越小,也表示回归的效果越好.
Ⅲ:非线性回归
解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回
归方程化归转化为我们熟悉的线性回归方程.
求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即
可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.
1.建立非线性回归模型的基本步骤:
(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);
(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次
函数、指数函数、对数函数、幂函数模型等);
(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;
(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;
(6)消去新元,得到非线性回归方程;
(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.
Ⅳ:独立性检验1.分类变量和列联表
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x,x}和{y,y},其样本频数列联表(称为2×2
1 2 1 2
列联表)为
总计
总计
从 列表中,依据 与 的值可直观得出结论:两个变量是否有关系.
2.等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列
联表数据的频率特征.
(2)观察等高条形图发现 与 相差很大,就判断两个分类变量之间有关系.
3.独立性检验
(1)定义:利用独立性假设、随机变量 来确定是否有一定把握认为“两个分类变量有关系”的方法称
为两个分类变量的独立性检验.
(2)公式: ,其中 为样本容量.
(3)独立性检验的具体步骤如下:
①计算随机变量 的观测值 ,查下表确定临界值 :
0.5 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
②如果 ,就推断“ 与 有关系”,这种推断犯错误的概率不超过 ;否则,就认为在犯
错误的概率不超过 的前提下不能推断“ 与 有关系”.
【常用结论】常见的非线性回归模型
(1)指数函数型 ( 且 , )
两边取自然对数, ,即 ,
令 ,原方程变为 ,然后按线性回归模型求出 , .
(2)对数函数型
令 ,原方程变为 ,然后按线性回归模型求出 , .
(3)幂函数型
两边取常用对数, ,即 ,
令 ,原方程变为 ,然后按线性回归模型求出 , .
(4)二次函数型
令 ,原方程变为 ,然后按线性回归模型求出 , .
(5)反比例函数型 型
令 ,原方程变为 ,然后按线性回归模型求出 , .
易错提醒:已知数据求回归直线方程,应根据散点图分析变量之间是否满足线性关系,或求相关系数r进
行线性相关性的检验,如是非线性的关系,应转化为线性关系,再求解.
例.某乡政府为提高当地农民收入,指导农民种植药材,取得较好的效果.以下是某农户近5年种植药材的
平均收入的统计数据:年份 2018 2019 2020 2021 2022
年份代码x 1 2 3 4 5
平均收入y(千元) 59 61 64 68 73
(1)根据表中数据,现有 与 两种模型可以拟合y与x之间的关系,请分别求出两种模型
的回归方程;(结果保留一位小数)
(2)统计学中常通过比较残差的平方和来比较两个模型的拟合效果,已知 的残差平方和是3.5,请
根据残差平方和说明上述两个方程哪一个拟合效果更好,并据此预测2023年该农户种植药材的平均收入.
参考数据及公式: , ,其中 . , .
变式1.国务院印发《新时期促进集成电路产业和软件产业高质量发展的若干政策》.某科技公司响应国
家号召,加大了芯片研究投入力度.从2022年起,芯片的经济收入逐月攀升,该公司在2022年的第一月
份至第六月份的月经济收入 (单位:百万元)关于月份 的数据如下表所示:
时间 (月份) 1 2 3 4 5 6
月收入 (百万 1 3
6 9 22 47
元) 5 3
(1)请你根据提供数据,判断 与 ( 均为常数)哪一个适宜作为该公司月经济收入
关于月份 的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的结果及表中的数据,求出 关于 的回归方程;
(3)从这6个月中抽取3个,记月收入超过16百万的个数为 ,求 的分布列和数学期望.参考数据:
2.86 17.50 142 7.29
其中设
参考公式和数据:对于一组具有线性相关关系的数据 ,其回归直线 的斜率和截距的最小二乘估计公式分别为: .
变式2.2020年11月,国务院办公厅印发《新能源汽车产业发展规划(2021-2035年)》,要求深入实施
发展新能源汽车国家战略,推动中国新能源汽车产业高质量可持续发展,加快建设汽车强国.同时为了推广
新能源替代传统非绿色能源,除了财政补贴、税收优惠等激励性政策外,可间接通过前期技术研发支持等
政策引导能源发展方向.某企业多年前就开始进行新能源汽车方面的研发,现对近10年的年技术创新投入
和每件产品成本 ( ,2,3,…,10)的数据进行分析,得到如下散点图,
并计算得: , , , , .
(1)根据散点图可知,可用函数模型 拟合y与x的关系,试建立y关于x的回归方程;
(2)已知该产品的年销售额m(单位:千万元)与每件产品成本y的关系为 .该企
业的年投入成本除了年技术创新投入,还要投入其他成本10千万元,根据(1)的结果回答:当年技术创
新投入x为何值时,年利润的预报值最大?(注:年利润 年销售额 年投入成本)
参考公式:对于一组数据 , ,…, ,其回归直线 的斜率和截距的最小二乘
估计分别为: , .
变式3.台山市镇海湾蚝是台山市著名的特产,因镇海湾的生蚝田处于咸淡水交汇之地,所以这里的生蚝
长得比其他地方肥大,味道更加鲜美.2023年镇海湾某养殖基地考虑增加人工投入,根据市场调研与模拟,得到人工投入增量x人与年收益增量y万元的数据和散点图分别如下:
1
x 2 3 4 6 8 13
0
1 4 5
y 22 31 50 58
3 2 6
根据散点图,建立了y与x的两个回归模型:
模型①: ;模型②:
(1)求出模型②中y关于x的回归方程(精确到0.1);
(2)比较模型①,②的决定系数 的大小,说明哪个模型拟合效果更好,并用该模型预测,要使年收益增
量超过80万元,人工投入增量至少需要多少人?(精确到1)
线性回归方程 的系数:
, ;
模型的决定系数: .
参考数据:令 ,则 ,且 , , , ;
模型①中 ;模型②中 .1.为帮助乡村脱贫,某勘探队计划了解当地矿脉某金属的分布情况,测得了平均金属含量 (单位:
)与样本对原点的距离 (单位:m)的数据,并作了初步处理,得到了下面的一些统计理的值.
(表中 , )
6 97.90 0.21 60 0.14 14.12 26.13
(1)利用样本相关系数的知识,判断 与 哪一个更适宜作为平均金属含量 关于样本对原点
的距离 的回归方程类型?
(2)根据(1)的结果回答下列问题:
①建立 关于 的回归方程;
②样本对原点的距离 时,金属含量的预报值是多少?
附:对于一组数据 ,其线性相关系数 ,其回归直线
的斜率和截距的最小二乘估计分别为: , .
2.一座城市的夜间经济不仅有助于拉动本地居民内需,还能延长外地游客、商务办公者等的留存时间,
带动当地经济发展,是衡量一座城市生活质量、消费水平、投资环境及文化发展活力的重要指标.数据显
示,近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模保持稳定增长,下表为
2017—2022年中国夜间经济的市场发展规模(单位:万亿元),其中2017—2022年对应的年份代码依次
为1~6.
年份代码 1 2 3 4 5 6
中国夜间经济的市场发展规模 万亿元 20.5 22.9 26.4 30.9 36.4 42.4
(1)已知可用函数模型 拟合 与 的关系,请建立 关于 的回归方程( 的值精确到0.01);
(2)某传媒公司预测2023年中国夜间经济的市场规模将达到48.1万亿元,现用(1)中求得的回归方程预测
2023年中国夜间经济的市场规模,若两个预测规模误差不超过1万亿元,则认为(1)中求得的回归方程是理想的,否则是不理想的,判断(1)中求得的回归方程是否理想.参考数据:
3.366 73.282 17.25 1.16 2.83
其中 .
参考公式:对于一组数据 ,其回归直线 的斜率和截距的最小二乘估计分
别为 .
3.中国茶文化博大精深,饮茶深受大众喜爱,茶水的口感与茶叶类型和水的温度有关,某数学建模小组
为了获得茶水温度y(单位: )关于时间x(单位:min)的回归方程模型,通过实验收集在 室温,
用同一温度的水冲泡的条件下,茶水温度随时间变化的7组数据,并对数据做初步处理得到如图所示散点
图以及如表所示数据.
73.5 3.85
表中: ,
(1)根据散点图判断,① 与② 哪一个更适宜作为该茶水温度y关于时间x的回归方程
类型?(给出判断即可,不必说明理由)请根据你的判断结果及表中数据建立该茶水温度y关于时间x的
回归方程;
(2)已知该茶水温度降至 口感最佳,根据(1)中的回归方程,求在相同条件下冲泡的茶水,大约需要放置多长时间才能达到最佳饮用口感?
附:(1)对于一组数据 ,…, ,其回归直线 的斜率和截距的最小二乘估
计分别为 ,
(2)参考数据: , , , ,
4.当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为代表的新一代信息技术迅猛发展,现收集某
地近6年区块链企业总数量相关数据,如下表:
201 202
年份 2017 2019 2021 2022
8 0
编号 1 2 3 4 5 6
企业总数量 (单位:百
50 78 124 121 137 352
个)
(1)若用模型 拟合 与 的关系,根据提供的数据,求出 与 的经验回归方程;
(2)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区
块链公司参赛.比赛规则如下:①每场比赛有两个公司参加,并决出胜负;②每场比赛获胜的公司与未参
加此场比赛的公司进行下一场的比赛;③在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公
司获得此次信息化比赛的“优胜公司”.已知在每场比赛中,甲胜乙的概率为 ,甲胜丙的概率为 ,乙
胜丙的概率为 ,若首场由甲乙比赛,求甲公司获得“优胜公司”的概率.
参考数据: ,其中,
参考公式:对于一组数据 ,其经验回归直线 的斜率和截距的最小二乘估计分别为
5.某出版社单册图书的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下:
x 1 2 3 5 7 10 11 20 25 30
y 9.02 5.27 4.06 3.03 2.59 2.28 2.21 1.89 1.80 1.75
(1)根据以上数据画出散点图(可借助统计软件),并根据散点图判断: 与 中哪一个适宜
作为回归方程模型?
(2)根据(1)的判断结果,试建立成本费y关于印刷册数x的回归方程;
(3)利用回归方程估计印刷26000册图书的单册成本(结果保留两位小数).
6.红蜘蛛是柚子的主要害虫之一,能对柚子树造成严重伤害,每只红蜘蛛的平均产卵数y(个)和平均温
度x(℃)有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.
(1)根据散点图判断, 与 (其中 …为自然对数的底数)哪一个更适合作为平均产
卵数y(个)关于平均温度x(℃)的回归方程类型?(给出判断即可,不必说明理由)
(2)由(1)的判断结果及表中数据,求出y关于x的回归方程.(计算结果精确到0.1)
附:回归方程中 , ,
参考数据( )5215 17713 714 27 81.3 3.6
(3)根据以往每年平均气温以及对果园年产值的统计,得到以下数据:平均气温在22℃以下的年数占60%,
对柚子产量影响不大,不需要采取防虫措施;平均气温在22℃至28℃的年数占30%,柚子产量会下降
20%;平均气温在28℃以上的年数占10%,柚子产量会下降50%.为了更好的防治红蜘蛛虫害,农科所研发
出各种防害措施供果农选择.
在每年价格不变,无虫害的情况下,某果园年产值为200万元,根据以上数据,以得到最高收益(收益=
产值-防害费用)为目标,请为果农从以下几个方案中推荐最佳防害方案,并说明理由.
方案1:选择防害措施A,可以防止各种气温的红蜘蛛虫害不减产,费用是18万;
方案2:选择防害措施B,可以防治22℃至28℃的蜘蛛虫害,但无法防治28℃以上的红蜘蛛虫害,费用是
10万;
方案3:不采取防虫害措施.
7.在一次抽样调查中测得 个样本点,得到下表及散点图.
(1)根据散点图判断 与 哪一个适宜作为 关于 的回归方程;(给出判断即可,不必
说明理由)
(2)根据(1)的判断结果试建立 与 的回归方程;(计算结果保留整数)
参考公式:
8.为了研究某种细菌随天数 变化的繁殖个数 ,收集数据如下:
天数 1 2 3 4 5 6
繁殖个数 6 12 25 49 95 190(1)在图中作出繁殖个数 关于天数 变化的散点图,并由散点图判断 ( 为常数)与
( 为常数,且 )哪一个适宜作为繁殖个数 关于天数 变化的回归方程类型?(给出判断
即可,不必说明理由)
(2)对于非线性回归方程 ( 为常数,且 ),令 ,可以得到繁殖个数的对数z
关于天数x具有线性关系及一些统计量的值.
3.50 62.83 3.53 17.50 596.57 12.09
(ⅰ)证明:“对于非线性回归方程 ,令 ,可以得到繁殖个数的对数 关于天数 具有线
性关系(即 为常数)”;
(ⅱ)根据(ⅰ)的判断结果及表中数据,建立 关于 的回归方程(系数保留2位小数).
附:对于一组数据 ,其回归直线方程 的斜率和截距的最小二乘估计分别
为 .
9.抗体药物的研发是生物技术制药领域的一个重要组成部分,抗体药物的摄入量与体内抗体数量的关系
成为研究抗体药物的一个重要方面.某研究团队收集了10组抗体药物的摄入量与体内抗体数量的数据,并
对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值,抗体药物摄入量为x(单位:),体内抗体数量为y(单位: ).
29.2 12 16 34.4
(1)根据经验,我们选择 作为体内抗体数量y关于抗体药物摄入量x的回归方程,将 两边取对
数,得 ,可以看出 与 具有线性相关关系,试根据参考数据建立 关于 的回归方
程,并预测抗体药物摄入量为 时,体内抗体数量 的值;
(2)经技术改造后,该抗体药物的有效率z大幅提高,经试验统计得z服从正态分布 ,那这
种抗体药物的有效率 超过0.54的概率约为多少?
附:①对于一组数据 ,其回归直线 的斜率和截距的最小二乘估计分别为
, ;
②若随机变量 ,则有 , ,
;
③取 .s