【统计分析软件SPSS】80、方差分析的基本思想本系列(基于SPSS 31版本)文章配套数据可通过百度网盘获取:链接:https://pan.baidu.com/s/15r0rLWkJlcecUvBPKZo_MQ?pwd=mnsj 提取码:mnsj
由于微信公众号已发布文章的内容及排版顺序无法二次编辑,为了方便大家后续查阅、检索,同时便于我对内容进行补充更新与完善,我会将所有已发布的推文,在个人网站上以结构化文档的形式重新整理、归档。欢迎前往查看:https://www.mizhushare.com/docs/
在数据分析过程中,我们经常会遇到需要比较多组数据均值差异的问题。比如:这类问题的核心,本质上是判断多组数据的均值是否存在显著差异。如果仅需比较两组数据,使用之前介绍的t检验即可满足需求;但当比较的组数≥3时,若反复使用t检验,会显著放大统计误差,此时就需要【方差分析(Analysis of Variance,ANOVA)】登场。
方差分析由英国统计学家R.A. Fisher于20世纪20年代提出,通俗来说,它是一种专门用于检验三个及以上样本均值是否存在显著差异的统计方法,能有效控制反复检验带来的误差。
假设你是一名农业研究者,想要探究三种施肥方案(A、B、C)对小麦产量的影响。你在同一片试验田内选取了15块条件一致的地块,每种施肥方案对应5块地,收获后记录每块地的产量(单位:kg/ha),数据如下:直观来看,三组产量的均值差异较为明显,且方案C的均值最高,但我们不能直接得出“施肥方案不同导致产量差异”的结论。因为任何试验都存在随机因素——即便使用同一种施肥方案,5块地的产量也会存在差异。因此,各组均值之间的差距,很可能只是正常的随机波动,而非施肥方案本身的效果差异。若采用两两t检验(A与B、B与C、A与C分别进行t检验,以是否显著判断差异),会大幅增加犯“第一类错误”(即本来无差异,却误判为有差异)的概率。而方差分析通过一次整体的F检验,就能完美控制这种误差率,精准判断多组数据的均值差异是否显著。方差分析的核心思想可以用一句话概括:将所有数据的总体差异(总变异),拆解为两个部分——组间差异和组内差异,通过比较两者的大小,判断我们关注的因素是否真的产生了影响。下面将结合上面的施肥案例,逐一拆解上述三个变异。
总变异指的是所有观测值(即15块地的产量)与所有数据总均值之间的差异。简单来说,就是把15个产量数据全部混在一起,观察它们的整体离散情况——有的地块产量高、有的产量低,这种整体的“参差不齐”,就是总变异。总变异的来源只有两个:组间差异和组内差异,这也是我们要拆解的核心。组间变异,是指不同组别(不同施肥方案)的均值之间的差异。例如,方案A的产量均值为3184,方案B为3634,方案C为4124,这三组均值之间的差距,就是组间变异。组间变异的核心来源,是我们“主动控制”的实验因素——也就是施肥方案的不同。如果施肥方案确实有效,那么组间变异会相对较大;如果施肥方案没有效果,那么组间变异会很小,与随机误差的大小相近。组内变异,是指同一组别内(同一施肥方案)各个观测值之间的差异。比如方案A的5块地,产量从3100到3250 不等,这种差异与施肥方案无关,而是由随机因素导致的,比如地块的微小土壤差异、产量测量误差、偶然的天气波动等。组内变异是“不可控”的随机误差,也是我们判断实验因素是否有效的基准——任何实验都存在随机误差,我们需要判断的是:我们关注的因素(如施肥方案)引发的差异,是否远大于这种随机误差。拆解完数据的总变异后,我们需要一个具体指标,来判断组间变异(实验因素导致的差异)是否显著大于组内变异(随机误差),这个指标就是F统计量,其计算公式为:公式里的“均方”,可以理解为“平均每一份自由度的变异”,其作用是消除样本量和组数的影响,让比较更公平。
F值的判断逻辑也很直观:
这也是“方差分析”名称的由来——它本质上是通过分解和分析数据方差(均方)的来源,来完成对多组数据均值的推断。方差分析的分析结果要具备可靠性,必须满足以下3个基本假设:- 独立性:各组数据之间相互独立,同一组内的观测值也相互独立。例如,方案A的地块产量,不会影响方案B、C的地块产量;同属方案A的5块地,每块地的产量也不会相互影响。这是最基础的假设,一旦违反,整个分析结果会完全失效。
- 正态性:每组数据都服从正态分布。简单来说,就是每组内部的观测值,会围绕该组的均值呈现“中间多、两边少”的分布特征。如果样本量较大(每组n>30),即使数据轻微偏离正态分布,也不会对分析结果产生太大影响。
- 方差齐性:各组数据的方差大致相等。也就是说,每组内部的随机误差大小相近,例如方案A的产量波动(3100-3250 ),与方案B、C的产量波动幅度基本一致。如果检测发现方差不齐,需要先对数据进行转换(如对数转换),再进行方差分析。
