【统计分析软件SPSS】100、卡方检验的基本思想

本系列（基于SPSS 31版本）文章配套数据可通过百度网盘获取：

链接：https://pan.baidu.com/s/15r0rLWkJlcecUvBPKZo_MQ?pwd=mnsj 提取码：mnsj

由于微信公众号已发布文章的内容及排版顺序无法二次编辑，为了方便大家后续查阅、检索，同时便于我对内容进行补充更新与完善，我会将所有已发布的推文，在个人网站上以结构化文档的形式重新整理、归档。欢迎前往查看：

https://www.mizhushare.com/docs/

应用场景

在数据分析中，我们经常遇到需要比较两组或多组“计数资料”的情况，例如：

针对这类计数资料的对比分析，用于组间计量资料比较的t检验、F检验就无法满足分析需求。而卡方检验正是解决此类问题的核心方法，也是统计分析中最常用的检验工具之一。

该方法由卡尔・皮尔逊（Karl Pearson）提出，更是被誉为20世纪最重要的统计学发明之一。其核心逻辑通俗易懂，本质是判断实际观测值与理论期望值之间的吻合程度。

卡方检验的核心

为了理解卡方，我们先看一个生活中的例子：

假设职场新人A每月收入1500元，理想收入4500元；职场老人B每月收入8000元，理想收入16000元。那么谁更接近自己的理想？

很多人会算绝对差值：A差3000元，B差8000元，所以A更接近。但卡方检验告诉我们，这样算不对——应该算“相对差距”。

从相对比例看，B更接近理想。卡方检验的核心计算逻辑，正是基于这个「实际值 - 理论值」的相对差距。

案例拆解

下面通过一个案例，拆解卡方检验的推导过程，理解其逻辑。

某医生将200名高血压患者随机分为两组，分别用新药和旧药治疗，结果如下表：

从数据看，新药有效率（60%）高于旧药（50%），但这是“真实差异”还是“抽样误差”需要卡方检验帮我们判断。

如果新药和旧药疗效一样，那么两组的有效率都应该等于整体的平均有效率55%。这是我们的“零假设”（H₀）：两组无差异。

在“疗效相同”的假设下：

现在对比实际频数和理论频数：

对于新药的“有效”单元格，实际频数（A）为60，理论频数（T）为55，差值为60−55=5；对于新药的“无效”单元格，实际频数为40，理论频数为45，差值为40−45=−5；
旧药的“有效”单元格，实际频数为50，理论频数为55，差值为50−55=−5 ；旧药的“无效”单元格，实际频数为50，理论频数为45，差值为50−45=5。

上述差距只有两种可能：

此时就需要通过卡方检验给出判断依据，即将“实际观测值 (A)”与“理论值 (T)”进行对比。如果两组药物疗效真的没区别，那么A与T之间的差距应该很小，这种差距仅仅是由随机抽样引起的。为了量化这个差距，皮尔逊给出了如下公式：

其中，A是实际频数，T是理论频数。平方是为了消除正负抵消，除以理论频数是为了消除数值量级的影响。

最终得到的卡方值，就是衡量 “现实与理想吻合度” 的核心指标，卡方值越小，说明实际和理论越接近，差异越可能是抽样误差；卡方值越大，说明差异越显著。

本次示例中，将每个单元格的 (𝐴−𝑇)²/𝑇相加，即可得到卡方值：

χ²=(60-55)²/55 + (40-45)²/45 + (50-55)² /55 + (50-45)²/45 ≈ 2.02

通过查卡方分布表，我们可以判断这个差距是否具有统计学意义（SPSS会帮我们计算出这个χ²值和对应的P值）。