乐于分享
好东西不私藏

【统计分析软件SPSS】61、交叉表

【统计分析软件SPSS】61、交叉表

本系列(基于SPSS 31版本)文章配套数据可通过百度网盘获取:

链接:https://pan.baidu.com/s/15r0rLWkJlcecUvBPKZo_MQ?pwd=mnsj 提取码:mnsj

由于微信公众号已发布文章的内容及排版顺序无法二次编辑,为了方便大家后续查阅、检索,同时便于我对内容进行补充更新与完善,我会将所有已发布的推文,在个人网站上以结构化文档的形式重新整理、归档。欢迎前往查看:

https://www.mizhushare.com/docs/
01
应用场景

在数据分析时,我们经常需要分析两个分类变量之间是否存在关系。例如:

  • 收入水平是否会影响产品拥有情况?

  • 性别与消费偏好是否有关?
  • 教育程度是否影响某种行为选择?
在SPSS中,这类问题最常用、最基础的方法就是【交叉表(Crosstabulation功能。

交叉表是一种用于分析两个(或多个)分类变量之间关系的统计方法。

  • 行变量、列变量:通常都是名义变量或有序变量;
  • 表格中的每一个单元格:表示某一组合下的样本数量或比例。
常用于:
  • 描述变量之间的分布关系;
  • 比较不同类别之间的比例差异;
  • 进行卡方检验等显著性分析。
02
操作步骤
加载示例数据【demo.sav】(软件自带样本数据)。
数据中包含表示收入水平(分组)情况的「inccat」变量、表示是否拥有PDA(个人数字助理)的「ownpda」变量以及表示教育水平的「ed」变量。
本次将使用交叉表研究不同教育水平下,不同收入水平的人拥有 PDA 的情况是否存在差异的问题。

点击顶部菜单栏的【分析→描述统计→交叉表】,在弹出的对话框中进行相应设置:

  • 行:指定作为行变量的分类变量。通常选择分组变量(本次为「inccat」)。

  • 列:指定作为列变量的分类变量。通常选择因变量、结果变量(是否购买、是否拥有、是否同意等)(本次为「ownpda」)。

  • 层:指定层变量(控制变量)。用于考察在控制第三变量后,行变量与列变量的关系是否仍然存在(本次为「ed」)。

  • 精确:启用精确检验方法,适用于小样本或期望频数小于5的情况。大样本中通常不需要使用该选项。

  • 统计:选择要输出的统计量,用于判断变量间是否存在显著关联。例如,Chi-square(卡方检验)

  • 单元格:设置交叉表中每个单元格显示的内容。例如,描述关系时可选行百分比 / 列百分比;显著性分析时可选期望计数。

  • 格式:用于控制频率表中类别的排列方式和显示规则。

  • 样式:用于调整输出表格的外观样式。例如,控制字体、线条、颜色等视觉风格。

  • 拔靴法:进行重抽样估计,计算统计量的置信区间(Confidence Interval),提高结果稳健性。当样本较小或分布不正态,需要更稳健的统计推断时会使用。

  • 在表层中显示层变量:勾选后仅生成汇总交叉表。

  • 显示簇状条形图:在输出窗口中自动生成簇状条形图,直观展示交叉表数据。

  • 禁止显示表:隐藏交叉表本身,只输出统计量(如卡方检验结果)。

关于「交叉表·统计」对话框中各统计量的具体含义、「交叉表·单元格显示」对话框中各选项的含义可以参考下一篇文章。

在 SPSS 交叉表分析中,系统通常会输出四个核心结果:

  • 个案处理摘要→ 确保数据没问题
  • 交叉表→ 发现初步规律
  • 卡方检验→ 判断是否真的有关联
  • 条形图→ 把结论可视化表达
它们分别承担不同的分析功能,共同构成完整的分类变量关系探索流程。以下是它们的简明概述:

  • 输出结果一:个案处理摘要

展示参与分析的有效样本数量和缺失值情况。用于估数据完整性,确认有多少个案被纳入分析。

  • 输出结果二、交叉表:

以行列形式展示两个(或更多)分类变量的联合频数分布。直观呈现不同类别组合下的观察频数及百分比,发现变量间的初步关联模式或趋势。

  • 输出结果三:卡方检验:

用于检验两个分类变量是否相互独立(即是否存在统计学上的显著关联)。

  • 输出结果四:条形图:

将交叉表中的频数或百分比以图形方式可视化。增强结果可读性,便于快速比较不同组别间的差异。

针对本次示例,通过这四个输出结果,可以得出以下结论:

  • 收入等级与是否拥有PDA之间存在显著关联。随着收入类别的升高,拥有 PDA 的人的百分比也随之上升。

  • 总体卡方检验p < .001(通常显著性值小于0.05被认为是“显著”的),说明“收入等级”与“是否拥有PDA”在整体上存在极强的显著关联。

  • 教育程度各组中卡方检验p > 0.05(大学学历组除外,说明收入与 PDA 拥有之间表面上的关系仅仅是教育水平与 PDA 拥有之间潜在关系的一个表象。由于随着教育水平的提高收入也往往提高,因此收入与其他变量之间表面上的关系可能实际上是由教育差异造成的。