乐于分享
好东西不私藏

【统计分析软件SPSS】57、分类变量频率分析

【统计分析软件SPSS】57、分类变量频率分析

本系列(基于SPSS 31版本)文章配套数据可通过百度网盘获取:

链接:https://pan.baidu.com/s/15r0rLWkJlcecUvBPKZo_MQ?pwd=mnsj 提取码:mnsj

由于微信公众号已发布文章的内容及排版顺序无法二次编辑,为了方便大家后续查阅、检索,同时便于我对内容进行补充更新与完善,我会将所有已发布的推文,在个人网站上以结构化文档的形式重新整理、归档。欢迎前往查看:

https://www.mizhushare.com/docs/
01
应用场景

频率分析是SPSS中最基础但最重要的统计分析功能之一,主要用于描述数据的分布特征,通过频数分布表、条形图、饼图等可视化方式展示数据的分布特征,为后续的深入分析奠定基础。

频率分析既可以用于分类变量,也可以用于连续变量。但二者在分析目的、方法和结果解读存在本质区别

  • 分类变量(Categorical Variable):
分类变量是指取值代表类别或标签的变量,不能进行数学运算。常见类型包括:
  • 名义变量:例如,性别(男/女)、城市(北京/上海/广州);
  • 有序变量:例如,教育程度(高中<本科<硕士)、满意度(1~5分)。
分类数据频率分析主要用于回答:
  • 各类别分别有多少样本?
  • 各类别所占比例是多少?
  • 样本结构是否均衡?
重点关注频数和百分比。
  • 连续变量(Continuous Variable):

连续变量是可以取任意实数值的度量型数据,具有明确的大小和距离意义。例如,年龄、收入、成绩、时间、距离等。

连续数据频率分析主要用于回答:

  • 查看数据分布情况;

  • 发现极端值或异常值;
  • 为正态性判断提供直观依据。
重点不是“每个数值有多少”,而是数据集中在哪些区间。

本文将主要介绍 SPSS 中分类数据频率分析的用途、操作演示。

02
操作步骤
加载示例数据【demo.sav】(软件自带样本数据)。

点击顶部菜单栏的【分析→描述统计→频率】,在打开的对话框进行相应设置:

  • 选择分类变量:将需要分析的分类变量从左侧框中移入右侧【变量】框中;

  • 统计:用于选择频率分析中要输出的统计量。分类变量一般不需设置统计量;

  • 图表:用于设置频率分析输出的图形类型。点击「图表」按钮,在「频率·图表」对话框中选择条形图」,然后选择百分比」。

分类数据用条形图,看结构;连续数据用直方图,看分布。

条形图(Bar Chart):

用于分类变量(名义或有序),横轴表示不同类别,柱子之间有间隔,主要用于比较各类别的频数或百分比,关注“哪一类多、哪一类少”。

直方图(Histogram):

用于连续变量(或已分组的数值变量),横轴表示连续数值区间,柱子之间紧密相连,主要用于观察数据的分布形态(是否偏态、是否近似正态、是否存在异常值)。

  • 格式:用于控制频率表中类别的排列方式和显示规则。例如,如果想知道哪个类别最多,可以选择按频数排序

  • 样式:用于调整输出表格的外观样式。例如,控制字体、线条、颜色等视觉风格。

  • 拔靴法:进行重抽样估计,计算统计量的置信区间(Confidence Interval),提高结果稳健性。当样本较小或分布不正态,需要更稳健的统计推断时会使用。

  • 创建APA样式表:勾选后,将创建符合 APA 风格指南的输出表。

设置完成后,在主对话框中点击确定。

此时,SPSS的输出窗口中就显示出了所选变量的频率分析结果和图表。

其中,第一张表格(统计表)显示的是样本规模和缺失情况。

第二张表格(频率表是分类变量频率分析中最重要的输出表格。其中:

  • 频率列:表示每个收入等级对应的样本数量;

  • 百分比:各类别占全部样本(含缺失只) 的比例。

  • 有效百分比:各类别占有效样本(排除缺失值)的比例。由于本例没有缺失值,因此百分比 = 有效百分比。

  • 累积百分比:表示从最低类别开始逐步累加的比例。对有序分类变量尤其有意义,常用于描述群体的整体分布位置

第三张为图表(条形图)。其中:

  • 横轴:收入等级(分类变量);

  • 纵轴:百分比;

  • 每个柱子高度:对应类别的样本比例。

结合以上三个输出,可以简单总结为:
  • 本样本共 6400 人,收入等级数据完整;
  • 收入主要集中在 25–49 千美元区间;
  • 超过一半(55.7%)的样本年收入不超过 49 千美元;
  • 不同收入等级之间存在明显的结构差异。