SPSS实操 | 如何利用SPSS软件进行Pearson相关分析
相关性分析是数据分析中常用的方法。相关分析用于探究两个变量是否存在同步变化的趋势,从而判断它们之间可能存在某种关联关系。常用指标包括相关系数r(判断相关强度及方向)和显著性P(是否具有相关性)。其中,r的取值范围为[-1,1],常见相关类型:(1)∣r∣>0.7:强相关;(2)0.4<∣r∣<0.7:中等相关;(3)∣r∣<0.4:弱相关;(4)r=0:无线性相关。
Pearson积差相关系数(Pearson product-moment correlation coefficient),又称直线相关系数或线性相关系数,由英国统计学家Karl Pearson于1896年正式提出,是衡量两个连续变量之间线性关系方向和强度的最常用指标。
|
条件
|
具体要求
|
医学实例
|
|
变量类型
|
两个变量均为连续变量(等距或比率变量)
|
身高、体重、血压、血糖浓度等
|
|
配对关系
|
两变量应当是配对的,即来源于同一个体
|
同一患者的收缩压与舒张压;同一儿童的身高与体重
|
|
线性关系
|
两变量之间存在线性关系(通过散点图判断)
|
年龄与骨密度、体温与代谢率
|
|
无异常值
|
两变量均不存在明显的异常值(通过箱线图判断)
|
排除录入错误或极端病理值
|
|
双变量正态
|
两变量呈双变量正态分布
|
体重与双肾体积、身高与肺活量
|
示例:研究健康成年人的空腹血糖(FBG)和甘油三酯(TG)的关系,测得50名健康成年人的空腹血糖和甘油三酯,拟探讨健康成年人的空腹血糖和甘油三酯是否有关。
验证条件包括:条件1:两个变量均为连续变量(满足)。条件2:两个连续变量应当是配对的,即来源于同一个个体(满足)。条件3:两个连续变量之间存在线性关系。条件4:两个变量都不存在明显的异常值。条件5:两个变量呈双变量正态分布或近似正态分布。
②在“散点图”对话框中选择“简单散点”,然后点击“定义” 。
③在“画简单散点”主对话框中将变量“FBG”选入右侧X轴,将变量“TG”选入右侧Y轴,点击“确定”。
④ 散点图结果:散点图的散点大致呈一条直线,说明存在线性关系。
② 在“探索”对话框中将变量“FBG”和“TG”选入右侧“因变量列表”
③ 点击“图”,勾选“含检验的正态图”,点击“继续”—“确定”
④ 异常值结果:可以根据提示的标号回溯原始数据出现异常值的观测位置。
(3)验证条件5:两个变量呈双变量正态分布或近似正态分布。(操作步骤同上,正态性检验步骤)
两种正态性检验的结果,Kolmogorov-Smirnov (柯尔莫哥洛夫-斯米诺夫,K-S)检验和Shapiro-Wilk (夏皮罗-威尔克,S-W)检验。K-S检验适用于大样本资料,本研究查看S-W检验结果,可见P值分别为0.016和0.078,均<0.1,提示两变量均不服从正态分布。
注意:Pearson相关分析要求变量呈双变量正态分布,而并非简单的要求两个自变量各自服从正态分布。有实验模拟显示,采用Shapiro-Wilk检验同时考察双变量正态分布和两变量分别的正态分布,在重复1万次服从两变量正态分布的实验中若以P=0.1为界值时,约有11%的实验不服从双变量正态分布;若以P=0.05为界值时,约有6%的实验不服从双变量正态分布。由于在SPSS软件中,尚无考察双变量正态分布的程序,且该条件比较宽松,因此可以考察两个自变量各自的正态分布情况代替分析双变量正态分布。
(4)Pearson相关分析(假定演示数据符合5个条件!)
②在“双变量相关性”对话框中将变量“FBG”和“TG”选入右侧“变量”框,选择相关系数中的“皮尔逊(Pearson)”,点击“确定”。
两组Pearson相关系数r=0.77,P<0.001。可知本研究样本的FBG与TG之间存在较强线性相关性。