链接:https://pan.baidu.com/s/15r0rLWkJlcecUvBPKZo_MQ?pwd=mnsj提取码:mnsj
https://www.mizhushare.com/docs/
在数据分析中,我们经常遇到需要比较两组或多组“计数资料”的情况,例如:
A药和B药的有效率(有效 vs 无效)究竟有没有本质区别?
不同年龄段用户的偏好(喜欢 vs 没感觉)真的不同吗?
性别与是否购买产品(购买 vs 未购买)之间是否存在关联?
针对这类计数资料的对比分析,用于组间计量资料比较的t检验、F检验就无法满足分析需求。而卡方检验正是解决此类问题的核心方法,也是统计分析中最常用的检验工具之一。
该方法由卡尔・皮尔逊(Karl Pearson)提出,更是被誉为20世纪最重要的统计学发明之一。其核心逻辑通俗易懂,本质是判断实际观测值与理论期望值之间的吻合程度。

A的相对差距:(4500-1500) / 4500 =66.7%
B的相对差距:(16000-8000) / 16000 =50%
从相对比例看,B更接近理想。卡方检验的核心计算逻辑,正是基于这个「实际值 - 理论值」的相对差距。

某医生将200名高血压患者随机分为两组,分别用新药和旧药治疗,结果如下表:
疗法 | 有效 | 无效 | 合计 | 有效率(%) |
新药 | ||||
旧药 | ||||
合计 |
从数据看,新药有效率(60%)高于旧药(50%),但这是“真实差异”还是“抽样误差”需要卡方检验帮我们判断。
步骤一:假设“两组疗效相同”
如果新药和旧药疗效一样,那么两组的有效率都应该等于整体的平均有效率55%。这是我们的“零假设”(H₀):两组无差异。
步骤二:计算“理论频数”
在“疗效相同”的假设下:
新药组100人中,理论有效人数应为100×55%=55人,理论无效人数为100×45%=45人;
同理,旧药组100人中,理论有效人数为55人,理论无效人数为45人。
步骤三:计算“卡方值”
现在对比实际频数和理论频数:
对于新药的“有效”单元格,实际频数(A)为60,理论频数(T)为55,差值为60−55=5;对于新药的“无效”单元格,实际频数为40,理论频数为45,差值为40−45=−5;
旧药的“有效”单元格,实际频数为50,理论频数为55,差值为50−55=−5 ;旧药的“无效”单元格,实际频数为50,理论频数为45,差值为50−45=5。
上述差距只有两种可能:
抽样误差导致的偶然差距,实际和理论本无差异;
药物本身有效果不同,导致实际和理论出现系统性偏差。
此时就需要通过卡方检验给出判断依据,即将“实际观测值 (A)”与“理论值 (T)”进行对比。如果两组药物疗效真的没区别,那么A与T之间的差距应该很小,这种差距仅仅是由随机抽样引起的。为了量化这个差距,皮尔逊给出了如下公式:

其中,A是实际频数,T是理论频数。平方是为了消除正负抵消,除以理论频数是为了消除数值量级的影响。
最终得到的卡方值,就是衡量 “现实与理想吻合度” 的核心指标,卡方值越小,说明实际和理论越接近,差异越可能是抽样误差;卡方值越大,说明差异越显著。
本次示例中,将每个单元格的 (𝐴−𝑇)²/𝑇相加,即可得到卡方值:
χ²=(60-55)²/55 + (40-45)²/45 + (50-55)² /55 + (50-45)²/45 ≈ 2.02
通过查卡方分布表,我们可以判断这个差距是否具有统计学意义(SPSS会帮我们计算出这个χ²值和对应的P值)。


夜雨聆风