卡方检验简介
卡方检验 (Chi-Square Test) 是一种非参数假设检验方法,用于分析分类变量之间的关联性或拟合优度。它通过比较观测值与期望值之间的差异,来判断变量之间是否存在显著关联或数据是否符合某种理论分布。
卡方检验广泛应用于社会科学、医学、生物学等领域,例如检验性别与职业的关联性、药物疗效的显著性差异等。
卡方检验类型
卡方检验主要分为两种类型:
1. 卡方独立性检验 (Chi-Square Test of Independence)
用于检验两个分类变量之间是否存在关联性。例如,检验性别与是否喜欢某种产品的关联性。
2. 卡方拟合优度检验 (Chi-Square Goodness-of-Fit Test)
用于检验观察数据是否符合某种理论分布。例如,检验骰子是否均匀。
计算公式说明
卡方检验的核心公式是比较观测值 (O) 和期望值 (E) 的差异:
χ² = Σ[(O - E)² / E]
χ²
卡方统计量
O
观测值
E
期望值
Σ
求和符号
结果解读
卡方检验结果主要通过卡方值、自由度和显著性水平 (p值) 来解读:
-
卡方值 (Chi-Square Statistic)
卡方值越大,说明观测值与期望值的差异越大。
-
自由度 (Degrees of Freedom)
对于R×C列联表,自由度为:df = (R-1) × (C-1)。
-
显著性水平 (p-value)
如果p值 < 0.05,说明变量之间存在显著关联;如果p值 ≥ 0.05,说明变量之间没有显著关联。
常见问题 (FAQ)
卡方检验的适用条件是什么?
卡方检验适用条件:
- 所有单元格的期望值 (E) ≥ 5;
- 样本量足够大;
- 数据是分类变量。
如何确定自由度?
对于R行C列的列联表,自由度为:df = (R-1) × (C-1)。例如,2×2列联表的自由度为(2-1)×(2-1)=1。