卡方分布

4 minute read

Published: February 25, 2026

前置知识：$k$ 维球面表面积公式

$k$ 维球面表面积 $S_{k-1}(r)$ 的公式为：

\[\boxed{ S_{k-1}(r) = \frac {2 \pi^{\frac k 2}} {\Gamma(\frac k 2)} r^{k-1} }\]

其中 $\Gamma$ 是 Gamma 函数。

$\Gamma$ 函数在半正整数处的值

$\Gamma(\frac k 2)$ 怎么算？对于 $k$ 是正整数的情况，我们可以显式写出公式：

\[\Gamma\left(\frac k 2 \right) = \begin{cases} \left(\frac k 2 - 1 \right)! & 2 \mid k \\ \frac {(k-2)!!} {2^{\frac {k-1} 2}} \sqrt \pi & 2 \nmid k \\ \end{cases}\]

当然一般来说更常见的写法是：

\[\Gamma\left(n + \frac 1 2 \right) = \frac {(2n-1)!!} {2^n} \sqrt \pi\]

卡分布 & 卡方分布

我们研究 $k$ 维的标准正态分布。

我们从这个分布中取一个样 $\vec{x}$。注意到正态分布有着各向同性的性质，因此方向没有意义，我们只研究模长 $\lVert \vec{x} \rVert$。

$\lVert \vec{x} \rVert$ 的 PDF 记作 $\chi(k)$，称为卡分布 (Chi distribution)。维数 $k$ 被称为自由度 (degree of freedom)，也记作 $df$。

有时我们也想研究 $\lVert \vec{x} \rVert^2$ 的 PDF，因为这个值可以直接表示为坐标平方和而不用开根号，经常比直接算 $\lVert \vec{x} \rVert$ 要更好算。这个概率分布记作 $\chi^2(k)$，称为卡方分布 (Chi-squared distribution)。

计算

卡分布的 PDF 非常好算：

\[\begin{aligned} f_\chi(r) =& \left( \frac 1 {(2 \pi)^{\frac k 2}} e^{- \frac {r^2} 2} \right) S_{k-1}(r) \\ =& \frac 1 {(2 \pi)^{\frac k 2}} \frac {2 \pi^{\frac k 2}} {\Gamma(\frac k 2)} r^{k-1} e^{- \frac {r^2} 2} \\ =& \boxed{\frac 1 {2^{\frac k 2 - 1} \Gamma(\frac k 2)} r^{k-1} e^{- \frac {r^2} 2}} \\ \end{aligned}\]

作一个 $r^2 = x$ 的换元，就可以算出卡方分布的 PDF：

\[g(r) dr = f(x) dx\] \[\begin{aligned} f_{\chi^2}(x) &= \frac {dr} {dx} g(r) \\ &= \frac 1 {2 \sqrt x} \times \frac 1 {2^{\frac k 2 - 1} \Gamma(\frac k 2)} x^{\frac {k-1} 2} e^{- \frac x 2} \\ &= \boxed{\frac 1 {2^{\frac k 2} \Gamma(\frac k 2)} x^{\frac k 2 - 1} e^{- \frac x 2}} \\ \end{aligned}\]

$k$ 不是正整数的情况没有良好的数学意义，但是在估算数据时是可取的。

$k$	$f_k(x)$
$1$	$\frac 1 {\sqrt {2 \pi}} x^{- \frac 1 2} e^{- \frac x 2}$
$2$	$\frac 1 2 e^{- \frac x 2}$
$3$	$\frac 1 {\sqrt {2 \pi}} x^{\frac 1 2} e^{- \frac x 2}$
$4$	$\frac 1 4 x e^{- \frac x 2}$
$\vdots$	$\vdots$

Chi-Square Test for Goodness-of-Fit

求「给定样本是否符合某分布」的问题，称为拟合优度 (Goodness-of-Fit) 检验。

「Example 8.1」
已知有一帮人（共 $90$ 人）的生日分布如下：
生日 1-3 月 4-6 月 7-9 月 10-12 月
人数 $34$ $24$ $13$ $19$
是否拒绝 $H_0$：这些人的生日符合均匀分布。（显著性水平 $\alpha = 0.05$）
注：
每个人的生日互相独立。
认为样本数量（$n = 90$）够大，可以使用 $n \to \infty$ 的方法。

生日	1-3 月	4-6 月	7-9 月	10-12 月
人数	$34$	$24$	$13$	$19$

我们使用 Pearson’s Chi-Square Test 的方法。Wiki

以每一维的期望值 $E_i$ 组成向量作为坐标系原点，将观测值 $O_i$ 标准化后看整个观测值向量离原点的距离，并查看其落在卡方分布中的位置。

可以证明，每一维的方差在大样本下为 $E_i$。标准化得：

\[z_i = \frac {O_i - E_i} {\sqrt {E_i}}\]

每一维平方后加起来，得到标准化后的观测值向量距离原点距离的平方，记为卡方统计量 $\chi^2$：

\[\chi^2 = \sum z_i^2 = \sum \frac {(O_i - E_i)^2} {E_i}\]

$\chi^2$ 近似服从卡方分布。

计算 $1$ 减 $\chi^2$ 处的卡方 CDF 值即可得到 $p$ 值。

计算出卡方统计量 $\chi^2 = \frac {158} {15} \approx 10.53$。接下来我们尝试计算 $p$ 值：在生日均匀分布的前提下，有多大概率取到 $10.53$ 以上的 $\chi^2$ 值。

这里有一个重要的问题：我们应该选取几维的卡方分布？很容易觉得，我们有 $4$ 个随机变量，应该用 $\chi^2(4)$。但实际上并非如此，因为这 $4$ 个随机变量不独立。

可以证明，当样本大小固定（题目中的 $90$ 人）时，我们的样本落在一个 $4-1 = 3$ 维空间中，因此应该选取 $\chi^2(3)$。

$\chi^2(3)$ 的 PDF 为 $\frac 1 {\sqrt {2 \pi}} x^{\frac 1 2} e^{- \frac x 2}$，积分：

\[p = \int_{10.53}^\infty \frac 1 {\sqrt {2 \pi}} x^{\frac 1 2} e^{- \frac x 2} dx \approx 0.015 < \alpha\]

拒绝原假设 $H_0$。

关于自由度

已知
\[\sum_{i=1}^k O_i = \text{const}\]
那么
\[\sum_{i=1}^k \left( \frac {O_i - E_i} {\sqrt {E_i}} \right)^2 \overset{d}{\to} \chi^2(?)\]

首先把这个约束写为等价形式：

\[\sum_{i=1}^k O_i = \text{const} \implies \sum_{i=1}^k (O_i - E_i) = \text{const}\]

那么这个约束可以表示为：

\[\begin{bmatrix} 1 & 1 & 1 & 1 \\ \end{bmatrix} \begin{bmatrix} O_1 - E_1 \\ O_2 - E_2 \\ O_3 - E_3 \\ O_4 - E_4 \end{bmatrix} = [\text{const}]\]

令系数矩阵为 $A$，$\text{rank}(A) = 1$。令 $N(A)$ 为 $A$ 的 null space，$\dim N(A) = k - \text{rank}(A) = k - 1$。

这个 $k-1$ 维空间是随机向量 $O - E$ 所在的那个空间。它本来就只有 $k-1$ 个自由方向，我们看的是它在 $k$ 个方向上的投影。

可以证明，$O - E$ 在这个 $k-1$ 维空间中服从一个 $k-1$ 维的标准正态分布。

卡方统计量是一个模长，那么我们直接在 $k-1$ 维子空间里计算模长，答案不变。$k-1$ 维子空间里是正态分布，模长平方的分布为 $\chi^2(k-1)$。

一个做题常用的结论是：这种“不重不漏分 $k$ 类”的问题，自由度 $df = k-1$。

Chi-Square Test for Independence

我认为这属于 Chi-Square Test for Goodness-of-Fit 的一个应用。

「Example 8.3」
不同党派的人如何看待大麻合法化？SRS 抽样做了如下统计：
Yes No No Opinion Totals
民主党人 $280$ $110$ $15$ $405$
共和党人 $155$ $190$ $10$ $355$
独立人士 $180$ $45$ $15$ $240$
Totals $615$ $345$ $40$ $1000$
是否拒绝 $H_0$：人们对大麻合法化的看法与所处的党派独立（显著性水平 $\alpha = 0.05$）。
认为 $n = 1000$ 足够大，可以使用 $n \to \infty$ 的方法。

	Yes	No	No Opinion	Totals
民主党人	$280$	$110$	$15$	$405$
共和党人	$155$	$190$	$10$	$355$
独立人士	$180$	$45$	$15$	$240$
Totals	$615$	$345$	$40$	$1000$

$H_0$ 下，概率分布应该是这样的：

	Yes	No	No Opinion	Totals
民主党人	$ax$	$bx$	$cx$	$x$
共和党人	$ay$	$by$	$cy$	$y$
独立人士	$az$	$bz$	$cz$	$z$
Totals	$a$	$b$	$c$	$1$

也就是说，我们只要通过普通的卡方检验，看看我们统计得到的数据符不符合这个分布。

以左上角的格子为例，计算这一格对卡方统计量的贡献：

\[E = \frac {405 \times 615} {1000} = 249.075\] \[\frac {(O - E)^2} E = \frac {(280 - E)^2} E \approx 35.5319\]

反复算 $9$ 次：

\[\sum \frac {(O_i - E_i)^2} {E_i} \approx 94.4971\]

这是几维的卡方？可以证明，对于一个 $r \times c$ 的表格：

\[\boxed{ df = (r-1) (c-1) }\]

代入 $r = 3, c = 3$ 得 $df = 4$。$\chi^2(4)$ 的 PDF 为 $\frac 1 4 x e^{- \frac x 2}$：

\[\int_{94.4971}^\infty \frac 1 4 x e^{- \frac x 2} dx \approx 1.46 \times 10^{-19} < \alpha\]

不拒绝 $H_0$。

关于自由度

我们依然去算系数矩阵的秩。

我们发现，由于每一行每一列的和固定，前 $(r-1) \times (c-1)$ 的范围随便乱填，最后一行与最后一列被锁死。因此秩为 $(r-1) \times (c-1)$。

Chi-Square Test for Homogeneity

不同总体是否有相同分布？其实这个问题很 trivial。

「Example 8.5」
在一个大城市里，一群 AP 统计学学生合作开展一个项目，旨在确定哪个学校员工群体对工作的满意度最高。他们抽取了独立的简单随机样本：
教师行政人员清洁工秘书 Total
满意 $82$ $38$ $34$ $36$ $190$
不满意 $18$ $22$ $11$ $19$ $70$
Total $100$ $60$ $45$ $55$ $260$
是否有确凿的证据表明，不同学校系统职位类别的员工对工作的满意度存在差异？即：
$H_0$：各个学校系统职位类别中，员工对工作的满意度比例相同。
$H_a$：至少有两个职位类别在员工对工作的满意度比例上存在差异。
$\alpha = 0.05$。
认为 $n = 260$ 足够大，可以使用 $n \to \infty$ 的方法。

	教师	行政人员	清洁工	秘书	Total
满意	$82$	$38$	$34$	$36$	$190$
不满意	$18$	$22$	$11$	$19$	$70$
Total	$100$	$60$	$45$	$55$	$260$

我们思考一下 $H_0$ 的本质是什么：「是否满意」与「职位」独立。

所以我们直接对这个表格做 Chi-Square Test for Independence 即可。计算过程省略。

Share on

Bluesky Facebook LinkedIn X (formerly Twitter)

Xinyuan Mao

卡方分布

前置知识：$k$ 维球面表面积公式

$\Gamma$ 函数在半正整数处的值

卡分布 & 卡方分布

计算

Chi-Square Test for Goodness-of-Fit

关于自由度

Chi-Square Test for Independence

关于自由度

Chi-Square Test for Homogeneity

Share on

You May Also Enjoy

TestPost

最小二乘法斜率分布

Student t 分布

推断