卡方分布

4 minute read

Published:

前置知识:$k$ 维球面表面积公式

$k$ 维球面表面积 $S_{k-1}(r)$ 的公式为:

\[\boxed{ S_{k-1}(r) = \frac {2 \pi^{\frac k 2}} {\Gamma(\frac k 2)} r^{k-1} }\]

其中 $\Gamma$ 是 Gamma 函数。

$\Gamma$ 函数在半正整数处的值

$\Gamma(\frac k 2)$ 怎么算?对于 $k$ 是正整数的情况,我们可以显式写出公式:

\[\Gamma\left(\frac k 2 \right) = \begin{cases} \left(\frac k 2 - 1 \right)! & 2 \mid k \\ \frac {(k-2)!!} {2^{\frac {k-1} 2}} \sqrt \pi & 2 \nmid k \\ \end{cases}\]

当然一般来说更常见的写法是:

\[\Gamma\left(n + \frac 1 2 \right) = \frac {(2n-1)!!} {2^n} \sqrt \pi\]

卡分布 & 卡方分布

我们研究 $k$ 维的标准正态分布。

我们从这个分布中取一个样 $\vec{x}$。注意到正态分布有着各向同性的性质,因此方向没有意义,我们只研究模长 $\lVert \vec{x} \rVert$。

$\lVert \vec{x} \rVert$ 的 PDF 记作 $\chi(k)$,称为卡分布 (Chi distribution)。维数 $k$ 被称为自由度 (degree of freedom),也记作 $df$。

有时我们也想研究 $\lVert \vec{x} \rVert^2$ 的 PDF,因为这个值可以直接表示为坐标平方和而不用开根号,经常比直接算 $\lVert \vec{x} \rVert$ 要更好算。这个概率分布记作 $\chi^2(k)$,称为卡方分布 (Chi-squared distribution)

计算

卡分布的 PDF 非常好算:

\[\begin{aligned} f_\chi(r) =& \left( \frac 1 {(2 \pi)^{\frac k 2}} e^{- \frac {r^2} 2} \right) S_{k-1}(r) \\ =& \frac 1 {(2 \pi)^{\frac k 2}} \frac {2 \pi^{\frac k 2}} {\Gamma(\frac k 2)} r^{k-1} e^{- \frac {r^2} 2} \\ =& \boxed{\frac 1 {2^{\frac k 2 - 1} \Gamma(\frac k 2)} r^{k-1} e^{- \frac {r^2} 2}} \\ \end{aligned}\]

作一个 $r^2 = x$ 的换元,就可以算出卡方分布的 PDF:

\[g(r) dr = f(x) dx\] \[\begin{aligned} f_{\chi^2}(x) &= \frac {dr} {dx} g(r) \\ &= \frac 1 {2 \sqrt x} \times \frac 1 {2^{\frac k 2 - 1} \Gamma(\frac k 2)} x^{\frac {k-1} 2} e^{- \frac x 2} \\ &= \boxed{\frac 1 {2^{\frac k 2} \Gamma(\frac k 2)} x^{\frac k 2 - 1} e^{- \frac x 2}} \\ \end{aligned}\]

$k$ 不是正整数的情况没有良好的数学意义,但是在估算数据时是可取的。

$k$$f_k(x)$
$1$$\frac 1 {\sqrt {2 \pi}} x^{- \frac 1 2} e^{- \frac x 2}$
$2$$\frac 1 2 e^{- \frac x 2}$
$3$$\frac 1 {\sqrt {2 \pi}} x^{\frac 1 2} e^{- \frac x 2}$
$4$$\frac 1 4 x e^{- \frac x 2}$
$\vdots$$\vdots$

Chi-Square Test for Goodness-of-Fit

求「给定样本是否符合某分布」的问题,称为拟合优度 (Goodness-of-Fit) 检验

「Example 8.1」

已知有一帮人(共 $90$ 人)的生日分布如下:

生日1-3 月4-6 月7-9 月10-12 月
人数$34$$24$$13$$19$

是否拒绝 $H_0$:这些人的生日符合均匀分布。(显著性水平 $\alpha = 0.05$)

注:

  • 每个人的生日互相独立。
  • 认为样本数量($n = 90$)够大,可以使用 $n \to \infty$ 的方法。

我们使用 Pearson’s Chi-Square Test 的方法。Wiki

以每一维的期望值 $E_i$ 组成向量作为坐标系原点,将观测值 $O_i$ 标准化后看整个观测值向量离原点的距离,并查看其落在卡方分布中的位置。

可以证明,每一维的方差在大样本下为 $E_i$。标准化得:

\[z_i = \frac {O_i - E_i} {\sqrt {E_i}}\]

每一维平方后加起来,得到标准化后的观测值向量距离原点距离的平方,记为卡方统计量 $\chi^2$:

\[\chi^2 = \sum z_i^2 = \sum \frac {(O_i - E_i)^2} {E_i}\]

$\chi^2$ 近似服从卡方分布。

计算 $1$ 减 $\chi^2$ 处的卡方 CDF 值即可得到 $p$ 值。


计算出卡方统计量 $\chi^2 = \frac {158} {15} \approx 10.53$。接下来我们尝试计算 $p$ 值:在生日均匀分布的前提下,有多大概率取到 $10.53$ 以上的 $\chi^2$ 值。

这里有一个重要的问题:我们应该选取几维的卡方分布?很容易觉得,我们有 $4$ 个随机变量,应该用 $\chi^2(4)$。但实际上并非如此,因为这 $4$ 个随机变量不独立

可以证明,当样本大小固定(题目中的 $90$ 人)时,我们的样本落在一个 $4-1 = 3$ 维空间中,因此应该选取 $\chi^2(3)$。

$\chi^2(3)$ 的 PDF 为 $\frac 1 {\sqrt {2 \pi}} x^{\frac 1 2} e^{- \frac x 2}$,积分:

\[p = \int_{10.53}^\infty \frac 1 {\sqrt {2 \pi}} x^{\frac 1 2} e^{- \frac x 2} dx \approx 0.015 < \alpha\]

拒绝原假设 $H_0$。

关于自由度

已知

\[\sum_{i=1}^k O_i = \text{const}\]

那么

\[\sum_{i=1}^k \left( \frac {O_i - E_i} {\sqrt {E_i}} \right)^2 \overset{d}{\to} \chi^2(?)\]

首先把这个约束写为等价形式:

\[\sum_{i=1}^k O_i = \text{const} \implies \sum_{i=1}^k (O_i - E_i) = \text{const}\]

那么这个约束可以表示为:

\[\begin{bmatrix} 1 & 1 & 1 & 1 \\ \end{bmatrix} \begin{bmatrix} O_1 - E_1 \\ O_2 - E_2 \\ O_3 - E_3 \\ O_4 - E_4 \end{bmatrix} = [\text{const}]\]

令系数矩阵为 $A$,$\text{rank}(A) = 1$。令 $N(A)$ 为 $A$ 的 null space,$\dim N(A) = k - \text{rank}(A) = k - 1$。

这个 $k-1$ 维空间是随机向量 $O - E$ 所在的那个空间。它本来就只有 $k-1$ 个自由方向,我们看的是它在 $k$ 个方向上的投影。

可以证明,$O - E$ 在这个 $k-1$ 维空间中服从一个 $k-1$ 维的标准正态分布。

卡方统计量是一个模长,那么我们直接在 $k-1$ 维子空间里计算模长,答案不变。$k-1$ 维子空间里是正态分布,模长平方的分布为 $\chi^2(k-1)$。

一个做题常用的结论是:这种“不重不漏分 $k$ 类”的问题,自由度 $df = k-1$。

Chi-Square Test for Independence

我认为这属于 Chi-Square Test for Goodness-of-Fit 的一个应用。

「Example 8.3」

不同党派的人如何看待大麻合法化?SRS 抽样做了如下统计:

 YesNoNo OpinionTotals
民主党人$280$$110$$15$$405$
共和党人$155$$190$$10$$355$
独立人士$180$$45$$15$$240$
Totals$615$$345$$40$$1000$

是否拒绝 $H_0$:人们对大麻合法化的看法与所处的党派独立(显著性水平 $\alpha = 0.05$)。

  • 认为 $n = 1000$ 足够大,可以使用 $n \to \infty$ 的方法。

$H_0$ 下,概率分布应该是这样的:

 YesNoNo OpinionTotals
民主党人$ax$$bx$$cx$$x$
共和党人$ay$$by$$cy$$y$
独立人士$az$$bz$$cz$$z$
Totals$a$$b$$c$$1$

也就是说,我们只要通过普通的卡方检验,看看我们统计得到的数据符不符合这个分布。

以左上角的格子为例,计算这一格对卡方统计量的贡献:

\[E = \frac {405 \times 615} {1000} = 249.075\] \[\frac {(O - E)^2} E = \frac {(280 - E)^2} E \approx 35.5319\]

反复算 $9$ 次:

\[\sum \frac {(O_i - E_i)^2} {E_i} \approx 94.4971\]

这是几维的卡方?可以证明,对于一个 $r \times c$ 的表格:

\[\boxed{ df = (r-1) (c-1) }\]

代入 $r = 3, c = 3$ 得 $df = 4$。$\chi^2(4)$ 的 PDF 为 $\frac 1 4 x e^{- \frac x 2}$:

\[\int_{94.4971}^\infty \frac 1 4 x e^{- \frac x 2} dx \approx 1.46 \times 10^{-19} < \alpha\]

不拒绝 $H_0$。

关于自由度

我们依然去算系数矩阵的秩。

我们发现,由于每一行每一列的和固定,前 $(r-1) \times (c-1)$ 的范围随便乱填,最后一行与最后一列被锁死。因此秩为 $(r-1) \times (c-1)$。

Chi-Square Test for Homogeneity

不同总体是否有相同分布?其实这个问题很 trivial。

「Example 8.5」

在一个大城市里,一群 AP 统计学学生合作开展一个项目,旨在确定哪个学校员工群体对工作的满意度最高。他们抽取了独立的简单随机样本:

 教师行政人员清洁工秘书Total
满意$82$$38$$34$$36$$190$
不满意$18$$22$$11$$19$$70$
Total$100$$60$$45$$55$$260$

是否有确凿的证据表明,不同学校系统职位类别的员工对工作的满意度存在差异?即:

  • $H_0$:各个学校系统职位类别中,员工对工作的满意度比例相同。
  • $H_a$:至少有两个职位类别在员工对工作的满意度比例上存在差异。

$\alpha = 0.05$。

  • 认为 $n = 260$ 足够大,可以使用 $n \to \infty$ 的方法。

我们思考一下 $H_0$ 的本质是什么:「是否满意」与「职位」独立。

所以我们直接对这个表格做 Chi-Square Test for Independence 即可。计算过程省略。