Student t 分布

4 minute read

Published: February 24, 2026

Student $t$ 分布的定义

上回书聊置信区间时说到：对于独立的 $x_1, \cdots, x_n \sim \mathcal N(\mu, \frac \sigma {\sqrt n})$，

\[\boxed{ \frac {\bar x - \mu} {\sigma / \sqrt n} \sim \mathcal N(0,1) \implies \frac {\bar x - \mu} {s / \sqrt n} \sim t_{n-1} }\]

我们知道对于正态分布，$\bar x$ 与 $s$ 是独立的随机变量，而 $(n-1) \frac {s^2} {\sigma^2} \sim \chi^2(n-1)$。

\[\frac {\bar x - \mu} {s / \sqrt n} = \frac {\frac {\bar x - \mu} {\sigma / \sqrt n}} {\sqrt{\frac{(n-1) \frac {s^2} {\sigma^2}} {n-1}}} \sim t_{n-1}\]

因此我们也可以这么定义 $t$ 分布：

对于两个独立随机变量 $Z \sim \mathcal N(0, 1), V \sim \chi^2(\nu)$，则

\[\boxed{ T = \frac Z {\sqrt{\frac V \nu}} \sim t_\nu }\]

和卡方分布一样，$\nu$ 被称为自由度。

$t$ 分布会比正态分布尾巴更大一点，看起来也就更扁一点。

PDF

我们直接略去繁杂的证明，给出自由度为 $\nu$ 的 $t$ 分布的 PDF：

\[\boxed{ f_{\nu}(x) = \frac 1 {\sqrt \nu B(\frac \nu 2, \frac 1 2)} \left(\frac \nu {\nu + x^2} \right)^{\frac {\nu+1} 2} }\]

注意到其只和 $x^2$ 有关，因此：

$f(x)$ 关于 $x=0$ 对称。
在 $\nu$ 是正整数的时候，PDF 的积分（即 CDF）总是初等的。

和卡方分布一样，$\nu$ 不是正整数的情况没有良好的数学意义，但是在估算数据时是可取的。

$\nu$	$f_\nu(x)$
$1$	$\frac 1 {\pi (1 + x^2)}$
$2$	$\frac 1 {(2 + x^2)^{\frac 3 2}}$
$3$	$\frac {6 \sqrt 3} {\pi (3 + x^2)^2}$
$4$	$\frac {12} {(4 + x^2)^{\frac 5 2}}$
$\vdots$	$\vdots$
$\infty$	$\frac 1 {\sqrt{2 \pi}} e^{- \frac {x^2} 2}$

当 $\nu \to \infty$ 时，t 分布趋于正态分布。

One-sample $t$-test

此例题来自 ChatGPT。
你从一个正态总体中抽取了 $n=5$ 个值的样本，统计出 $\bar x = 82.1$，$s = 4.8$。
是否拒绝：$H_0$：$\mu = \mu_0 = 80$。
总体平均 $\mu$ 的一个 $95\%$ 置信区间。

第一问：

\[t = \frac {\bar x - \mu_0} {s / \sqrt n} = \frac {82.1 - 80} {4.8 / \sqrt 5} \approx 0.978\]

$n=5$ 对应的自由度 $\nu = n-1 = 4$（PDF 为 $\frac {12} {(4 + x^2)^{\frac 5 2}}$）：

\[\begin{aligned} p =& P(\lvert t \rvert > 0.978) \\ =& 2 P(t > 0.978) \\ =& 2 \int_{0.978}^\infty \frac {12} {(4 + x^2)^{\frac 5 2}} dx \\ \approx & 0.383 > \alpha \\ \end{aligned}\]

不拒绝 $H_0$。

第二问：

\[\widehat{\text{SE}}(\bar x) = \frac s {\sqrt n} \approx 2.147\] \[t^* = \text{invT}_4\left( 1 - \frac {0.05} 2 \right) \approx 2.776\] \[t^* \times \widehat{\text{SE}}(\bar x) \approx 5.960\]

置信区间即为

\[\boxed{ 82.1 \pm 5.96 }\]

Two-sample $t$-test

已知 $\sigma_1^2 = \sigma_2^2$ 对 $\mu_1 - \mu_2$ 的 $t$ 检验

AP 好像不考？

\[\text{SE}(\bar x - \bar y) = \sqrt{\frac {\sigma^2} {n_1} + \frac {\sigma^2} {n_2}} = \sigma \sqrt{\frac 1 {n_1} + \frac 1 {n_2}}\]

把合起来的标准差直接代入：

\[s = \frac {(n_1 - 1) s_1^2 + (n_2 - 1) s_2^2} {(n_1 - 1) + (n_2 - 1)} \implies \widehat{\text{SE}}(\bar x - \bar y) = s \sqrt{\frac 1 {n_1} + \frac 1 {n_2}}\]

可以发现这样得到的统计量 $T$ 依然是符合 $t$ 分布的：

\[T = \frac {\frac {(\bar x - \bar y) - (\mu_1 - \mu_2)} {\sigma \sqrt{\frac 1 {n_1} + \frac 1 {n_2}}}} {\sqrt{\frac {(n_1 - 1) \frac {s_1^2} {\sigma^2} + (n_2 - 1) \frac {s_2^2} {\sigma^2}} {(n_1 - 1) + (n_2 - 1)}}} \sim t_{(n_1 - 1) + (n_2 - 1)}\]

Behrens–Fisher Problem

Wiki

有两个正态总体 $\mathcal N(\mu_1, \sigma_1^2)$ 和 $\mathcal N(\mu_2, \sigma_2^2)$。你从两个总体分别取了两个样本：$x_1, \cdots, x_{n_1}$ 和 $y_1, \cdots, y_{n_2}$。
你不知道 $\mu_1, \mu_2, \sigma_1, \sigma_2$ 的任何一个参数。不保证 $\sigma_1^2 = \sigma_2^2$。
是否拒绝：$H_0: \mu_1 = \mu_2$。（给定显著性水平 $\alpha$）

\[\widehat{\text{SE}}(\bar x - \bar y) = \sqrt{\frac {s_1^2} {n_1} + \frac {s_2^2} {n_2}}\]

根据 t 检验的思路，我希望求出以下统计量的分布：

\[T = \frac {\bar x - \bar y} {\widehat{\text{SE}}(\bar x - \bar y)}\]

但是这个问题极难处理，是一个未解决问题。ChatGPT 声称这是一个理论上就不可解的问题。

统计学家们开发了很多近似计算方法。以下介绍一个考试会用的 Welch’s $t$-test。

Welch’s $t$-test

Wiki

我们认为，$T$ 近似服从一个自由度为 $\nu$ 的 $t$ 分布：

\[T \sim t_\nu\]

$\nu$ 的计算方法如下：设 $a = \frac {s_1^2} {n_1}$ 和 $b = \frac {s_2^2} {n_2}$，分别为两组均值方差的估计。

\[\nu = \frac {(a + b)^2} {\frac {a^2} {n_1 - 1} + \frac {b^2} {n_2 - 1}}\]

对于 $n_1 = n_2$ 的情况，有简化公式：

\[\nu = (n-1) \frac {(s_1^2 + s_2^2)^2} {s_1^4 + s_2^4}\]

注意 $\nu$ 很可能不是整数。

例题

「Example 7.6」
一位社会学家随机抽取了 $30$ 名大学教授和 $30$ 名警察，调查他们计划的退休年龄。在大学教授的样本中，平均计划退休年龄为 $66$ 岁，标准差为 $3.5$；而在警察的样本中，平均计划退休年龄为 $55$ 岁，标准差为 $5.1$。
确定大学教授和警察平均计划退休年龄之差的（近似）$95\%$ 置信区间。
两组样本中的所有数据独立。
二项分布足够大，可以使用正态分布的方法。
使用 Welch’s t-test。

\[\begin{aligned} \nu = & (n-1) \frac {(s_1^2 + s_2^2)^2} {s_1^4 + s_2^4} \\ =& (30 - 1) \frac {(3.5^2 + 5.1^2)^2} {3.5^4 + 5.1^4} \\ \approx & 51.3572 \\ \end{aligned}\] \[\text{invT}_{51.3572}\left( \frac {1 - 95\%} 2 \right) \approx 2.00724\] \[\begin{aligned} & 11 \pm 2.00724 \times 1.12931 \\ \approx & 11 \pm 2.26679 \\ = & [8.73321, 13.2668] \\ \end{aligned}\]

对于 TI-NSpire 计算器，有一个捷径：tInterval_2Samp 选择“统计”，输入 $\bar x_1, s_1, n_1, \bar x_2, s_2, n_2$，即可获得全部数据：

$[\text{CLower}, \text{CUpper}]$ 是置信区间。
$\bar x \text{Diff}$ 是 $\bar x_1 - \bar x_2$。
$\text{ME}$ 是 Margin of Error。

Paired $t$-test

「Example 7.9」
一个由随机抽取的 $30$ 名学生组成的 SAT 备考班，其总分汇总如下：
First Score Second Score Improvement
Mean $1093.33$ $1135.58$ $42.25$
Standard Deviation $87.76$ $85.73$ $27.92$
求测试分数平均提高幅度的 $90\%$ 置信区间。
认为该二项分布足够大，可以看作正态分布。

	First Score	Second Score	Improvement
Mean	$1093.33$	$1135.58$	$42.25$
Standard Deviation	$87.76$	$85.73$	$27.92$

用双总体的方法是错的！因为两总体不独立——每个学生第一次和第二次的成绩肯定是相关联的。

利用 $\bar x = 42.25$ 与 $s = 27.92$ 作普通的 $t$ 检验即可。略去。

Share on

Bluesky Facebook LinkedIn X (formerly Twitter)

Xinyuan Mao

Student t 分布

Student $t$ 分布的定义

PDF

One-sample $t$-test

Two-sample $t$-test

已知 $\sigma_1^2 = \sigma_2^2$ 对 $\mu_1 - \mu_2$ 的 $t$ 检验

Behrens–Fisher Problem

Welch’s $t$-test

例题

Paired $t$-test

Share on

You May Also Enjoy

TestPost

最小二乘法斜率分布

卡方分布

推断