正态分布

3 minute read

Published:

\[X \sim \mathcal N(\mu, \sigma^2)\]

一个 $\mathbb E[X] = \mu$ 且 $\text{Var}(X) = \sigma^2$ 的正态分布,其 PDF 定义为:

\[f(x) = \frac 1 {\sqrt{2 \pi \sigma^2}} \exp \left( -\frac {(x - \mu)^2} {2 \sigma^2} \right)\]

为什么有 $e^{-x^2}$ 的结构?

我们从一个比较现实的问题引入。

我有一个圆形靶子,我瞄准中心扔飞镖。我想描述我飞镖扔到的位置的概率分布。

我的飞镖满足以下性质:

  • 各向同性:即我的 PDF $f(x,y)$ 仅由落点离靶心的距离 $\sqrt{x^2 + y^2}$ 控制。
  • 各维相互独立:落点的横纵坐标 $x,y$ 相互独立。

btw,二维靶子并不特殊,只是更高维的靶子可以化为二维靶子的求解罢了。

根据第一条性质,我们可以写出 $f$ 是一个关于 $\sqrt{x^2 + y^2}$ 的函数 $g$:

\[f(x,y) = g(\sqrt{x^2 + y^2})\]

根据第二条性质,可知 $f(x,y)$ 可以被写为 $x$ 的 PDF 和 $y$ 的 PDF 的乘积(独立性的定义)。由于第一条性质,这两个 PDF 应该是一致的,记作 $h$:

\[f(x,y) = h(x) h(y)\]

问题变为解函数方程:

\[g(\sqrt{x^2 + y^2}) = h(x) h(y)\]

代特殊值 $y=0$,可知 $g(x) = h(0) h(x)$,也就是说 $g$ 和 $h$ 其实只差一个常数。令 $h(0) = C$,式子变为:

\[C \times h(\sqrt{x^2 + y^2}) = h(x) h(y)\]

这是一个 Cauchy 方程,它的性质良好的解为:

\[h(x) = C e^{ax^2}\]

其中 $a$ 是一个常数。

但是别忘了 $h$ 是一个 PDF,需要积分为 $1$。而 $a \ge 0$ 的情况积分不收敛。

这样我们就得到了正态分布的核心——钟形曲线

\[h(x) = C e^{-a x^2}\]

(现在 $a \ge 0$ 了)

这个最普适的形式是怎么来的?

熟知高斯积分公式

\[\int_{-\infty}^\infty e^{-x^2} dx = \sqrt \pi\]

根据 PDF 积分为 $1$,可知一个比较“标准”的正态分布 PDF 是:

\[f(x) = \frac 1 {\sqrt \pi} e^{-x^2}\]

计算其方差:

\[\begin{aligned} \text{Var}(X) =& \int_{-\infty}^\infty x^2 f(x) dx \\ =& \frac 1 {\sqrt \pi} \int_{-\infty}^\infty x^2 e^{-x^2} dx \end{aligned}\]

利用费曼积分法:

\[I(a) = \int_{-\infty}^\infty x^2 e^{-ax^2} dx = \sqrt{\frac \pi a}\] \[\begin{aligned} \text{Var}(X) &= - \frac 1 {\sqrt \pi} I'(1) \\ =& - \frac 1 {\sqrt \pi} \times - \frac {\sqrt \pi} 2 \\ =& \frac 1 2 \\ \end{aligned}\]

即方差 $\text{Var}(X) = \frac 1 2$。

根据标准正态分布的定义($\text{Var}(X) = 1$),我们换一个更加标准的分布:

\[f(x) = \frac 1 {\sqrt {2 \pi}} \exp \left( - \frac {x^2} 2 \right)\]

再把 $\frac {x - \mu} \sigma$ 换进去,也就得到了最经典的:

\[f(x) = \frac 1 {\sqrt{2 \pi \sigma^2}} \exp \left( -\frac {(x - \mu)^2} {2 \sigma^2} \right)\]

正态分布的卷积性质

$X \sim \mathcal N(\mu_1, \sigma_1^2)$,$Y \sim \mathcal N(\mu_2, \sigma_2^2)$,且 $X,Y$ 独立。

则 $X+Y \sim \mathcal N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)$,即正态分布对卷积运算封闭

证明:先看一个简单的情况:$\mu_1 = \mu_2 = 0$ 且 $\sigma_1 = \sigma_2$。

把这两个分布画成一个二维分布,应该是一个很圆的东西。根据前面说的各向同性,它的任何剖面都是一个正态分布。

注意到卷积的结果就是对每条“等 $x+y$ 线”下的面积做积分(还要除以 $\sqrt 2$,因为从黎曼和的角度看,$\Delta x$ 被拉长了 $\sqrt 2$ 倍),因此本质是与“等 $x+y$ 线”垂直的剖面。因此标准差相等的正态分布在卷积后还是正态分布,标准差变为原来的 $\sqrt 2$ 倍。

对于普通情况,我们考虑做一个坐标变换:$U = \frac {X - \mu_1} {\sigma_1}$ 和 $V = \frac {Y - \mu_2} {\sigma_2}$,此时 $U,V$ 回到了刚才的问题。

$X + Y = (\mu_1 + \mu_2) + (\sigma_1 U + \sigma_2 V)$,在 $U,V$ 坐标系中沿着“等 $\sigma_1 U + \sigma_2 V$ 线”的垂直方向取剖面即可,标准差是 $\sqrt{\sigma_1^2 + \sigma_2^2}$。

中心极限定理 CLT

前提:随机变量 $X_1, X_2, \cdots, X_N$ 独立同分布(i.i.d., 即 independent and identically distributed),具有有限的期望 $\mathbb E[X_i] = \mu$ 和标准差 $\sqrt{\text{Var}(X_i)} = \sigma$。

结论:则 $N \to \infty$ 时 $\sum\limits_{i=1}^N X_i$ 的分布“趋于”一个钟形曲线

具体来说,求其 z-score:

\[z = \frac {\sum\limits_{i=1}^N X_i - N \mu} {\sqrt N \sigma}\]

即我们强行把它变为一个一个期望为 $0$ 方差为 $1$ 的分布,则它应该趋于 $\mathcal N(0,1)$:

\[\lim\limits_{N \to \infty} P(z \in (l,r]) = \int_l^r \frac 1 {\sqrt {2 \pi}} \exp \left( - \frac {x^2} 2 \right) dx\]

证明略去,因为我不会。感性理解的话,一个分布不断和自己卷积,会把自己磨光。而正态分布和自己卷积还是正态分布,说明正态分布是最“光滑”的函数,各种性质足够好的分布不断磨光都会收敛到正态分布。

这个定理揭示了为什么正态分布如此常见且重要。即使原始变量自身不遵循正态分布,但是反复取样的叠加依然会趋向于正态分布。

其实这个定理还有更广泛的形式,见 Wikipedia 的词条。比如在特定条件下即使不满足“同分布”这一性质,最终也能显现出正态分布。

Inflection Point

钟形曲线的拐点出现在 $\mu \pm \sigma$ 的两个位置。

\[\frac {d^2} {dx^2} \left( \frac 1 {\sqrt {2 \pi}} e^{- \frac {x^2} 2}\right) = (x^2 - 1) \times \frac 1 {\sqrt {2 \pi}} e^{- \frac {x^2} 2}\]

数值小结论:$3 \sigma$ 原则

随机变量 $X \sim \mathcal N(\mu, \sigma^2)$。

  • $P(X \in (\mu-\sigma, \mu+\sigma )) \approx \boxed{68\%}$;
  • $P(X \in (\mu-2\sigma, \mu+2\sigma)) \approx \boxed{95\%}$;
  • $P(X \in (\mu-3\sigma, \mu+3\sigma)) \approx \boxed{99.7\%}$。

可以认为,随机变量取值几乎全部集中在 $(μ-3σ,μ+3σ)$ 区间内,超出这个范围的可能性仅占不到 $0.3\%$。

多元正态分布

TODO: 一个满足正态分布的随机向量 $\vec{x}$ 满足期望为 $\vec{\mu}$ 且协方差矩阵为 $\Sigma$,则其 PDF 为:

\[f(\vec{x}) = \frac 1 {\sqrt{2 \pi \lvert \Sigma \rvert}} \exp \left( - \frac 1 2 (\vec{x} - \vec{\mu})^T \Sigma^{-1} (\vec{x} - \vec{\mu}) \right)\]

总结

  • 正态分布满足
    • 各向同性
    • 各维相互独立
  • 遇到正态分布的问题时,我们一定要考虑其各向同性的本质。
    • 高斯积分使用极坐标的推导,本质也是使用了钟形曲面的各向同性。
    • 卷积封闭性是各向同性的直接推论,而 CLT 是卷积封闭性的体现。
    • 遇到卡方分布问题时,我们也会秉持这一原则。TODO: 放链接

References

感谢 3B1B 的视频: