推断
Published:
置信区间
我有一个(连续的)总体参数 $\theta$,我们取样本 $X$ 后通过某种方式估计它的值为 $\hat \theta$。怎么描述这个估计有多准呢?
我们没有办法说 $\theta = \hat \theta$ 的概率是多少——一个点的概率没有意义。我们只能说,对于一个 $\hat \theta$ 附近的区间 $[l, r]$(其中 $l,r$ 是关于 $X$ 的函数,是随机变量),$\theta \in [l, r]$ 的概率是 $p$。
确切地说,对于任意 $\theta$,若我们无数次取样 $X$(样本之间独立),对应的 $[l,r]$ 成功覆盖到 $\theta$ 的概率是:
\[P(\theta \in [l(X), r(X)]), \text{where } X \text{ is random}\]这个概率被称为置信区间 (confidence interval) $[l,r]$ 的置信水平 (confidence level),我们说我们有 $p$ 的信心让 $[l,r]$ 覆盖 $\theta$。
在统计学的习惯中,我们往往更关心覆盖不到的概率,称为显著性水平 (significance level),记作 $\alpha$:
\[\boxed{ \alpha = P(\theta \not \in [l(X), r(X)]) }\]对称分布下的置信区间
若 $\hat \theta$ 服从关于 $\theta$ 对称的分布,我们一般用以下格式描述置信区间:
\[\hat \theta \pm \text{margin of error}\]众所周知,统计学很喜欢用标准差来描述东西。对于 $\text{margin of error}$ 的范围,我们可以把它写成一个 z-score:
\[P\left( \frac {\hat \theta - \theta} {\text{SD}(\hat \theta)} \in [-k^*, k^*] \right) \overset{?}{=} 1 - \alpha\]但是很遗憾,$\text{SD}(\hat \theta)$ 的确切值也经常是未知的。因此我们只能使用估计的标准差 $\widehat{\text{SD}}(\hat \theta)$,称为标准误,记作 $\text{SE}(\hat \theta)$:
\[P\left( \frac {\hat \theta - \theta} {\text{SE}(\hat \theta)} \in [-k^*, k^*] \right) = 1 - \alpha\]置信区间即为:
\[\hat \theta \pm k^* \times \text{SE}(\hat \theta)\]$\text{SD}, \text{SE}$ 的概念依然没搞清楚?
我觉得一个例子就能讲清楚:
\[\begin{cases} \text{SD}(x) = \sigma \\ \widehat{\text{SD}}(x) = s \\ \text{SD}(\bar x) = \frac \sigma {\sqrt n} \\ \widehat{\text{SD}}(\bar x) = \text{SE}(\bar x) = \frac s {\sqrt n} \\ \end{cases}\]容易犯的错误
- 对于这次算出来的 $[l,r]$,真实 $\theta$ 有 $1 - \alpha$ 的概率落在 $[l,r]$ 内?
- 真实 $\theta$ 不是随机变量,这次算出来的置信区间也不是随机变量,根本没有概率这一说,要说也就只有 $0$ 或 $1$。这个是或否是确定的,只是我们不知道。
- 对于这次算出来的 $[l,r]$,我以后重复好多次实验,$\theta$ 有 $1 - \alpha$ 的概率落在 $[l,r]$ 内?
- $[l,r]$ 只是基于这个样本算出来的,和其他样本没有关系。
常用 $\text{SE}$ 计算
均值
\[\text{SD}(\bar x) = \frac \sigma {\sqrt n} \implies \text{SE}(\bar x) = \frac s {\sqrt n}\]由于 $\text{SD}$ 与总体参数 $\sigma$ 直接相关,不可能求得。因此只能退而求其次,把样本标准差 $s$ 直接代入 $\sigma$ 得到一个估计值 $\text{SE}$。
此时分布会发生变化,从正态分布变成 $n-1$ 维的 Student $t$ 分布:
\[\frac {\bar x - \mu} {\text{SD}(\bar x)} \sim \mathcal N(0, 1) \implies \frac {\bar x - \mu} {\text{SE}(\bar x)} \sim \mathcal t_{n-1}\]事实上这就是 $t$ 分布的定义。具体内容见 $t$ 分布那篇文章。
比例
\[\text{SD}(\hat p) = \sqrt{\frac {p (1 - p)} n} \implies \text{SE}(\hat p) = \sqrt{\frac {\hat p (1 - \hat p)} n}\]由于 $\text{SD}$ 与要求的 $p$ 直接相关,不可能求得。因此只能退而求其次,把 $\hat p$ 直接代入 $p$ 得到一个估计值 $\text{SE}$。
ChatGPT 称,这种直接代入对于小样本确实有问题,但是可以证明渐进意义下,即 $n \to \infty$ 时是正确的。Wiki
比例的差
\[\begin{aligned} & \text{SD}(\hat p_1 - \hat p_2) = \sqrt{\frac {p_1 (1 - p_1)} {n_1} + \frac {p_2 (1 - p_2)} {n_2}} \\ \implies & \text{SE}(\hat p_1 - \hat p_2) = \sqrt{\frac {\hat p_1 (1 - \hat p_1)} {n_1} + \frac {\hat p_2 (1 - \hat p_2)} {n_2}} \\ \end{aligned}\]和上面那个同理。
显著性
$H_0$ 与 $H_a$
一般来说,对于一个问题我们会有一个默认立场。比如,对于一种药的药效,我们的默认立场可以是「药无效」。默认立场也叫做零假设 (null hypothesis),记作 $H_0$。零假设中经常使用等号来代表「无差异」。比如,用了药的效果等于没用药的效果。
与零假设相对的是备择假设 (alternative hypothesis),记作 $H_a$。备择假设中经常使用不等号来代表「有差异」。
数学上说,$H_0$ 和 $H_a$ 的地位是相同的。但是实践中,我们往往把希望否决的立场放在 $H_0$,把希望得到的立场放在 $H_a$。因此,我们从来不说「接受 $H_0$」,我们只说「拒绝 $H_0$」或「不拒绝 $H_0$」。
$p$-value
怎么根据手上的证据,判断要不要拒绝 $H_0$?
我们计算当 $H_0$ 为真的前提下,出现更「离谱」结果的概率,称为 $p$-value,符号用 $p$ 表示。注意「离谱」是人为定义的标准,在不同方法下离谱的程度不同,一般往 $H_a$ 的方向是离谱的。
当「$p$-value 非常小」的时候,说明出现更离谱结果的概率非常小,即若 $H_0$ 为真的话我们手上的结果已经非常离谱了,此时拒绝 $H_0$。
什么叫「$p$-value 非常小」?我们可以人为设定一个 $p$-value 的上限 $\alpha$ 称为显著性水平(往往是 $5\%$ 之类的很小的数字),若 $p < \alpha$ 我们就认为 $p$ 非常小。
$\alpha$ 也可以理解为:「$H_0$ 明明是对的但是我误判把它判错了」的概率。这种误判被称为第一类错误 (Type I Error)。
\[\alpha = P(\text{reject } H_0 \mid H_0 \text{ is true})\]反过来,「$H_0$ 明明是错的但是我误判把它判对了」被称为第二类错误 (Type II Error),发生概率记作 $\beta$。
\[\beta = P(\text{fail to reject } H_0 \mid H_0 \text{ is false})\]| $H_0$ 是对的 | $H_0$ 是错的 | |
|---|---|---|
| 拒绝 $H_0$ | Type I Error ($\alpha$) | Correct decision ($1 - \beta$) |
| 不拒绝 $H_0$ | Correct decision ($1 - \alpha$) | Type II Error ($\beta$) |
注意,$\alpha$ 是我们人为预先设定的固定值,但是 $\beta$ 不是固定值,而是一个关于总体参数的函数(不同的总体参数会带来不同的 $\beta$ 值)。
在样本量不变的情况下,$\alpha$ 越小 $\beta$ 越大。
不犯第二类错误的概率被称为统计功效 / 检验功效 (power of the test):
\[\text{power} = P(\text{reject } H_0 \mid H_0 \text{ is false}) = 1 - \beta\]与置信区间的联系
前文中置信区间的显著性水平和此处 $p$-value 相关的显著性水平是同一个东西。置信区间的显著性水平 $\alpha$,就是它长期中覆盖不到 $H_0$ 假设值的概率。
若一个关于 $\theta$ 的显著性水平为 $\alpha$ 的置信区间包含了 $\hat \theta$,则没有足够证据拒绝 $H_0$;反之亦然。
例题
「Example 6.8」
一名调查员想要了解所有成年人中已完全接种新冠疫苗并接种加强针的比例。
如果要求结果在 $96\%$ 的置信水平下误差不超过 $\pm 0.03$,那么应该选择多少名成年人作为样本?
- 假设每个人是否接种疫苗相互独立。
- 假设该二项分布足够大,可以看作正态分布。
此处由于是正态分布,我们用明确的字母 $z^$ 代替 $k^$。我们可以计算出 $z^*$:
\[z^* = \text{invNorm}\left( \frac {1 - 96\%} 2 \right) \approx -2.05375\]根据题目条件:
\[\begin{aligned} \lvert z^* \rvert \times \text{SD}(\hat p) & \le 0.03 \\ \frac {\sqrt{p (1 - p)}} {\sqrt n} & \le \frac {0.03} {\lvert z^* \rvert} \\ \end{aligned}\]根据 AM-GM 不等式,分子是 $\le \frac 1 2$ 的(在 $p = \frac 1 2$ 取等)。我们只需要保证分子最大的时候也依然满足限制:
\[\frac 1 {2 \sqrt n} \le \frac {0.03} {\lvert z^* \rvert}\]解得 $n \ge 1171.63$。最终答案要向上取整为 $\boxed{1172}$。
书上由于只保留了两位小数所以最后一步算出来 $1167.4$,有点搞笑了。
\[z^* = \text{invNorm}\left( \frac {1 - 99\%} 2 \right) \approx -2.57583\] \[\text{SE}(\hat p_1 - \hat p_2) = \sqrt{\frac {\hat p_1 (1 - \hat p_1)} {n_1} + \frac {\hat p_2 (1 - \hat p_2)} {n_2}} \approx 0.0203136\]「Example 6.12」
研究人员独立地随机抽取了 $1017$ 名居住在城市地区的成年人和 $801$ 名居住在农村地区的成年人作为简单样本。在受访者中,$612$ 名城市居民和 $137$ 名农村居民表示支持政府投入更多资金扩大高速互联网接入。
使用 $99\%$ 的置信区间估计支持政府投入更多资金扩大高速互联网接入的城市居民和农村居民比例的差异。
- 假设该二项分布足够大,可以看作正态分布。
置信区间即为:
\[(\hat p_1 - \hat p_2) \pm z^* \times \text{SE} \approx \boxed{0.431 \pm 0.052}\]「Example 6.10」
工会发言人声称,如果他们的基本诉求得不到满足,$75\%$ 的工会成员将支持罢工。公司谈判代表认为实际比例较低,并进行了一项假设检验。如果随机抽取的 $125$ 名工会成员中 $87$ 人会罢工,那么结论是什么?$\alpha = 0.05$。
- 假设该二项分布足够大,可以看作正态分布。
令 $p$ 为总体中支持罢工的比例。令假设中的比例 $p_0 = 75 \%$。
假设:
- $H_0$:$p = 75 \%$
- $H_a$:$p < 75 \%$
如果 $H_0$ 成立,那么:
\[\hat p \sim \mathcal N(p_0, \text{SD})\]根据 $p_0 = $ 计算 $\text{SD}$:
\[\text{SD} = \sqrt {\frac {p_0 (1 - p_0)} n} \approx 0.0387298\]我们的 $\hat p$ 对应的 z-score 为:
\[\hat p = \frac {87} {125} \implies z = \frac {\hat p - p_0} {\text{SD}} \approx -1.39427\]若一个 $\hat p$ 对应的 $z$ 比这个值还小,则它是更离谱的。$p$-value 为:
\[p = \int_{-\infty}^z \frac 1 {\sqrt {2 \pi}} e^{- \frac {x^2} 2} dx \approx 0.0816174 > \alpha\]不拒绝 $H_0$,没有足够证据说明 $p < 75 \%$。