信頼区間と検定は同じ不確実性を見ている

前の記事では、Wald 検定、Score 検定、尤度比検定を、同じ山のまわりを違う方向から見る方法として整理しました。

この記事では、その続きとして、信頼区間を見ます。

信頼区間は、検定と別の道具に見えます。

検定は「この仮説を疑うべきか」を見るものです。信頼区間は「推定値のまわりに、どれくらいの幅を持たせるべきか」を見るものです。

でも実は、両者はかなり近い関係にあります。

どちらも、データから得た推定量がどれくらい揺れるかを見ています。情報幾何学の言葉で言えば、推定された点のまわりにある、Fisher 計量で測った局所的な不確実性を見ています。

信頼区間は「点」ではなく「幅」を出す

推定では、データから 1 つの値を出します。

たとえばコインを $100$ 回投げて、表が $58$ 回出たとします。

表が出る確率を $p$ とすると、自然な推定値は

\hat{p} = \frac{58}{100} = 0.58

です。

でも、ここで「本当の $p$ は $0.58$ です」と言い切るのは強すぎます。

同じコインをもう一度 $100$ 回投げたら、表が $55$ 回かもしれません。 $62$ 回かもしれません。データには偶然の揺れがあります。

そこで、点だけではなく幅を持たせます。

「 $p$ は、だいたいこのあたりにありそうだ」

という範囲を作るのが信頼区間です。

ここで大事なのは、信頼区間もデータから計算されるということです。

データが変われば、推定値も変わります。推定値が変われば、信頼区間も変わります。

つまり、信頼区間そのものがランダムに動く対象です。

「真の値が入る確率」ではない

信頼区間で一番よくある誤解は、次の読み方です。

「この 95% 信頼区間には、真の値が 95% の確率で入っている」

直感的には言いたくなります。けれども、頻度主義の信頼区間では、この言い方は正確ではありません。

なぜなら、真の値は固定された値として扱うからです。

今回のデータを見たあとで、区間もすでに決まっています。固定された区間に、固定された真の値が入っているかどうかは、入っているか、入っていないかのどちらかです。

そこに 95% という確率を直接つけているわけではありません。

これは少しわかりにくいので、カメラのピント合わせに近いものとして考えるとよいです。

あるカメラが、何度も撮影したときに 95% の割合で被写体を枠の中に入れられるとします。

いま撮った 1 枚について、被写体が枠に入っているかどうかは、もう決まっています。入っているか、入っていないかです。

それでも、そのカメラの手続きには「長期的には 95% くらい成功する」という性質があります。

信頼区間の 95% も、この意味です。

検定との双対

信頼区間と検定は、同じ不確実性を別の形で表しています。

検定では、仮説値を 1 つ置きます。

たとえば、

H_0: p = 0.5

です。

そして、データから見て $p=0.5$ がどれくらい不自然かを調べます。

一方、信頼区間では、データから見て「まだ不自然とは言いにくい値の範囲」を作ります。

この 2 つはつながっています。

たとえば 5% 有意水準の両側検定と、95% 信頼区間は対応します。

95% 信頼区間が

[0.48, 0.67]

だったとします。

このとき、 $p=0.5$ は区間の中にあります。だから、5% 有意水準の両側検定では、 $H_0: p=0.5$ を棄却しません。

一方、 $p=0.4$ は区間の外にあります。だから、 $H_0: p=0.4$ は棄却されます。

ここでの「ものさし」が、次に出てくる標準誤差や Fisher 情報です。

Wald 型信頼区間

一番よく見る形の信頼区間は、Wald 型信頼区間です。

推定量を $\hat{\theta}$ とします。

その標準誤差を $\mathrm{SE}(\hat{\theta})$ とします。

95% 信頼区間なら、だいたい次の形になります。

言葉で言えば、

「推定値のまわりに、標準誤差を何個分か足し引きする」

という形です。

推定値が

\hat{\theta} = 10

で、標準誤差が

\mathrm{SE}(\hat{\theta}) = 2

だとします。

95% 信頼区間は、おおよそ

10 \pm 1.96 \times 2

なので、

[6.08, 13.92]

です。

つまり信頼区間は、推定値のまわりに適当に線を引いているのではありません。

推定量の揺れ方を見て、その揺れに見合った幅を作っています。

差の信頼区間を動かす

値を動かして、検定統計量・p 値・標準誤差・情報量の見え方を確認できます。

信頼区間と帰無仮説の位置関係

信頼区間は推定点の周りにある不確実性の幅です。帰無仮説の値が外に出ると、対応する検定では疑いが強くなります。

95% 信頼区間推定値帰無仮説

Fisher 情報と標準誤差

では、標準誤差はどこから来るのでしょうか。

大標本の最尤推定では、Fisher 情報が標準誤差を決めます。

ざっくり言うと、Fisher 情報は「そのパラメータをデータからどれくらいよく見分けられるか」を表します。

Fisher 情報が大きいなら、少しパラメータを動かしただけで分布がはっきり変わります。だから、データからパラメータを精度よく推定できます。

Fisher 情報が小さいなら、パラメータを動かしても分布があまり変わりません。だから、推定は不安定になります。

1 次元で、 $n$ 個の独立なデータがある正則な場合には、おおよそ

\mathrm{Var}(\hat{\theta}) \approx \frac{1}{n I(\theta)}

となります。

したがって、

\mathrm{SE}(\hat{\theta}) \approx \frac{1}{\sqrt{n I(\theta)}}

です。

情報幾何学では、Fisher 情報は計量です。

計量とは、近さや長さを測るためのものさしです。

つまり Wald 型信頼区間は、ただ座標上で左右に同じだけ広げた区間ではありません。大標本近似のもとでは、Fisher 計量で見た揺れを、座標の幅に直しているものだと読めます。

多次元では楕円体になる

パラメータが 1 つだけなら、信頼区間は線分です。

でも、パラメータが 2 つ以上あると、信頼区間ではなく信頼領域になります。

たとえばパラメータが

\theta = (\theta_1, \theta_2)

だとします。

推定値も

\hat{\theta} = (\hat{\theta}_1, \hat{\theta}_2)

です。

このとき、不確実性は単に「横方向にどれくらい」「縦方向にどれくらい」だけでは決まりません。

$\theta_1$ と $\theta_2$ の推定誤差が一緒に動くことがあるからです。

そのため、多次元の信頼領域は、よく楕円の形になります。3 次元以上なら楕円体です。

大標本では、最尤推定量の揺れは多変量正規分布で近似されます。

共分散行列は、Fisher 情報行列の逆行列で近似されます。

\hat{\theta} \approx N\left( \theta, \frac{1}{n} I(\theta)^{-1} \right)

このため、信頼領域は

(\theta - \hat{\theta})^\top I(\hat{\theta}) (\theta - \hat{\theta}) \le c

のような形で近似されます。

これは、Fisher 計量で測った距離が一定以下の点を集めている、と読めます。

座標の絵では楕円体に見えても、情報幾何のものさしでは、推定値のまわりの局所的な球を見ているわけです。

Wald 検定との関係

Wald 型信頼区間は、Wald 検定と直接対応します。

1 次元で仮説

H_0: \theta = \theta_0

を考えます。

Wald 統計量は、おおよそ

Z = \frac{\hat{\theta} - \theta_0}{\mathrm{SE}(\hat{\theta})}

です。

これは、仮説値 $\theta_0$ と推定値 $\hat{\theta}$ の差を、標準誤差で割ったものです。

つまり、

「推定値は、仮説値から標準誤差何個分だけ離れているか」

を見ています。

両側 5% 検定なら、だいたい

|Z| > 1.96

なら棄却します。

これは

|\hat{\theta} - \theta_0| > 1.96\,\mathrm{SE}(\hat{\theta})

ということです。

言い換えると、 $\theta_0$ が

\hat{\theta} \pm 1.96\,\mathrm{SE}(\hat{\theta})

の外にある、ということです。

だから Wald 型 95% 信頼区間に仮説値が入っていなければ、Wald 検定の 5% 両側検定では棄却します。

profile likelihood interval

Wald 型信頼区間は便利ですが、いつも一番よいとは限りません。

特に、パラメータ変換で形が変わりやすいことがあります。

たとえば $p$ で区間を作るのと、 $\log(p/(1-p))$ で区間を作ってから戻すのとでは、同じ結果にならないことがあります。

そこで、尤度そのものを使って区間を作る方法があります。

それが profile likelihood interval です。

少し具体的に書きます。

パラメータを

\theta = (\psi, \lambda)

とします。

$\psi$ が知りたいパラメータで、 $\lambda$ は nuisance parameter、つまり主役ではないけれどモデルに必要なパラメータです。

$\psi$ をある値に固定したうえで、 $\lambda$ だけを最適化します。

そのときの対数尤度を

\ell_p(\psi)

と書きます。

profile likelihood interval は、だいたい

2\{\ell_p(\hat{\psi}) - \ell_p(\psi)\} \le \chi^2_{1,\,1-\alpha}

を満たす $\psi$ の範囲として作ります。

ここで $\chi^2_{1,\,1-\alpha}$ は、自由度 1 の $\chi^2$ 分布の分位点です。

つまり、ここでも検定との双対が出ています。

Wald 型信頼区間は Wald 検定と対応します。

profile likelihood interval は LR 検定と対応します。

どちらも、

「どの仮説値なら、データから見てまだ無理がないか」

を集めているのです。

情報幾何で見ると同じ絵になる

Wald、Score、LR は、有限のデータでは違う答えになることがあります。

でも、真の値の近くで大標本近似がよく効くとき、これらは同じ二次近似に近づきます。

対数尤度の山の頂上の近くでは、山の形を放物面で近似できます。

その曲がり具合を表すのが Fisher 情報です。

山が急なら、少し動いただけで尤度が大きく下がります。推定は精密で、信頼区間は狭くなります。

山がなだらかなら、少し動いても尤度があまり下がりません。推定は不安定で、信頼区間は広くなります。

多次元では、この山の等高線が楕円になります。

情報幾何学では、それを Fisher 計量で見た局所的な球として読みます。

これが、この記事の中心です。

信頼区間と検定は、違う操作に見えます。

でも、どちらも推定量の揺れと、対数尤度の曲がり方を見ています。

情報幾何学の言葉では、どちらも Fisher 計量で測った局所的な不確実性を見ています。

解釈で気をつけること

最後に、信頼区間を読むときの注意点を整理します。

まず、信頼区間は「真の値がそこにある確率」をそのまま表すものではありません。

95% 信頼区間の意味は、手続きの長期的な被覆確率です。

次に、信頼区間が広いからといって、推定が失敗しているとは限りません。

データが少ない、ばらつきが大きい、モデル上そのパラメータを見分けにくい。そういう状況では、広い区間が正直な答えです。

逆に、狭い信頼区間がいつもよいとも限りません。

モデルが間違っている、独立性の仮定が崩れている、標準誤差の計算が合っていない。そういう場合には、見かけだけ狭い区間になります。

また、信頼区間に 0 が入っているかどうか、1 が入っているかどうかだけを機械的に見るのも危険です。

区間の中心、幅、実務上意味のある差、データの取り方、モデルの仮定を一緒に見る必要があります。

検定と同じで、信頼区間も判断を自動化する装置ではありません。

データから言えることの範囲を、少し丁寧に表示する道具です。

同じ不確実性を、問いの形に合わせて見る

検定は、仮説値を先に置きます。

「この値は、データから見て苦しいか」

と聞きます。

信頼区間は、データから範囲を作ります。

「どの値までなら、データから見てまだ苦しくないか」