本文へスキップ

信頼区間と検定は同じ不確実性を見ている

信頼区間と検定は同じ不確実性を見ている のヒーロー画像
このヒーロー画像はAIで生成しています。
  1. 1 情報幾何から検定へ進むための全体地図
  2. 2 情報幾何学は確率の地図を描く考え方
  3. 3 推定から検定へ進む前に
  4. 4 収束の違いを情報幾何で見る
  5. 5 尤度比検定を情報幾何の地図で見る
  6. 6 Wald・Score・尤度比検定を同じ地図で見る
  7. 7 信頼区間と検定は同じ不確実性を見ている
  8. 8 平均差検定と A/B テストを地図で見る
  9. 9 検出力とサンプルサイズを情報量で考える
  10. 10 多重検定と選択後推論の入口

前の記事では、Wald 検定、Score 検定、尤度比検定を、同じ山のまわりを違う方向から見る方法として整理しました。

この記事では、その続きとして、信頼区間を見ます。

信頼区間は、検定と別の道具に見えます。

検定は「この仮説を疑うべきか」を見るものです。信頼区間は「推定値のまわりに、どれくらいの幅を持たせるべきか」を見るものです。

でも実は、両者はかなり近い関係にあります。

どちらも、データから得た推定量がどれくらい揺れるかを見ています。情報幾何学の言葉で言えば、推定された点のまわりにある、Fisher 計量で測った局所的な不確実性を見ています。

信頼区間は「点」ではなく「幅」を出す

推定では、データから 1 つの値を出します。

たとえばコインを 100100 回投げて、表が 5858 回出たとします。

表が出る確率を pp とすると、自然な推定値は

p^=58100=0.58\hat{p} = \frac{58}{100} = 0.58

です。

でも、ここで「本当の pp0.580.58 です」と言い切るのは強すぎます。

同じコインをもう一度 100100 回投げたら、表が 5555 回かもしれません。6262 回かもしれません。データには偶然の揺れがあります。

そこで、点だけではなく幅を持たせます。

pp は、だいたいこのあたりにありそうだ」

という範囲を作るのが信頼区間です。

ここで大事なのは、信頼区間もデータから計算されるということです。

データが変われば、推定値も変わります。推定値が変われば、信頼区間も変わります。

つまり、信頼区間そのものがランダムに動く対象です。

「真の値が入る確率」ではない

信頼区間で一番よくある誤解は、次の読み方です。

「この 95% 信頼区間には、真の値が 95% の確率で入っている」

直感的には言いたくなります。けれども、頻度主義の信頼区間では、この言い方は正確ではありません。

なぜなら、真の値は固定された値として扱うからです。

今回のデータを見たあとで、区間もすでに決まっています。固定された区間に、固定された真の値が入っているかどうかは、入っているか、入っていないかのどちらかです。

そこに 95% という確率を直接つけているわけではありません。

これは少しわかりにくいので、カメラのピント合わせに近いものとして考えるとよいです。

あるカメラが、何度も撮影したときに 95% の割合で被写体を枠の中に入れられるとします。

いま撮った 1 枚について、被写体が枠に入っているかどうかは、もう決まっています。入っているか、入っていないかです。

それでも、そのカメラの手続きには「長期的には 95% くらい成功する」という性質があります。

信頼区間の 95% も、この意味です。

検定との双対

信頼区間と検定は、同じ不確実性を別の形で表しています。

検定では、仮説値を 1 つ置きます。

たとえば、

H0:p=0.5H_0: p = 0.5

です。

そして、データから見て p=0.5p=0.5 がどれくらい不自然かを調べます。

一方、信頼区間では、データから見て「まだ不自然とは言いにくい値の範囲」を作ります。

この 2 つはつながっています。

たとえば 5% 有意水準の両側検定と、95% 信頼区間は対応します。

95% 信頼区間が

[0.48,0.67][0.48, 0.67]

だったとします。

このとき、p=0.5p=0.5 は区間の中にあります。だから、5% 有意水準の両側検定では、H0:p=0.5H_0: p=0.5 を棄却しません。

一方、p=0.4p=0.4 は区間の外にあります。だから、H0:p=0.4H_0: p=0.4 は棄却されます。

ここでの「ものさし」が、次に出てくる標準誤差や Fisher 情報です。

Wald 型信頼区間

一番よく見る形の信頼区間は、Wald 型信頼区間です。

推定量を θ^\hat{\theta} とします。

その標準誤差を SE(θ^)\mathrm{SE}(\hat{\theta}) とします。

95% 信頼区間なら、だいたい次の形になります。

言葉で言えば、

「推定値のまわりに、標準誤差を何個分か足し引きする」

という形です。

推定値が

θ^=10\hat{\theta} = 10

で、標準誤差が

SE(θ^)=2\mathrm{SE}(\hat{\theta}) = 2

だとします。

95% 信頼区間は、おおよそ

10±1.96×210 \pm 1.96 \times 2

なので、

[6.08,13.92][6.08, 13.92]

です。

つまり信頼区間は、推定値のまわりに適当に線を引いているのではありません。

推定量の揺れ方を見て、その揺れに見合った幅を作っています。

差の信頼区間を動かす

値を動かして、検定統計量・p 値・標準誤差・情報量の見え方を確認できます。

A/B テストの比率差

信頼区間と帰無仮説の位置関係

信頼区間は推定点の周りにある不確実性の幅です。帰無仮説の値が外に出ると、対応する検定では疑いが強くなります。

0 0.50 1.0 0.04 0.07 0.10 0.13 0.16 パラメータ 表示用の高さ
95% 信頼区間 推定値 帰無仮説

Fisher 情報と標準誤差

では、標準誤差はどこから来るのでしょうか。

大標本の最尤推定では、Fisher 情報が標準誤差を決めます。

ざっくり言うと、Fisher 情報は「そのパラメータをデータからどれくらいよく見分けられるか」を表します。

Fisher 情報が大きいなら、少しパラメータを動かしただけで分布がはっきり変わります。だから、データからパラメータを精度よく推定できます。

Fisher 情報が小さいなら、パラメータを動かしても分布があまり変わりません。だから、推定は不安定になります。

1 次元で、nn 個の独立なデータがある正則な場合には、おおよそ

Var(θ^)1nI(θ)\mathrm{Var}(\hat{\theta}) \approx \frac{1}{n I(\theta)}

となります。

したがって、

SE(θ^)1nI(θ)\mathrm{SE}(\hat{\theta}) \approx \frac{1}{\sqrt{n I(\theta)}}

です。

情報幾何学では、Fisher 情報は計量です。

計量とは、近さや長さを測るためのものさしです。

つまり Wald 型信頼区間は、ただ座標上で左右に同じだけ広げた区間ではありません。大標本近似のもとでは、Fisher 計量で見た揺れを、座標の幅に直しているものだと読めます。

多次元では楕円体になる

パラメータが 1 つだけなら、信頼区間は線分です。

でも、パラメータが 2 つ以上あると、信頼区間ではなく信頼領域になります。

たとえばパラメータが

θ=(θ1,θ2)\theta = (\theta_1, \theta_2)

だとします。

推定値も

θ^=(θ^1,θ^2)\hat{\theta} = (\hat{\theta}_1, \hat{\theta}_2)

です。

このとき、不確実性は単に「横方向にどれくらい」「縦方向にどれくらい」だけでは決まりません。

θ1\theta_1θ2\theta_2 の推定誤差が一緒に動くことがあるからです。

そのため、多次元の信頼領域は、よく楕円の形になります。3 次元以上なら楕円体です。

大標本では、最尤推定量の揺れは多変量正規分布で近似されます。

共分散行列は、Fisher 情報行列の逆行列で近似されます。

θ^N(θ,1nI(θ)1)\hat{\theta} \approx N\left( \theta, \frac{1}{n} I(\theta)^{-1} \right)

このため、信頼領域は

(θθ^)I(θ^)(θθ^)c(\theta - \hat{\theta})^\top I(\hat{\theta}) (\theta - \hat{\theta}) \le c

のような形で近似されます。

これは、Fisher 計量で測った距離が一定以下の点を集めている、と読めます。

座標の絵では楕円体に見えても、情報幾何のものさしでは、推定値のまわりの局所的な球を見ているわけです。

Wald 検定との関係

Wald 型信頼区間は、Wald 検定と直接対応します。

1 次元で仮説

H0:θ=θ0H_0: \theta = \theta_0

を考えます。

Wald 統計量は、おおよそ

Z=θ^θ0SE(θ^)Z = \frac{\hat{\theta} - \theta_0}{\mathrm{SE}(\hat{\theta})}

です。

これは、仮説値 θ0\theta_0 と推定値 θ^\hat{\theta} の差を、標準誤差で割ったものです。

つまり、

「推定値は、仮説値から標準誤差何個分だけ離れているか」

を見ています。

両側 5% 検定なら、だいたい

Z>1.96|Z| > 1.96

なら棄却します。

これは

θ^θ0>1.96SE(θ^)|\hat{\theta} - \theta_0| > 1.96\,\mathrm{SE}(\hat{\theta})

ということです。

言い換えると、θ0\theta_0

θ^±1.96SE(θ^)\hat{\theta} \pm 1.96\,\mathrm{SE}(\hat{\theta})

の外にある、ということです。

だから Wald 型 95% 信頼区間に仮説値が入っていなければ、Wald 検定の 5% 両側検定では棄却します。

profile likelihood interval

Wald 型信頼区間は便利ですが、いつも一番よいとは限りません。

特に、パラメータ変換で形が変わりやすいことがあります。

たとえば pp で区間を作るのと、log(p/(1p))\log(p/(1-p)) で区間を作ってから戻すのとでは、同じ結果にならないことがあります。

そこで、尤度そのものを使って区間を作る方法があります。

それが profile likelihood interval です。

少し具体的に書きます。

パラメータを

θ=(ψ,λ)\theta = (\psi, \lambda)

とします。

ψ\psi が知りたいパラメータで、λ\lambda は nuisance parameter、つまり主役ではないけれどモデルに必要なパラメータです。

ψ\psi をある値に固定したうえで、λ\lambda だけを最適化します。

そのときの対数尤度を

p(ψ)\ell_p(\psi)

と書きます。

profile likelihood interval は、だいたい

2{p(ψ^)p(ψ)}χ1,1α22\{\ell_p(\hat{\psi}) - \ell_p(\psi)\} \le \chi^2_{1,\,1-\alpha}

を満たす ψ\psi の範囲として作ります。

ここで χ1,1α2\chi^2_{1,\,1-\alpha} は、自由度 1 の χ2\chi^2 分布の分位点です。

つまり、ここでも検定との双対が出ています。

Wald 型信頼区間は Wald 検定と対応します。

profile likelihood interval は LR 検定と対応します。

どちらも、

「どの仮説値なら、データから見てまだ無理がないか」

を集めているのです。

情報幾何で見ると同じ絵になる

Wald、Score、LR は、有限のデータでは違う答えになることがあります。

でも、真の値の近くで大標本近似がよく効くとき、これらは同じ二次近似に近づきます。

対数尤度の山の頂上の近くでは、山の形を放物面で近似できます。

その曲がり具合を表すのが Fisher 情報です。

山が急なら、少し動いただけで尤度が大きく下がります。推定は精密で、信頼区間は狭くなります。

山がなだらかなら、少し動いても尤度があまり下がりません。推定は不安定で、信頼区間は広くなります。

多次元では、この山の等高線が楕円になります。

情報幾何学では、それを Fisher 計量で見た局所的な球として読みます。

これが、この記事の中心です。

信頼区間と検定は、違う操作に見えます。

でも、どちらも推定量の揺れと、対数尤度の曲がり方を見ています。

情報幾何学の言葉では、どちらも Fisher 計量で測った局所的な不確実性を見ています。

解釈で気をつけること

最後に、信頼区間を読むときの注意点を整理します。

まず、信頼区間は「真の値がそこにある確率」をそのまま表すものではありません。

95% 信頼区間の意味は、手続きの長期的な被覆確率です。

次に、信頼区間が広いからといって、推定が失敗しているとは限りません。

データが少ない、ばらつきが大きい、モデル上そのパラメータを見分けにくい。そういう状況では、広い区間が正直な答えです。

逆に、狭い信頼区間がいつもよいとも限りません。

モデルが間違っている、独立性の仮定が崩れている、標準誤差の計算が合っていない。そういう場合には、見かけだけ狭い区間になります。

また、信頼区間に 0 が入っているかどうか、1 が入っているかどうかだけを機械的に見るのも危険です。

区間の中心、幅、実務上意味のある差、データの取り方、モデルの仮定を一緒に見る必要があります。

検定と同じで、信頼区間も判断を自動化する装置ではありません。

データから言えることの範囲を、少し丁寧に表示する道具です。

同じ不確実性を、問いの形に合わせて見る

検定は、仮説値を先に置きます。

「この値は、データから見て苦しいか」

と聞きます。

信頼区間は、データから範囲を作ります。

「どの値までなら、データから見てまだ苦しくないか」

と聞きます。

問いの形は違います。

でも、見ているものは同じです。

推定量の揺れ、標準誤差、Fisher 情報、対数尤度の曲がり方。

情報幾何学の地図では、それらは推定点のまわりにある局所的な楕円として見えます。

次の記事では、この見方をより身近な実験の場面に移して、A/B テストと平均の検定を考えます。

次に読む

この記事の前提や続きを確認したい場合は、関連する記事と用語集をあわせて読むと全体像を追いやすくなります。