平均差検定と A/B テストを地図で見る

前の記事では、信頼区間と検定を同じ標準誤差のものさしで見る話をしました。

この記事では、その見方を平均差検定と A/B テストに使います。

平均差検定は、名前だけ見ると計算の話に見えます。

でも中身は単純です。

「データから得た平均が、基準や別の平均からどれくらい離れているか」を見ます。

ただし、離れているかどうかは、普通の長さでは測れません。クラスの平均点が 1 点違うとき、その 1 点が大きいのか小さいのかは、点数のばらつきや人数によって変わるからです。

そこで標準誤差を使います。

情報幾何学の言葉で言えば、標準誤差は推定点のまわりの地図のものさしです。2 つの点がどれくらい離れているかを、Fisher 計量に対応する局所的なものさしで測っている、と読めます。

A/B テストを手で動かす

値を動かして、検定統計量・p 値・標準誤差・情報量の見え方を確認できます。

A/B テストでは差の分布を見る

観測された差が 0 から離れていても、標準誤差に比べて十分大きいかを見ないと判断できません。

95% 信頼区間差の標本分布差 = 0 観測差

1 標本平均の検定

まず、1 つの集団だけを考えます。

たとえば、ある学校で 30 人のテスト点を調べたとします。

全国平均が 60 点だとわかっているとします。この学校の平均点が 64 点だったとき、本当に全国平均より高いと言えるでしょうか。

ここで考える仮説は、たとえば次のようになります。

H_0: \mu = 60

H_1: \mu \ne 60

$\mu$ は、この学校の本当の平均点です。

データから計算した標本平均を $\bar{x}$ と書きます。いまは $\bar{x}=64$ です。

差は、

\bar{x} - 60 = 4

です。

でも、4 点差だけでは判断できません。

30 人の点数がほとんど同じなら、4 点差は大きく見えます。点数がかなりばらばらなら、4 点差はたまたま起きても不思議ではありません。

平均の標準誤差は、直感的には次の形です。

\text{標準誤差} = \frac{\text{データのばらつき}}{\sqrt{\text{データ数}}}

データが多いほど平均は安定します。

ばらつきが大きいほど平均は不安定になります。

だから、同じ 4 点差でも、人数が多くてばらつきが小さいなら強い証拠になります。人数が少なくてばらつきが大きいなら、弱い証拠になります。

z 検定と t 検定の直感

1 標本平均の検定では、よく z 検定と t 検定が出てきます。

どちらも考え方は同じです。

\frac{\text{観測された差}}{\text{標準誤差}}

を計算します。

基準値を $\mu_0$ とすると、平均の検定統計量は次のような形になります。

\frac{\bar{x} - \mu_0}{\text{標準誤差}}

この値が大きいほど、標本平均は基準値から遠くにあります。

ただし、「遠い」とは点数の単位で遠いという意味ではありません。標準誤差を 1 歩分としたとき、何歩分離れているかという意味です。

母分散がわかっている、または十分に大きい標本で近似できるなら z 検定を使います。

母分散がわからず、標本からばらつきを推定するなら t 検定を使います。

t 検定では、標準誤差そのものをデータから推定します。

そのぶん、少ないデータでは不確かさが増えます。t 分布は正規分布より少し裾が厚く、この追加の不確かさを反映します。

高校生向けに言えば、z 検定は「ばらつきのものさしをかなり信用できる」ときの検定です。t 検定は「ものさし自体もデータから作っているので、そのぶん慎重に見る」検定です。

情報幾何で見る 1 標本検定

情報幾何学では、確率分布を点として見ます。

平均 $\mu$ を持つ正規分布の集まりを考えると、 $\mu$ を動かすたびに分布の点も動きます。

帰無仮説

H_0: \mu = \mu_0

は、地図の上の基準点です。

データから得た標本平均 $\bar{x}$ は、推定された点です。

検定は、この 2 つの点の距離を見ています。

ただし、距離の測り方は普通のユークリッド距離ではありません。

同じ 1 点差でも、データが多く、分布が鋭く決まる方向では大きな差になります。データが少なく、分布がぼんやりしている方向では小さな差になります。

この「方向ごとの測り方」を与えるものが Fisher 計量です。

実際の平均検定では、Fisher 計量の局所的な形が標準誤差として現れます。

2 標本平均差検定

次に、2 つの群を比べます。

たとえば、A クラスと B クラスの平均点を比べたいとします。

A クラスの本当の平均を $\mu_A$ 、B クラスの本当の平均を $\mu_B$ とします。

比べたいのは、

\mu_A - \mu_B

です。

帰無仮説は、ふつう次のように置きます。

H_0: \mu_A - \mu_B = 0

これは「2 つの群の本当の平均は同じ」という仮説です。

データからは、それぞれの標本平均を計算します。

\bar{x}_A - \bar{x}_B

この差が 0 からどれくらい離れているかを見ます。

ここでも必要なのは標準誤差です。

2 つの平均は、どちらも揺れます。だから、平均差の揺れは A 群の揺れと B 群の揺れを合わせたものになります。

直感的には、

\text{平均差の標準誤差} = \sqrt{ \text{A 群の平均の揺れ} + \text{B 群の平均の揺れ} }

です。

より具体的には、各群のばらつきと人数が効きます。

A 群の人数が多ければ、A 群の平均は安定します。B 群の人数が少なければ、B 群の平均は不安定になります。片方だけ安定していても、もう片方が不安定なら、差の推定も不安定です。

Welch の考え方

2 標本 t 検定には、分散が等しいと仮定する方法と、等しいと仮定しない方法があります。

実務でよく使われるのは Welch の t 検定です。

Welch の考え方は、2 つの群のばらつきが同じとは限らない、と見ることです。

たとえば、A 群は点数が似た人たちで、B 群は点数が大きくばらつく人たちかもしれません。このとき、両方の分散が同じだと決めつけると、標準誤差を見誤ることがあります。

Welch の t 検定は、各群のばらつきと人数を別々に使って、平均差の標準誤差を作ります。

情報幾何学的には、2 つの群は 2 つの推定点を持ちます。

A 群の推定点と B 群の推定点があります。

検定で見ている方向は、その 2 点を結ぶ「差の方向」です。

平均差が 0 という帰無仮説は、「2 つの点が平均の方向では同じ場所にある」という制限です。

Welch の検定は、その差の方向を測るときに、A 側の不確かさと B 側の不確かさを別々に持ち込む方法だと読めます。

A/B テストは 2 群の比較

A/B テストも、基本は 2 標本の比較です。

ユーザーを A 群と B 群に分けます。

A 群には今までの画面を見せ、B 群には新しい画面を見せる、というように条件を変えます。

そして、2 つの群で指標が違うかを見ます。

指標が購入金額なら、平均の差を見ます。

指標がクリックしたかどうかなら、比率の差を見ます。

指標が滞在時間なら、平均や分布全体の違いを見ることがあります。

大事なのは、A/B テストが「B の数字が A より大きかったから勝ち」とだけ言うものではないことです。

データは揺れます。

たまたま B 群に買いやすいユーザーが多く入ることもあります。たまたま A 群のクリックが少なく出ることもあります。

だから、差を見たら、その差を標準誤差で割って考えます。

\frac{\hat{\theta}_B - \hat{\theta}_A}{\text{差の標準誤差}}

$\hat{\theta}_A$ と $\hat{\theta}_B$ は、それぞれの群で推定した平均や比率です。

この式は、A/B テストでも平均差検定と同じ形をしています。

比率の検定は Bernoulli 分布の点の比較

クリック率や購入率のような指標は、比率です。

1 人のユーザーについて、クリックしたなら 1、クリックしなかったなら 0 とします。

これは Bernoulli 分布です。

Bernoulli 分布は、成功確率 $p$ だけで決まります。

A 群のクリック率を $p_A$ 、B 群のクリック率を $p_B$ とすると、比率の A/B テストは次の仮説を見ています。

H_0: p_A - p_B = 0

データからは、A 群のクリック率 $\hat{p}_A$ と B 群のクリック率 $\hat{p}_B$ を計算します。

そして、

\hat{p}_B - \hat{p}_A

が 0 からどれくらい離れているかを見ます。

情報幾何学の地図では、Bernoulli 分布の点が 2 つあります。

ひとつは $p_A$ の点です。

もうひとつは $p_B$ の点です。

比率の検定は、この 2 つの点が同じ場所にあると見てよいか、それとも差の方向に離れていると見るべきかを調べています。

Bernoulli 分布では、 $p$ が 0 や 1 に近いところと、0.5 に近いところで揺れ方が違います。

同じ人数でも、比率の標準誤差は $p$ の値によって変わります。

だから、比率の検定でも、差そのものだけでなく、地図のものさしが必要になります。

標準誤差は情報量の裏返し

ここまで何度も標準誤差が出てきました。

標準誤差は、データ数とばらつきで決まります。

平均なら、ばらつきが大きいほど標準誤差は大きくなります。データ数が多いほど標準誤差は小さくなります。

比率なら、成功確率の値とデータ数で標準誤差が決まります。データ数が多いほど、比率の推定は安定します。

情報幾何学では、これは情報量の違いとして読めます。

情報量が多い方向では、少し動いただけでも分布の違いが見えやすくなります。標準誤差は小さくなります。

情報量が少ない方向では、分布の違いが見えにくくなります。標準誤差は大きくなります。

つまり検定統計量は、ただの差ではありません。

\text{差を、情報量に応じたものさしで測った量}

です。

2 つの推定点があり、その間に差の方向があります。

Fisher 計量は、その方向の変化がどれくらい見分けやすいかを与えます。

標準誤差は、実際の検定でその見分けやすさを数値にしたものです。

実務で気をつけること

平均差検定や A/B テストは、式だけなら短いです。

でも、実務では式の前に大事なことがあります。

まず、ランダム化です。

A 群と B 群に分けるとき、ユーザーの性質が偏らないようにします。新規ユーザーばかりが B 群に入り、既存ユーザーばかりが A 群に入ると、画面の違いではなくユーザーの違いを見てしまうかもしれません。

次に、独立性です。

1 人のユーザーの行動が、別のユーザーの行動に強く影響するなら、単純な検定の前提が崩れることがあります。たとえば、SNS の投稿が友人に広がるような場面では、ユーザー同士が完全に独立とは言いにくいです。

さらに、事前に指標を決めることも重要です。

クリック率、購入率、購入金額、継続率など、見たい指標を先に決めておきます。あとから都合のよい指標だけを選ぶと、たまたま出た差を本物らしく見せてしまいます。

最後に、覗き見の問題があります。

テストの途中で何度も結果を見て、たまたま有意になった瞬間に止めると、誤って差があると判断しやすくなります。

検定は、データから自動的に真実を取り出す機械ではありません。

きちんとした実験設計の上で、観測された差が標準誤差に比べてどれくらい大きいかを見る道具です。

地図の上でまとめる

1 標本平均の検定では、推定した平均の点と基準点を比べました。

2 標本平均差検定では、2 つの群の推定点を比べました。

A/B テストでは、2 つの群の平均、比率、または分布を比べました。

どの場合も、中心にあるのは同じです。

まず、データから推定点を作る。
次に、帰無仮説が言う点や制限と比べる。
差の方向を見る。
その差を標準誤差で測る。
標準誤差に比べて十分に大きい差なら、帰無仮説を疑う。

情報幾何学の言葉では、検定は確率分布の地図の上で、推定点が仮説の場所からどれくらい離れているかを見る作業です。

その距離は、Fisher 計量、つまり情報量に応じたものさしで測られます。

平均差検定や A/B テストは、この考え方がとても見えやすい例です。

次の記事では、この「標準誤差に比べてどれくらいの差を見つけたいか」という問いを、検出力とサンプルサイズの話につなげます。