ExcelでABテスト結果を評価する統計手法

1章：ABテスト結果を「数字で判断」するための前提知識（差・割合・サンプル数）
2章：まずはExcelで集計する（コンバージョン率/平均/差分の見える化）
3章：有意差検定の基本（t検定・比率の検定をどう使い分けるか）
4章：Excelで実践する検定手法（T.TEST／Z検定／カイ二乗検定の手順）
5章：結果の読み方と落とし穴（p値・信頼区間・多重検定・検出力の考え方）

1章：ABテスト結果を「数字で判断」するための前提知識（差・割合・サンプル数）

ABテストは「Aのほうが良さそう」で終わらせると、意思決定がブレます。忙しい20代のサラリーマンこそ、数字で判断できる型を先に押さえておくと、報告も改善も一気にラクになります。この章では、Excelで検定に進む前に必要な前提として、差・割合・サンプル数の考え方を整理します。

「差」を見る：何の差なのかを決める

ABテストでまず決めるべきは、比べる指標が平均なのか割合なのかです。

平均の差：例）平均滞在時間、平均購入金額（Aの平均 − Bの平均）
割合の差：例）クリック率（CTR）、コンバージョン率（CVR）（Aの率 − Bの率）

この違いが重要なのは、後で使う検定が変わるからです。購入金額のような「数値の平均」ならt検定寄り、CVした/してないのような「成功・失敗の割合」なら比率の検定（Z検定やカイ二乗）が基本になります。

「割合」は母数がすべて：分子と分母をセットで保管

ABテストの現場でよくあるミスが、CVRだけ見て「上がった/下がった」と判断することです。割合は必ず分子（CV数）と分母（訪問数・表示数）がセットです。

たとえば、

A：10CV / 200人 = 5.0%
B：12CV / 800人 = 1.5%

のように、BのほうがCV数は多いのにCVRは低い、ということが普通に起きます。Excelで集計するときも、最終的に率だけ残すのではなく、「成功数・試行数」を必ず残しましょう。後の検定でそのまま使えます。

サンプル数が少ないと「たまたま」に振り回される

ABテストの結果は、サンプル数が小さいほどブレます。たとえば初日にCVが偏って「勝った！」となりがちですが、それは偶然の上振れかもしれません。感覚的には、サンプルが増えるほど、結果は安定していきます。

ここで押さえるべきポイントは2つです。

差が小さいほど、必要なサンプル数は増える（微改善を証明するのは難しい）
ばらつきが大きい指標ほど、必要なサンプル数は増える（購入金額などは特に）

最低限そろえるデータ（Excel入力の準備）

次章以降で迷わないために、まずは以下を準備します。

テスト期間、対象条件（新規/既存、流入元など）
A/Bそれぞれのサンプル数（表示数・訪問数など）
成果指標の成功数（CV数、クリック数など）
平均系の指標なら、個票データ（ユーザーごとの金額/時間）または少なくとも平均・分散がわかる形

この「分母・分子・サンプル数」を揃えておくと、次のステップであるExcel集計→検定にスムーズに進めます。次章では、まずExcel上でCVRや平均、差分を見える化して「状況把握」を固めます。

2章：まずはExcelで集計する（コンバージョン率/平均/差分の見える化）

検定に入る前にやるべきことはシンプルで、「AとBの現状を、同じ物差しで見える化する」ことです。ここが曖昧だと、あとでp値を出しても「で、実務的にどのくらい違うの？」が説明できません。この章ではExcelでの集計フォーマットと、CVR/平均/差分の出し方を固めます。

まず作るのは「集計サマリ」：分母・分子・率を1枚に

おすすめは、個票（ログ）とは別に、サマリ用の表を作ること。最低限、各パターンで次を並べます。

パターン	試行数（分母）	成功数（分子）	CVR
A	N_A	CV_A	=CV_A/N_A
B	N_B	CV_B	=CV_B/N_B

CVR列は単純に割り算でOKです。ポイントは、率だけ残さず、必ず分母・分子も同じ表に置くこと。1章で話した通り、検定（比率の検定やカイ二乗）にそのまま使えます。

差分は「率の差」と「相対差」を両方出す

見える化で強いのは、差を2種類で出すことです。

率の差（絶対差）：B − A（例：+0.4pt）
相対差（改善率）：(B − A) / A（例：+8%）

Excelでは、たとえばAのCVRがD2、BのCVRがD3なら以下です。

絶対差：=D3-D2
相対差：=(D3-D2)/D2

報告で刺さるのは多くの場合「相対差」ですが、意思決定に効くのは絶対差です。たとえば相対+10%でも、0.10%→0.11%ならインパクトは小さい。両方出しておくと、上司・PM・マーケで揉めにくくなります。

平均で見る指標（購入金額・滞在時間）は「平均・分散・件数」まで

指標が「CVした/してない」ではなく、購入金額や滞在時間のような数値の平均なら、サマリに次を追加します。

件数（サンプル数）
平均：=AVERAGE(範囲)
標準偏差：=STDEV.S(範囲)

後のt検定で「平均の差」を評価するために、平均だけでなく、ばらつき（標準偏差）も見える状態にしておくのがコツです。平均が同じでも、ばらつきが大きいと結論が不安定になります。

ひと目でわかる見える化：棒グラフ＋誤解しない軸

集計したら、A/BのCVRや平均を棒グラフにします。Excelの機能としては難しくありませんが、ABテストでは1点だけ注意があります。CVRのように差が小さい指標は、縦軸を切る（0始まりにしない）と「盛れて」見えることが多いです。意思決定の場では、軸の設定は慎重に。

おすすめは以下の2枚構成です。

棒グラフ：A/BのCVR（または平均）
差分の表：絶対差（pt）と相対差（%）を数値で明記

この段階のゴールは「検定の前に、状況を説明できる」状態

ここまでできると、「BはCVRが+0.4pt（+8%）だが、サンプルはAが2,000・Bが2,100で大きな偏りはない」といった一次コメントが作れます。次章では、この集計結果を踏まえて、平均ならt検定、割合なら比率の検定という使い分けを整理し、どの検定に進むべきかを決めます。

3章：有意差検定の基本（t検定・比率の検定をどう使い分けるか）

2章までで「AとBの差」は見えるようになりました。ただ、ABテストで次に問われるのは「その差は偶然じゃないと言える？」です。ここで登場するのが有意差検定。難しそうに聞こえますが、実務ではまず“平均を比べるのか / 割合を比べるのか”の2択に整理すると迷いません。

まず結論：指標で検定が決まる

平均を比べたい（購入金額、滞在時間、注文単価など）→ t検定
割合を比べたい（CVR、CTR、到達率など「成功/失敗」）→ 比率の検定（Z検定 or カイ二乗検定）

1章で触れた「平均か割合か」の分類が、ここでそのまま効いてきます。CVRをt検定でやる、購入金額を比率の検定でやるのように、指標と検定がズレると結論が不自然になりがちです。

有意差検定は「差があるか」ではなく「たまたまか」を見る

検定がやっていることはシンプルで、

「本当はAとBに差がない」と仮定したとき、今回みたいな差が出る確率（＝p値）はどれくらい？

を計算しています。p値が小さいほど「それ、偶然では起きにくいね」＝統計的に有意と判断されます。よく使う目安は5%（0.05）です。

p < 0.05：偶然で起きにくい → 有意差あり（と言える）
p ≥ 0.05：偶然でも起きうる → 有意差なし（と言い切れない）

注意点として、有意差あり＝必ず儲かるではありません。ここでは「偶然かどうか」の話で、ビジネス上のインパクトは2章の絶対差・相対差で別途判断します（この切り分けができると報告が強いです）。

t検定を使う場面：平均の差を見たいとき

t検定は、A群とB群の平均が違うかを評価します。購入金額のように数値が連続的で、ユーザーごとに値があるデータに向いています。

実務のポイントは次の2つです。

ABテストは基本、AとBで別ユーザーなので「対応のない（独立2標本）」のt検定を使う
分散（ばらつき）が同じと言い切れないことが多いので、迷ったら等分散を仮定しない（Welchのt検定）寄りで考える

なお、購入金額は極端に大きい値（外れ値）が混じりやすく、平均が引っぱられます。ここは4章以降で手順に落としますが、検定に入る前に分布が荒れていないかだけは軽く確認しておくと事故が減ります。

比率の検定を使う場面：CVした/してないの差を見たいとき

CVRやCTRは「成功（1）/失敗（0）」のデータなので、平均の検定ではなく割合（比率）の検定が素直です。ここでよく使うのがZ検定かカイ二乗検定です。

Z検定（2つの比率の検定）：AのCVRとBのCVRの差を直接チェックしたい
カイ二乗検定：A/B × 成功/失敗の2×2表で、関係があるか（独立でないか）をチェックしたい

実務的には、ABテストの「AとBでCV率が違うか」を見るならどちらでもほぼ同じ結論になります（2群の比率差は2×2のカイ二乗と表裏）。ただし、

手元のデータが「成功数・失敗数」でまとまっている → カイ二乗が扱いやすい
「CVRの差」として説明したい → Z検定のほうが意図が伝わりやすい

という使い分けができます。

迷ったときの判断フロー（実務用）

最後に、忙しいとき用の最短ルールを置いておきます。

指標はどっち？ → 平均 or 割合
平均なら → 対応のないt検定（等分散は基本疑う）
割合なら → Z検定 or 2×2のカイ二乗（分子・分母が必要）

ここまでで「どの検定を選ぶべきか」が決まりました。次章では、実際にExcelでT.TESTやZ検定、カイ二乗検定をどう回すかを、手順ベースで落とし込みます。

4章：Excelで実践する検定手法（T.TEST／Z検定／カイ二乗検定の手順）

3章で「平均ならt検定、割合なら比率の検定（Z or カイ二乗）」まで決まりました。ここからは、Excelで迷わず手を動かす手順に落とします。ポイントは、①入力データの形を揃える → ②関数/ツールでp値を出す → ③解釈に必要な数字も一緒に残すの3点です。

T.TESTで平均の差を検定する（購入金額・滞在時間など）

対象は「ユーザーごとの購入金額」など、個票の数値データがあるケース。A群データをA列、B群データをB列に縦に並べます（欠損は除外）。

p値（両側検定）の例：=T.TEST(A2:A1001, B2:B980, 2, 3)

引数の意味はざっくりこうです。

第3引数「2」：両側（Aが高い/低いの両方を許容）※ABテストは基本これでOK
第4引数「3」：等分散を仮定しない（Welch）※実務はこれが無難

併せて、レポート用に次も同じ表に置いておくと強いです。

A平均：=AVERAGE(A2:A1001) / B平均：=AVERAGE(B2:B980)
平均との差：=B平均-A平均
サンプル数：=COUNT(A2:A1001)

p値だけだと「で、いくら差が？」が消えるので、平均差（実務インパクト）をセットで残します。

Z検定（2つの比率）をExcelで回す（CVR/CTRなど）

CVRのような成功/失敗は、A/Bそれぞれの「成功数（CV数）」と「試行数（訪問数）」があればOKです。ここでは、A：成功CV_A・試行N_A、B：成功CV_B・試行N_Bとします。

Z検定はExcelに「これ1発」の標準関数がないことが多いので、z値→p値で作ります。

比率を出す：
pA = CV_A/N_A、pB = CV_B/N_B
プールした比率（共通比率）を出す：
p = (CV_A+CV_B)/(N_A+N_B)
標準誤差：
SE = SQRT(p*(1-p)*(1/N_A+1/N_B))
z値：
z = (pB-pA)/SE
p値（両側）：
=2*(1-NORM.S.DIST(ABS(z), TRUE))

この形にしておくと、CVRが低い領域でも「差の大きさ・サンプルの大きさ」が計算に反映され、“たまたまっぽさ”をp値として判断できます。

カイ二乗検定を最短でやる（2×2表があるならこれがラク）

「A/B × 成功/失敗」の2×2表が作れるなら、カイ二乗がスムーズです。まず、観測度数（実際の件数）を次の形で置きます。

	成功	失敗
A	CV_A	N_A-CV_A
B	CV_B	N_B-CV_B

次に、同じサイズで期待度数（「差がない」としたときの理論上の件数）を作ります。期待度数は各セルについて、

期待度数 =（行合計 × 列合計）/ 総合計

で計算できます（Excelのセル参照でOK）。

最後にp値は、

=CHISQ.TEST(観測度数範囲, 期待度数範囲)

で出せます。ABテストの2群比較なら、Z検定とほぼ同じ結論になることが多いので、「今ある表が2×2ならカイ二乗」くらいで選ぶと速いです。

実務の型：出力は「p値」＋「差」＋「母数」をワンセットにする

どの検定でも、最終的にシート上で並べたいのはこの3つです。

差（絶対差/平均との差）：どれくらい効いた？
サンプル数（分母）：判断の土台は十分？
p値：その差は偶然っぽい？

次章では、このp値を「どう読むか」と、よくある落とし穴（多重検定、信頼区間、検出力など）をセットで整理します。p値だけで勝敗を決めると、成果が出ないABテストを量産しがちなので、ここが最後の詰めどころです。

5章：結果の読み方と落とし穴（p値・信頼区間・多重検定・検出力の考え方）

4章でp値まで出せるようになると、ABテストは一気に「判定っぽく」なります。ただし実務で事故るのは、p値だけを合否判定に使ってしまうパターン。ここでは、レポートが強くなる読み方と、よくある落とし穴をまとめます。

p値は「勝ちの証明」ではなく「偶然っぽさの指標」

p値は、「本当は差がない」と仮定したときに、今回くらいの差が出る確率でした。なので、

p<0.05：偶然では起きにくい（統計的に有意と言える）
p≥0.05：偶然でも起きうる（有意と言い切れない）

ここでの注意は2つ。

「有意＝儲かる」ではない（儲かるかは2章の絶対差が主役）
「有意じゃない＝効果ゼロ」でもない（サンプル不足で検出できてない可能性）

信頼区間で「どれくらい効きそうか」の幅を持つ

上司に刺さるのは「p値0.03でした」より、“改善幅の見込み”です。そこで使うのが信頼区間（CI）。たとえばCVR差が+0.4ptでも、95%信頼区間が

−0.1pt〜+0.9pt

のように0をまたぐなら、「上振れの可能性もある」と一段丁寧に言えます。逆に、

+0.2pt〜+0.6pt

のように0をまたがなければ、“少なくとも改善してそう”が伝えやすい。p値は点の判定、信頼区間は幅の理解。セットで出すと報告が一気に実務向きになります。

多重検定：いっぱい試すほど「たまたま当たり」が増える

ABテストでありがちなのが、

指標をCTR/CVR/売上…と大量に見る
セグメント（新規/既存、デバイス別など）を切りまくる
複数案（A/B/C/D…）を同時に回す

この状態でそれぞれに「p<0.05」を当てると、どれかが偶然当たる確率が上がります（当たりくじが増えるイメージ）。対策としては、

主指標（KPI）を1つ決める：まずはここで勝ち負けを判断
セグメント分析は“探索”と割り切り、結論に使うなら再テストで確認

「たまたま改善」に乗ってリリースすると、次月に戻ってきます。多重検定は、成果が安定しない原因の上位です。

検出力：pが出ないのは「差がない」より「見つける力が弱い」かも

p≥0.05だったとき、最初に疑うべきはサンプル不足です。小さな改善（例：CVR +0.1pt）を狙うほど、必要な母数は増えます。検出力の感覚としては、

狙う改善幅が小さいほど、必要サンプルは大きい
ばらつきが大きい指標（購入金額など）ほど、必要サンプルは大きい

実務では「有意じゃなかった」で終わらせず、今回の差（絶対差）と母数から、続行すべきか/打ち切るかを判断します。改善幅がビジネス的に十分なのにpが出ないなら、期間延長やサンプル増が合理的です。

最終チェック：結論は「差×不確実性×運用条件」で書く

最後に、報告の型を置きます。以下が揃うと、意思決定がブレません。

差（絶対差/相対差）：どれくらい効いたか
p値＋信頼区間：偶然の可能性と改善幅の見込み
前提条件：期間、対象、流入、計測定義（ここがズレると全部崩れる）

p値は便利ですが、万能の「勝敗判定機」ではありません。差の大きさと不確実性を同時に扱える人ほど、ABテストの打率が上がります。