Excelで様々な分布を判別するプロット活用法

まず押さえる——「分布を判別する」とは？Excelでできること・できないこと
最速で全体像をつかむ——ヒストグラムで形（偏り・裾・山）を読む
正規っぽいかを見極める——箱ひげ図＋Q-Qプロット（代替手順）で確認する
似て非なる分布を見分ける——散布図（対数軸）・累積分布（ECDF）・パレート図の使い分け
仕事で使える結論の出し方——判別のチェックリストとレポートへの落とし込み（再現できる手順）

まず押さえる——「分布を判別する」とは？Excelでできること・できないこと

データ分析でいう「分布を判別する」とは、集めた数値がどんな“出方”をしているか（値の偏り、ばらつき、外れ値の出やすさ、上限・下限の付き方）を見て、適切な見せ方・判断・次のアクションにつなげることです。たとえば同じ平均でも、毎日安定しているのか、たまに大きく跳ねるのかで、報告の結論は変わります。

分布判別で見るポイントは大きく次の3つです。

中心：平均・中央値のどちらが実態に近いか
散らばり：標準偏差、四分位範囲（IQR）などの大きさ
形：左右どちらに偏っているか（歪み）、裾が厚いか、山が1つか複数か

ここで大事なのが、Excelは「統計ソフト」ではなく、仕事に耐える可視化と一次判定に強いツールだということ。つまりExcelでできるのは、分布を当てにいくというより、それっぽい特徴を掴んで誤判断を減らすことです。

Excelでできることは、主に以下です。

ヒストグラムや箱ひげ図で、偏り・外れ値・山の数を視覚的に確認
対数軸の散布図などで、「指数っぽい」「べき乗っぽい」気配をつかむ
累積分布（ECDF的な見せ方）で、割合ベースの説明に落とし込む
平均だけでなく中央値・四分位など、頑丈な指標を併用してレポート化

一方で、Excelの弱いところ（できない・やりにくいこと）も押さえておくと安全です。

分布当てはめ（最尤推定）やAIC比較など、厳密なモデル選択は不得意
Q-Qプロットは標準機能が弱く、工夫（代替手順）が必要
統計検定（正規性検定など）はアドインや関数で補えるが、解釈を誤りやすい

このブログのゴールは「Excelだけで分布名を断定する」ではありません。20代のビジネス現場で効くのは、（1）形を掴む →（2）説明できる指標を選ぶ →（3）再現可能な手順で報告すること。次章からは、まずヒストグラムで全体像を最速で掴み、そこから箱ひげ図やQ-Qプロット風の手順、対数軸・累積分布などへ繋げて、判断の精度を上げていきます。

最速で全体像をつかむ——ヒストグラムで形（偏り・裾・山）を読む

分布判別のスタートは、細かい統計量よりもヒストグラムで“形”を眺めるのが最速です。平均や標準偏差は便利ですが、偏り（歪み）や裾の長さ、山が1つか複数かは数字だけだと見落としがち。まずヒストグラムで「このデータ、どんな顔つき？」を掴むと、次章以降の箱ひげ図やQ-Qプロット（代替手順）も迷いません。

Excelでヒストグラムを作る（最短手順）

対象の数値列を選択
［挿入］→［統計グラフ］→［ヒストグラム］
棒を右クリック→［軸の書式設定］で「ビン幅」（区間幅）を調整

コツは、最初から“ちょうどいい”区間幅を狙わないこと。ビン幅を大きめ・中くらい・小さめと2〜3回変えて、形が安定して見える設定を探すと失敗しにくいです（ビン幅で印象が変わりやすいので）。

読むべきポイントは「偏り・裾・山」

偏り（歪み）：右に長い尾なら「右に偏っている（右裾が長い）」状態。売上、処理時間、待ち時間などはこの形が多く、平均が実態より大きめに見えやすいので、中央値も併記すると説明が通ります。
裾（テール）の厚さ：端っこに少数の大きい値が残るなら「たまにデカいのが出る」タイプ。障害対応時間やアクセス数などでよく起きます。ここを見落として平均だけで語ると、“普段は普通だが、たまに事故る”特徴が消えます。
山の数（単峰/多峰）：山が2つ以上あるなら、分布というより混ざり物の可能性が高いです（例：平日と休日、AチームとBチーム、新旧システムが混在）。この場合は「正規かどうか」を先に議論するより、条件で分けて別々に見るのが近道です。

実務で役に立つ“読み替え”

ヒストグラムで形が見えたら、結論は分布名よりも仕事の言葉に翻訳します。

右に偏る → 「一部の高値が全体を押し上げる。平均だけだと盛りやすい」
裾が長い → 「たまに大きく外す。最大値・上位◯％も確認」
山が複数 → 「母集団が混在。まず分割して管理指標を決める」

この段階でのゴールは、分布を断定することではなく、次に何を疑うべきかを決めることです。ヒストグラムで「だいたい正規っぽい」「右に偏ってそう」「混ざってそう」が見えたらOK。次章では、正規っぽさをもう一段確かめるために、箱ひげ図とQ-Qプロットの代替手順で確認していきます。

正規っぽいかを見極める——箱ひげ図＋Q-Qプロット（代替手順）で確認する

ヒストグラムで「なんとなく正規っぽいかも？」が見えてきたら、次は箱ひげ図で外れ値と非対称をチェックし、さらにQ-Qプロット風の手順で「正規からどれくらいズレているか」を確認します。ここまでやると、平均・標準偏差で語っていいデータなのか、中央値・四分位で語るべきなのかの判断が一気に楽になります。

まず箱ひげ図：左右のバランスと外れ値を一瞬で見る

箱ひげ図は、中央値・四分位（IQR）・外れ値がまとまって見えるので、正規っぽさの一次判定に向きます。作り方は簡単で、数値列を選んで［挿入］→［統計グラフ］→［箱ひげ図］です。

正規っぽいサイン：中央値の線が箱の中央付近、上下のひげがそこまで偏らず、外れ値が少ない
怪しいサイン：中央値が箱の下（または上）に寄る／片側のひげだけ妙に長い（＝歪み）／外れ値が大量

実務では、箱ひげ図で「外れ値が多い」と分かった時点で、平均から入ると説明が崩れがちです。たとえば処理時間やリードタイムなら、中央値＋上位10%（または95パーセンタイル）の併記に切り替えると、現場の体感にも合いやすくなります。

次にQ-Qプロット（代替手順）：Excelでも“正規からのズレ方”は見える

ExcelはQ-Qプロットが標準で強くないので、ここでは散布図で自作する代替手順を使います。やることは「データの順位」と「正規分布ならその順位に来るはずの値（理論分位）」を突き合わせるだけです。

手順（例：データがA2:A101にある）

別列にデータを昇順で並べる（B列）
=SORT(A2:A101,1,1)（使えない場合は並べ替えでOK）
順位i（1〜n）を作る（C列）
例：C2に1、C3に2…
累積確率pを作る（D列）
=(C2-0.5)/n（nは件数。例：=ROWS(B2:B101)）
理論分位（正規のx座標）を作る（E列）
=NORM.S.INV(D2)
散布図を作る（x=E列、y=B列）
［挿入］→［散布図］。必要なら近似直線を追加

読み方：一直線に乗るか？どこが曲がるか？

ほぼ一直線：分布はだいたい正規的。平均・標準偏差での説明が通りやすい
端（左右）が上に反る／下に反る：裾が重い・軽い（外れ値が出やすい/出にくい）
全体がS字っぽい：歪みがある（ログ正規や指数っぽい可能性）。中央値ベースや対数変換を検討
途中で折れる／群れる：母集団が混在しているか、条件分け不足の可能性（2章の「山が複数」と整合）

ポイントは「正規か否か」を断定することではなく、どこがズレているかを言語化することです。たとえば「中心は直線だが右端が上に外れている」なら、普段は安定だが、たまに大きく悪化するタイプ──平均だけで語ると事故が隠れます。

箱ひげ図で“外れ方”を把握し、Q-Qプロット風で“ズレの形”を掴めれば、次章の対数軸の散布図・累積分布（ECDF）・パレート図にスムーズにつながります。「正規っぽくない」ことが分かったら、今度はどの非正規に近いかを、見せ方で見分けにいきましょう。

似て非なる分布を見分ける——散布図（対数軸）・累積分布（ECDF）・パレート図の使い分け

3章で「正規っぽくない」気配が出たら、次は“右に長い尾”をひとまとめにしないのがコツです。実務のデータ（売上、工数、処理時間、アクセス数）は右に偏りがちですが、その中身はだいたい（1）対数を取ると素直になるタイプ（ログ正規っぽい）か、（2）一部が支配するタイプ（べき乗・パレートっぽい）に分かれます。ここで役に立つのが、散布図（対数軸）・累積分布（ECDF）・パレート図の3点セットです。

散布図（対数軸）：桁が違うデータを“同じ画面”に収める

まずは縦軸（または横軸）を対数にします。対数軸にすると、10→100→1000のような桁の変化が均等に見えるので、「たまにデカい」の正体が掴みやすくなります。

使いどころ：金額・回数・時間など、最小と最大の差が大きいとき（100倍以上が目安）
Excel操作：散布図を作る → 軸を右クリック →［軸の書式設定］→［対数目盛を表示］

読み方はシンプルで、対数軸にした途端に「点がきれいに帯状に並ぶ」「ばらつきが一定っぽく見える」なら、ログ正規っぽさが濃厚です。逆に、対数にしても上側だけが散って“少数のモンスター”が残るなら、一部が支配する（パレート的）な疑いが残ります。

累積分布（ECDF）：割合で語れるのでレポートが強くなる

分布名を当てるより仕事で効くのが、「何％がこの値以下か」で説明すること。ECDF（経験累積分布）は、まさにそれを可視化します。ヒストグラムよりも閾値（SLA、目標値）の議論に強いのがメリットです。

作り方（例：A2:A101）

昇順に並べた列を作る（B列）
=SORT(A2:A101,1,1)（なければ手動の並べ替え）
累積割合（C列）
=(ROW(B2)-ROW($B$2)+1)/ROWS($B$2:$B$101)
散布図（または折れ線）を作る（x=B列、y=C列）

読み方は「曲がり方」です。序盤が急で後半がだらだら伸びるなら、右裾が長い＝平均が盛れやすいデータ。ここでの実務的な着地点は、平均よりもP50（中央値）/ P90 / P95などで語ることです。たとえば「95%は○分以内だが、残り5%が重い」のように、合意形成しやすい文章に落とせます。

パレート図：原因の“上位が支配しているか”を見る（分布というより優先順位）

パレート図は、値そのものの分布というよりカテゴリ別の寄与を見る図です。障害原因、問い合わせ種別、工数の内訳などで「上位少数が大半を占めるか」を判断できます。

向いている：カテゴリ×件数（または合計時間・損失額）
Excel操作：集計表を作る（ピボットが速い）→［挿入］→［統計グラフ］→［パレート］

読み方は「累積比率がどこで80%に到達するか」。少数カテゴリで80%に届くなら、対策は「全体最適」ではなく上位に集中させるのが正解です。逆に、なだらかなら“広く薄く”の改善（運用ルール、教育、標準化）が効きやすい。

まとめると、対数軸は“桁の差”を整える、ECDFは“割合で説明”して意思決定を進める、パレート図は“上位集中”で優先順位を決めるための道具です。次章では、この見立てをブレない結論にするために、チェックリスト化してレポートへ落とし込む手順を作っていきます。

仕事で使える結論の出し方——判別のチェックリストとレポートへの落とし込み（再現できる手順）

ここまででプロットの読み方は揃いました。最後にやるべきは、「分布名を当てる」ではなく「誤判断しない結論」に落とすことです。20代のビジネス現場で刺さるのは、専門用語よりも再現できる手順＋判断根拠＋次アクション。以下をテンプレ化すると、毎回ブレません。

判別チェックリスト（この順で見ると迷わない）

データの混在はないか？
ヒストグラムで山が複数／Q-Q風で途中が折れるなら、まず条件で分ける（部署・曜日・新旧システムなど）。混在のまま「正規か否か」を議論すると結論が破綻します。
右に偏っていないか？
右裾が長いなら、平均単独は危険。レポート指標は中央値＋P90/P95へ寄せる準備。
外れ値が“少数”か“頻発”か？
箱ひげ図で外れ値が散発なら「事故」扱い、頻発なら「仕様」扱い。後者は平均より分位点（P95など）で管理する方が現実的です。
対数軸で素直になるか？
対数軸で帯状に収まるならログ正規っぽい＝ログ変換→平均や回帰が通りやすい。対数でも“モンスター”が残るなら、上位の影響が強い（パレート的）可能性。
割合で説明できるか？
ECDFで「何％が目標内か」を言える状態にする。意思決定者は分布名よりSLA/目標の達成率を求めがちです。