まず押さえる——「分布を判別する」とは?Excelでできること・できないこと
データ分析でいう「分布を判別する」とは、集めた数値がどんな“出方”をしているか(値の偏り、ばらつき、外れ値の出やすさ、上限・下限の付き方)を見て、適切な見せ方・判断・次のアクションにつなげることです。たとえば同じ平均でも、毎日安定しているのか、たまに大きく跳ねるのかで、報告の結論は変わります。
分布判別で見るポイントは大きく次の3つです。
- 中心:平均・中央値のどちらが実態に近いか
- 散らばり:標準偏差、四分位範囲(IQR)などの大きさ
- 形:左右どちらに偏っているか(歪み)、裾が厚いか、山が1つか複数か
ここで大事なのが、Excelは「統計ソフト」ではなく、仕事に耐える可視化と一次判定に強いツールだということ。つまりExcelでできるのは、分布を当てにいくというより、それっぽい特徴を掴んで誤判断を減らすことです。
Excelでできることは、主に以下です。
- ヒストグラムや箱ひげ図で、偏り・外れ値・山の数を視覚的に確認
- 対数軸の散布図などで、「指数っぽい」「べき乗っぽい」気配をつかむ
- 累積分布(ECDF的な見せ方)で、割合ベースの説明に落とし込む
- 平均だけでなく中央値・四分位など、頑丈な指標を併用してレポート化
一方で、Excelの弱いところ(できない・やりにくいこと)も押さえておくと安全です。
- 分布当てはめ(最尤推定)やAIC比較など、厳密なモデル選択は不得意
- Q-Qプロットは標準機能が弱く、工夫(代替手順)が必要
- 統計検定(正規性検定など)はアドインや関数で補えるが、解釈を誤りやすい
このブログのゴールは「Excelだけで分布名を断定する」ではありません。20代のビジネス現場で効くのは、(1)形を掴む →(2)説明できる指標を選ぶ →(3)再現可能な手順で報告すること。次章からは、まずヒストグラムで全体像を最速で掴み、そこから箱ひげ図やQ-Qプロット風の手順、対数軸・累積分布などへ繋げて、判断の精度を上げていきます。
最速で全体像をつかむ——ヒストグラムで形(偏り・裾・山)を読む
分布判別のスタートは、細かい統計量よりもヒストグラムで“形”を眺めるのが最速です。平均や標準偏差は便利ですが、偏り(歪み)や裾の長さ、山が1つか複数かは数字だけだと見落としがち。まずヒストグラムで「このデータ、どんな顔つき?」を掴むと、次章以降の箱ひげ図やQ-Qプロット(代替手順)も迷いません。
Excelでヒストグラムを作る(最短手順)
- 対象の数値列を選択
- [挿入]→[統計グラフ]→[ヒストグラム]
- 棒を右クリック→[軸の書式設定]で「ビン幅」(区間幅)を調整
コツは、最初から“ちょうどいい”区間幅を狙わないこと。ビン幅を大きめ・中くらい・小さめと2〜3回変えて、形が安定して見える設定を探すと失敗しにくいです(ビン幅で印象が変わりやすいので)。
読むべきポイントは「偏り・裾・山」
- 偏り(歪み):右に長い尾なら「右に偏っている(右裾が長い)」状態。売上、処理時間、待ち時間などはこの形が多く、平均が実態より大きめに見えやすいので、中央値も併記すると説明が通ります。
- 裾(テール)の厚さ:端っこに少数の大きい値が残るなら「たまにデカいのが出る」タイプ。障害対応時間やアクセス数などでよく起きます。ここを見落として平均だけで語ると、“普段は普通だが、たまに事故る”特徴が消えます。
- 山の数(単峰/多峰):山が2つ以上あるなら、分布というより混ざり物の可能性が高いです(例:平日と休日、AチームとBチーム、新旧システムが混在)。この場合は「正規かどうか」を先に議論するより、条件で分けて別々に見るのが近道です。
実務で役に立つ“読み替え”
ヒストグラムで形が見えたら、結論は分布名よりも仕事の言葉に翻訳します。
- 右に偏る → 「一部の高値が全体を押し上げる。平均だけだと盛りやすい」
- 裾が長い → 「たまに大きく外す。最大値・上位◯%も確認」
- 山が複数 → 「母集団が混在。まず分割して管理指標を決める」
この段階でのゴールは、分布を断定することではなく、次に何を疑うべきかを決めることです。ヒストグラムで「だいたい正規っぽい」「右に偏ってそう」「混ざってそう」が見えたらOK。次章では、正規っぽさをもう一段確かめるために、箱ひげ図とQ-Qプロットの代替手順で確認していきます。
正規っぽいかを見極める——箱ひげ図+Q-Qプロット(代替手順)で確認する
ヒストグラムで「なんとなく正規っぽいかも?」が見えてきたら、次は箱ひげ図で外れ値と非対称をチェックし、さらにQ-Qプロット風の手順で「正規からどれくらいズレているか」を確認します。ここまでやると、平均・標準偏差で語っていいデータなのか、中央値・四分位で語るべきなのかの判断が一気に楽になります。
まず箱ひげ図:左右のバランスと外れ値を一瞬で見る
箱ひげ図は、中央値・四分位(IQR)・外れ値がまとまって見えるので、正規っぽさの一次判定に向きます。作り方は簡単で、数値列を選んで[挿入]→[統計グラフ]→[箱ひげ図]です。
- 正規っぽいサイン:中央値の線が箱の中央付近、上下のひげがそこまで偏らず、外れ値が少ない
- 怪しいサイン:中央値が箱の下(または上)に寄る/片側のひげだけ妙に長い(=歪み)/外れ値が大量
実務では、箱ひげ図で「外れ値が多い」と分かった時点で、平均から入ると説明が崩れがちです。たとえば処理時間やリードタイムなら、中央値+上位10%(または95パーセンタイル)の併記に切り替えると、現場の体感にも合いやすくなります。
次にQ-Qプロット(代替手順):Excelでも“正規からのズレ方”は見える
ExcelはQ-Qプロットが標準で強くないので、ここでは散布図で自作する代替手順を使います。やることは「データの順位」と「正規分布ならその順位に来るはずの値(理論分位)」を突き合わせるだけです。
手順(例:データがA2:A101にある)
- 別列にデータを昇順で並べる(B列)
=SORT(A2:A101,1,1)(使えない場合は並べ替えでOK) - 順位i(1〜n)を作る(C列)
例:C2に1、C3に2… - 累積確率pを作る(D列)
=(C2-0.5)/n(nは件数。例:=ROWS(B2:B101)) - 理論分位(正規のx座標)を作る(E列)
=NORM.S.INV(D2) - 散布図を作る(x=E列、y=B列)
[挿入]→[散布図]。必要なら近似直線を追加
読み方:一直線に乗るか?どこが曲がるか?
- ほぼ一直線:分布はだいたい正規的。平均・標準偏差での説明が通りやすい
- 端(左右)が上に反る/下に反る:裾が重い・軽い(外れ値が出やすい/出にくい)
- 全体がS字っぽい:歪みがある(ログ正規や指数っぽい可能性)。中央値ベースや対数変換を検討
- 途中で折れる/群れる:母集団が混在しているか、条件分け不足の可能性(2章の「山が複数」と整合)
ポイントは「正規か否か」を断定することではなく、どこがズレているかを言語化することです。たとえば「中心は直線だが右端が上に外れている」なら、普段は安定だが、たまに大きく悪化するタイプ──平均だけで語ると事故が隠れます。
箱ひげ図で“外れ方”を把握し、Q-Qプロット風で“ズレの形”を掴めれば、次章の対数軸の散布図・累積分布(ECDF)・パレート図にスムーズにつながります。「正規っぽくない」ことが分かったら、今度はどの非正規に近いかを、見せ方で見分けにいきましょう。
似て非なる分布を見分ける——散布図(対数軸)・累積分布(ECDF)・パレート図の使い分け
3章で「正規っぽくない」気配が出たら、次は“右に長い尾”をひとまとめにしないのがコツです。実務のデータ(売上、工数、処理時間、アクセス数)は右に偏りがちですが、その中身はだいたい(1)対数を取ると素直になるタイプ(ログ正規っぽい)か、(2)一部が支配するタイプ(べき乗・パレートっぽい)に分かれます。ここで役に立つのが、散布図(対数軸)・累積分布(ECDF)・パレート図の3点セットです。
散布図(対数軸):桁が違うデータを“同じ画面”に収める
まずは縦軸(または横軸)を対数にします。対数軸にすると、10→100→1000のような桁の変化が均等に見えるので、「たまにデカい」の正体が掴みやすくなります。
- 使いどころ:金額・回数・時間など、最小と最大の差が大きいとき(100倍以上が目安)
- Excel操作:散布図を作る → 軸を右クリック →[軸の書式設定]→[対数目盛を表示]
読み方はシンプルで、対数軸にした途端に「点がきれいに帯状に並ぶ」「ばらつきが一定っぽく見える」なら、ログ正規っぽさが濃厚です。逆に、対数にしても上側だけが散って“少数のモンスター”が残るなら、一部が支配する(パレート的)な疑いが残ります。
累積分布(ECDF):割合で語れるのでレポートが強くなる
分布名を当てるより仕事で効くのが、「何%がこの値以下か」で説明すること。ECDF(経験累積分布)は、まさにそれを可視化します。ヒストグラムよりも閾値(SLA、目標値)の議論に強いのがメリットです。
作り方(例:A2:A101)
- 昇順に並べた列を作る(B列)
=SORT(A2:A101,1,1)(なければ手動の並べ替え) - 累積割合(C列)
=(ROW(B2)-ROW($B$2)+1)/ROWS($B$2:$B$101) - 散布図(または折れ線)を作る(x=B列、y=C列)
読み方は「曲がり方」です。序盤が急で後半がだらだら伸びるなら、右裾が長い=平均が盛れやすいデータ。ここでの実務的な着地点は、平均よりもP50(中央値)/ P90 / P95などで語ることです。たとえば「95%は○分以内だが、残り5%が重い」のように、合意形成しやすい文章に落とせます。
パレート図:原因の“上位が支配しているか”を見る(分布というより優先順位)
パレート図は、値そのものの分布というよりカテゴリ別の寄与を見る図です。障害原因、問い合わせ種別、工数の内訳などで「上位少数が大半を占めるか」を判断できます。
- 向いている:カテゴリ×件数(または合計時間・損失額)
- Excel操作:集計表を作る(ピボットが速い)→[挿入]→[統計グラフ]→[パレート]
読み方は「累積比率がどこで80%に到達するか」。少数カテゴリで80%に届くなら、対策は「全体最適」ではなく上位に集中させるのが正解です。逆に、なだらかなら“広く薄く”の改善(運用ルール、教育、標準化)が効きやすい。
まとめると、対数軸は“桁の差”を整える、ECDFは“割合で説明”して意思決定を進める、パレート図は“上位集中”で優先順位を決めるための道具です。次章では、この見立てをブレない結論にするために、チェックリスト化してレポートへ落とし込む手順を作っていきます。
仕事で使える結論の出し方——判別のチェックリストとレポートへの落とし込み(再現できる手順)
ここまででプロットの読み方は揃いました。最後にやるべきは、「分布名を当てる」ではなく「誤判断しない結論」に落とすことです。20代のビジネス現場で刺さるのは、専門用語よりも再現できる手順+判断根拠+次アクション。以下をテンプレ化すると、毎回ブレません。
判別チェックリスト(この順で見ると迷わない)
- データの混在はないか?
ヒストグラムで山が複数/Q-Q風で途中が折れるなら、まず条件で分ける(部署・曜日・新旧システムなど)。混在のまま「正規か否か」を議論すると結論が破綻します。 - 右に偏っていないか?
右裾が長いなら、平均単独は危険。レポート指標は中央値+P90/P95へ寄せる準備。 - 外れ値が“少数”か“頻発”か?
箱ひげ図で外れ値が散発なら「事故」扱い、頻発なら「仕様」扱い。後者は平均より分位点(P95など)で管理する方が現実的です。 - 対数軸で素直になるか?
対数軸で帯状に収まるならログ正規っぽい=ログ変換→平均や回帰が通りやすい。対数でも“モンスター”が残るなら、上位の影響が強い(パレート的)可能性。 - 割合で説明できるか?
ECDFで「何%が目標内か」を言える状態にする。意思決定者は分布名よりSLA/目標の達成率を求めがちです。
レポートへの落とし込み(コピペで使える型)
おすすめは図3枚+結論3行に固定すること。図は「ヒストグラム」「箱ひげ図」「ECDF」を基本セットにし、必要なら「対数軸散布図」か「パレート図」を1枚差し替えます。
- 結論(例)
「分布は右に偏り、外れ値が一定数発生する。平均は実態を盛りやすいため、管理指標は中央値とP95を採用する。」 - 根拠(図の読み)
「ヒストグラムで右裾が長い/箱ひげ図で上側のひげが長い・外れ値あり/ECDFで95%点が目標を超える」 - 次アクション(打ち手)
「P95を押し上げる上位5%のケースを抽出し、条件(時間帯・機能・顧客)で分解。パレートで上位原因に改善を集中する。」
再現できる「分析→報告」手順(Excel作業の流れ)
- 元データをそのまま残し、分析用シートを作る(加工ミス防止)
- ヒストグラムで形を確認(ビン幅を2〜3回変更)
- 箱ひげ図で外れ値・非対称を確認
- 必要ならQ-Q風で「どこがズレるか」を言語化
- ECDFでP50/P90/P95と目標値の位置関係を出す
- (原因カテゴリがあるなら)パレートで上位集中を確認
- 最後に「採用する指標」「理由」「改善対象」を1枚にまとめる
この型に沿えば、分布を断定できなくても問題ありません。大事なのはデータの顔つきに合う指標を選び、割合と分位点で合意形成できる形に整えること。Excelはその“一次判定と報告”に最適です。


コメント