第1章: 相関分析とは何か?
データ分析において、相関分析は不可欠なツールのひとつです。では、具体的に相関分析とは何なのでしょうか。相関分析とは、2つの変数間の関係を定量的に評価するための統計的手法です。2つのデータ系列の間に何らかのパターンが存在するか、またはそれらが全く無関係であるかを明らかにしてくれます。
たとえば、企業の店舗での売上と天気の関係性を調べたいとしましょう。これは、売上(変数1)と天気(変数2)の間の関係を見つけるための相関分析の具体的な例です。天気が良い日は人々が外出しやすく、売上が上昇する可能性があると予測できます。これを確認するために、それぞれの天気の日の売上データを収集し、その中にパターンがあるかどうかを見つけるのが相関分析の目的となります。
相関分析が重要な理由は、データ間の関連性を明らかにすることで新たな洞察を得られるからです。「どの保険商品が売れやすいのか?」、「どの時期に特定の商品がよく売れるのか?」などのビジネスにおける重要な問いに答えることができます。また、企業が将来の戦略を立てたり、製品の設計やマーケティング戦略を改善する際にも役立ちます。
しかし、この相関分析を手作業で行うのは非常に大変な作業です。そこで役立つのがスプレッドシートのソフトウェアであるExcelです。Excelはビジネス現場で広く用いられており、データ分析の力強い味方となります。この記事では、相関分析の基本的な知識と、Excelの具体的な利用法を解説します。
第2章: 相関係数の種類と意味
相関分析を行うためには、「相関係数」の概念を理解する必要があります。相関係数とは、2つの変数間の線形的な関連性を示す数値です。この数値は-1から1までの範囲を取り、その値が1に近づくにつれて正の相関が強く、-1に近づくにつれて負の相関が強くなります。正の相関は一方の変数が増えるともう一方も増え、負の相関は一方が増えるともう一方が減る関係を指します。
ピアソンの相関係数とは?
最も一般的に使われる相関係数はピアソンの相関係数です。これは二つの変数がともに正規分布に従う(ベルカーブの形をしている)場合に使用する相関係数で、変数間の線形(直線的)な関係性を表しています。例えば、年齢と所得の関係性のような直線的なパターンを持つデータに適しています。
スピアマンの順位相関係数の活用場面
一方、スピアマンの順位相関係数は、変数が正規分布に従わない(例えば二つのランキングデータなど)場合や、変数間の関連性が非線形(曲線的)な関係性を示す場合に活用します。この相関係数は、各データへのランク付けに基づいて計算され、データの順序関係を評価します。たとえば、映画の観客評価と興行収入の関係を調べる際などに活用できます。
相関係数の解釈方法
相関係数が-1あるいは1に近いほど、強い相関があると捉えます。つまり、正または負の数値が0.7を超える場合、それらの変数間の関連性は強いと考えられます。しかし逆に0に近い場合、変数間の相関はほとんどまたは全くありません。また、相関係数がゼロであっても、二つの変数間には非線形な関係性が存在する可能性があります。
相関係数は因果関係を表すものではありません。例えば、アイスクリームの売り上げと溺死者数は夏に共に増えますが、これはどちらも夏という共通の原因があるためで、アイスクリームの売り上げが溺死者数を増やすわけではありません。
したがって、相関係数を利用する際は、その解釈に注意を払い、場合によりますが情報を補足的に利用することも検討しましょう。
第3章: Excelを使ったデータの準備
では、Excelで相関分析を行うためにはどのようにデータを準備すれば良いのでしょうか。前提として、Excelでは一般的にデータは行と列を使って表形式で整理します。それぞれの列には一意の名前をつけ、その列がどのようなデータを示しているのかを明確にします。
データ入力の基本ステップ
Excelのシートにデータを入力する最も基本的なステップは次の通りです。
- 新しいシートを開き、一番左の列に時間や試験点などの識別子を入力します。
- 次の列(例えば「B」列)には最初のデータセットの数値を入力します。この列の先頭(「B1」セル)にこのデータセットの名前を入力します。
- 次のデータセットも同様に新しい列に入力します。
- データを入力した後、それからExcelのフォーマットセル機能を使って数値の書式を設定します。
このようにして、行ごとに個々の観測値をまとめることで、整理されたデータセットが得られます。
分析に適したデータフォーマットの整え方
Excelで相関分析を進めるためには、適切なデータフォーマットの整備が欠かせません。具体的には、
- 数値データを扱う場合は、可能な限り原始データをそのまま用い、計算や変換を適用後のデータを使わないように注意しましょう。
- テキストデータやカテゴリデータを扱う場合は、それらを数値データに変換することを視野に入れる必要があります。たとえば「男性」「女性」のような性別のデータを「1」「2」のように数値に変換します。
- 欠損値がある場合は、それを含む行または列を除外するか、代替値を入力するかを決定する必要があります。欠損値の扱いは統計的な解析の結果に大きく影響するため、注意が必要です。
これらを守ることで、Excelでの相関分析がスムーズに進められます。
以上がExcelを使ったデータの準備方法です。次に、このデータを使ってExcelでの散布図の作成方法を解説します。
第4章: Excelで散布図を作成する手順
Excelで相関性を可視化する一つの方法は、散布図を作成することです。散布図は、2つの変数が互いにどのように関連しているかを視覚的に表現します。これにより、データ間のパターンや傾向を簡単に把握できます。次に具体的な手順を述べます。
Excelでの散布図作成の流れ
まず、散布図を作成したい2つのデータ列を選択します。その後、Excelの「挿入」タブをクリックし、「散布図」アイコンを選んでクリックします。

選択されたデータ列からExcelが自動的に散布図を作成します。一つ目に選択したデータがX軸(横軸)に、二つ目に選択したデータがY軸(縦軸)にプロットされます。
グラフのカスタマイズで見やすさアップ
エクセルでは、散布図の見た目をカスタマイズすることも可能です。例えばグラフタイトルの追加、軸ラベルの変更、データポイントの色や形状の変更などが行えます。これを行うには、「グラフツール」を開き、「デザイン」または「書式」タブを選択します。
特に、「デザイン」タブには「グラフの要素の追加」や「グラフのスタイルの変更」が含まれています。さらに、グラフ内の任意の要素をダブルクリックすると、「書式」タブが開き、その要素の色、フォント、サイズなどを細かく調整できます。
さらに、散布図にはトレンドラインを追加することも可能です。これはデータの向かう方向や全体的な傾向を示すのに便利です。トレンドラインを追加するには、「デザイン」タブの「要素の追加」から「トレンドライン」を選択ます。トレンドラインの種類には直線、対数線、指数線、移動平均などがありますが、ここではデータのパターンに最適なものを選択します。
これらの機能を駆使して、見やすく分かりやすい散布図を作成しましょう。散布図は、相関性を一目で理解できる視覚的なツールであり、プレゼンテーションやレポートでのデータ解析結果の提示に非常に役立ちます。
第5章: 散布図から相関を読み取る
それでは、Excelで作成した散布図を用いて、データ間の相関をどのように読み取るかについて解説します。
散布図によるパターン認識
散布図は、データ間に存在するパターンを視覚的に捉えるのに役立ちます。データが右上がりのパターンを示す場合、それは正の相関(一方が増えるともう一方も増える)を示します。逆に、データが右下がりのパターンを示す場合、それは負の相関(一方が増えるともう一方は減る)を示します。データ点が散乱しており、明瞭なパターンが見られない場合、相関は非常に弱いか、まったくない可能性があります。
線形相関と非線形相関の見分け方
データが直線的(線形)なパターンを示す場合、それを線形相関と呼びます。一方、データが曲線的なパターンを示す場合、それを非線形相関と呼びます。非線形相関は、データ間の関係が複雑であることを示します。例えば、売上がある一定の点まで増加し、その後減少するようなケースでは、非線形相関が見られます。このようなパターンは、ピークを超えた点でお客様の需要が飽和し、それ以上の供給が必要とされなくなるというビジネス現象を示す場合があります。
実際のビジネスシーンでの活用例
相関分析と散布図はビジネスシーンでさまざまな場面で活用できます。例えば、製品の価格と売上の関係性を調べるために、過去の価格と売上データを用いて散布図を作成し、その相関を確認することができます。この結果を元に、最適な価格設定を見つけ出すことができます。
また、マーケティング活動の効果を評価する際にも、広告支出とウェブサイトへの訪問者数等のKPI(Key Performance Indicator)の相関を調べることで、広告のROI(Return On Investment)を効果的に評価することが可能です。
このように、データ間の相関を理解すれば、より賢明な決定を下すための洞察を得ることができます。Excelの散布図と相関分析を駆使して、ビジネスの新たな可能性を切り開きましょう。


コメント