1章:まず押さえるべき「データクレンジング」の全体像(Excelでできる範囲と限界)
データクレンジングは、ひと言でいえば「分析や集計を正しく回すために、元データの“汚れ”を落として形を整える作業」です。売上や顧客リスト、アンケート結果など、仕事で扱うデータの多くは最初からキレイな状態では来ません。そして厄介なのは、汚れがあるとExcelの集計結果が“それっぽく”見えてしまい、ミスに気づきにくいこと。まずは全体像を押さえて、どこまでをExcelでやるべきか判断できる状態にしましょう。
データクレンジングでやること(ざっくり地図)
クレンジングは大きく次の流れで考えると整理しやすいです。
- 壊さない準備:元データ保護、作業列の設計、ルール決め
- 汚れの除去:空白、重複、表記ゆれ、不要文字、型の不一致など
- 整形:列の分割・結合、日付や数値の統一、カテゴリ化
- 検証:件数が合うか、欠損が増減していないか、例外がないか
- 再利用:次回も同じ手順で回せるようにテンプレ化・自動化
Excel作業でつまずく人は、②のテクニックだけを先にやりがちです。ですが、実務では①と④がないと事故ります(元データ上書き、集計差分の原因不明、修正漏れ…)。この後の章では、手順として破綻しない形に落としていきます。
Excelでできること:現場で“すぐ効く”範囲
Excelは、日常業務のクレンジングに強い道具です。特に以下は得意分野。
- 小〜中規模データの手直し:数千〜数万行程度なら問題なく回せることが多い
- 目視確認と併用した修正:フィルター、条件付き書式、並べ替えで異常値を見つけやすい
- 定番の汚れ処理:空白除去、重複削除、置換、表記ゆれの統一
- ルール化した整形:関数やPower Queryで「次回も同じ変換」を再現できる
つまり、Excelは“納期が近い現場”で、最短で整えるのが得意です。20代の会社員だと、まずはここを武器にするのがコスパ高いです。
Excelの限界:頑張りすぎると逆に遅い
一方で、Excelにも限界があります。ここを知らずに突っ込むと、作業が重くなり、ミスも増えます。
- 超大量データ:数十万〜数百万行になると動作が重い/ファイルが壊れやすい
- 複雑な名寄せ・突合:表記ゆれが多い住所・会社名の統合などは、ルール設計が難しく泥沼化しがち
- 人力運用の属人化:「手で直す」を続けると、再現できず品質がブレる
- 監査・ログ要件:誰がいつ何を変えたか厳密に残す用途は不向き
このブログでは、Excelで完結させるだけでなく、必要ならPower Queryで“手順を固定化”して再現性を上げるところまで扱います。無理に手作業で粘らず、「Excelでやるべきこと/他に渡すべきこと」を切り分けるのが、クレンジングを効率化する第一歩です。
2章:準備が9割:元データを壊さないための設計(バックアップ/テーブル化/ルール決め)
クレンジングで一番コワい事故は、テクニック不足ではなく「元データを壊して戻れない」ことです。しかもExcelは、ちょっとした上書き・貼り付けで簡単に履歴が消えます。ここでは、作業を速くするというよりミスっても死なない設計を先に作ります。結果的にこれが最短ルートです。
①バックアップ:最初に「戻れる場所」を作る
ルールはシンプルで、元データは触らない。おすすめは次のどちらかです。
- 別シートに原本を固定:シート名を「00_原本」などにして、以後編集しない
- 別ファイルに退避:受領ファイルを複製し「_work」「_clean」など作業用を分ける
さらに事故防止を強めるなら、原本シートは保護(校閲→シートの保護)して編集できない状態に。これだけで「うっかり上書き」系のミスが激減します。
②テーブル化:作業の土台を“崩れない形”にする
次にやるべきは、データ範囲をExcelテーブル(Ctrl+T)に変換すること。テーブル化すると、後工程の効率が一気に上がります。
- フィルター・並べ替えが標準装備で、確認が速い
- 行が増えても範囲が自動で広がる(数式や書式の漏れが減る)
- 列名で参照でき、関数が読みやすい
- Power Query連携がスムーズ(4章の自動化が効く)
テーブル名も付けましょう(例:tbl_sales_raw)。後で「どの範囲を加工しているか」が迷子になりません。
③作業列の設計:原本を残しつつ“直した結果”を作る
クレンジングは「置換して終わり」だと、検証ができず詰みます。基本は原本列+加工列の2段構え。
- 例:氏名(原本)/氏名_整形、住所(原本)/住所_整形
- 加工列は右側に追加し、どの処理をしたか分かる名前にする
こうしておくと、結果が変でも原本と見比べて原因特定できますし、関数やPower Queryで処理を差し替えるのも簡単です。
④ルール決め:迷いが消えると一気に速くなる
地味ですが最重要。クレンジングは判断がブレると、手が止まり、品質もブレます。最初に「正」にする規則を決めて、メモとして残してください。
- 表記:全角/半角、カタカナ/ひらがな、スペースは半角に統一するか
- 日付:YYYY/MM/DDに統一、無効日付は空欄にする等
- 数値:通貨記号やカンマを外す/単位(円・千円)を揃える
- 空欄:空欄の扱い(0にする?「不明」にする?)を決める
- 重複:何をキーに重複判定するか(メール?社員番号?)
おすすめは、同じブック内に「99_ルール」シートを作り、箇条書きで固定すること。引き継ぎにも強いです。
⑤検証用の“チェック点”を先に用意しておく
最後に、作業後に見るべき指標だけ先に決めます。たとえば以下。
- 総行数(加工後に減っていないか)
- 必須項目の空欄数(増えていないか)
- 重複件数(想定通り減ったか)
ここまで整えると、3章の「汚れを一気に落とす」作業が怖くなくなり、速くなります。準備が9割、は本当です。
3章:頻出の汚れを一気に落とす基本テク(空白・重複・表記ゆれ・不要文字)
準備(バックアップ/テーブル化/ルール決め)ができたら、ここからは「よくある汚れ」をまとめて掃除します。ポイントは、いきなり原本を置換しないこと。2章で作った加工列に対して処理し、最後に「整形列」を成果物として使う流れにすると事故りません。
①空白:まずは“見えない空白”を潰す(TRIM/CLEAN)
空白は一番地味で、一番バグの原因になります。見た目は同じでも、前後にスペースが混じるだけで別データ扱いになります(VLOOKUPが刺さらない、集計で別カテゴリになる等)。
- 前後のスペース除去:
=TRIM(A2)(連続スペースも1つに圧縮) - 改行や制御文字の除去:
=CLEAN(A2) - 合わせ技(鉄板):
=TRIM(CLEAN(A2))
氏名や商品名など「文字列の一致」が大事な列は、まずこの加工列を作ってから次のステップへ進むのが安全です。
②重複:削除する前に“重複の定義”を固定する
重複削除は強力ですが、いきなり実行すると後戻りが面倒です。先に重複候補を可視化して、ルール通りか確認してから削除しましょう。
- 重複チェック(数式):
=COUNTIF([キー列],[@キー列])が2以上なら重複 - 条件付き書式:「重複する値」を選んで色付け→目視確認が速い
削除する場合は、テーブル内をクリックしてから[データ]→[重複の削除]。ここで重要なのが「どの列をキーにするか」。たとえば顧客なら社員番号/メールなどブレないものを優先します(氏名は同姓同名や表記ゆれで事故りがち)。
③表記ゆれ:まず“統一軸”を決めてから置換する
表記ゆれは、全部を完璧に直そうとすると沼ります。3章ではまず発生頻度が高く、機械的に揃えられる範囲に絞るのがコツです。
- 全角/半角の揺れ:英数字は半角に寄せるなら
=ASC(A2)(逆に全角は=JIS(A2)) - 大文字/小文字:
=UPPER()/=LOWER()(メールアドレス等に有効) - 表記の統一(置換):
SUBSTITUTEでルール化(例:=SUBSTITUTE(A2,"㈱","株式会社"))
置換は一発で全部やらないのが安全です。まずは「よく出る10パターン」だけ加工列で揃え、残りは4章のPower Queryで辞書化して育てる、が現実的です。
④不要文字:記号・単位・改行を“抜く順番”で迷わない
データには、集計に不要な文字が混ざります(「¥」「円」「,」「〒」「-」など)。ここでのコツは必要な形(正)を決めて、不要物を順に落とすこと。
- 記号を消す:
=SUBSTITUTE(SUBSTITUTE(A2,"¥",""),",","") - 単位を消す:
=SUBSTITUTE(A2,"円","") - 改行を消す:
=SUBSTITUTE(A2,CHAR(10),"")(貼り付けデータで頻出)
数値として扱いたい列は、最後に数値化までやると安定します。例:=VALUE(整形後のセル)。これで「見た目は数字なのに文字列」問題(並べ替えが変、集計がズレる)を防げます。
仕上げ:処理後は“チェック点”で必ず検証する
3章で汚れを落としたら、2章で決めたチェック点に戻って確認します。たとえば行数、必須項目の空欄数、重複件数が想定通りか。ここまでセットで回すと、「直したつもりで壊してた」を避けられます。
次の4章では、今やった処理を関数+Power Queryで“毎回自動で再現”できる形に落とし込みます。手作業の限界を超える本番パートです。
4章:効率化の本丸:関数+Power Queryで“自動化”するクレンジング手順
3章の手直しを毎回手でやると、早晩こうなります。「同じ修正を繰り返す」「人によって結果がブレる」「締切前にミスる」。ここからは、やった処理を再現できる手順に固定して、更新ボタン1つで回せる状態を作ります。結論、相性がいい役割分担はこれです。
- 関数:その場で確認しながら整形したい/軽いルール変換(TRIM、SUBSTITUTEなど)
- Power Query:手順を記録して自動で繰り返したい/複数ファイル統合/辞書置換
ステップ1:関数で“正規化列”を作り、Power Queryに渡す
まずは2章の設計通り、原本の右に整形列(正規化)を作ります。ここでの狙いは「キーになりやすい列を、機械的に揃える」こと。
- 例:氏名_正規化:
=TRIM(CLEAN(A2)) - 例:会社名_正規化:
=SUBSTITUTE(TRIM(CLEAN(A2)),"㈱","株式会社") - 例:金額_数値:
=VALUE(SUBSTITUTE(SUBSTITUTE(A2,"¥",""),",",""))
ポイントは「正規化列=後工程の入力」として扱うこと。原本の置換に寄せるほど、検証と差し戻しが難しくなります。
ステップ2:テーブルからPower Queryへ(手順を“レシピ化”)
テーブル化している前提なら、流れは簡単です。テーブル内をクリック→[データ]→[テーブルまたは範囲から]でPower Queryを開きます。ここからは「手順が右側にログとして積まれる」ので、同じクレンジングを翌月も再現できます。
まず入れたい鉄板の処理は次の3つです。
- データ型の固定:日付/数値/テキストを明示(型ズレが事故の温床)
- 空白・余計な空白の除去:[変換]→トリミング/クリーン
- 不要列の削除:出力に要らない列は早めに落とす(処理が軽くなる)
ステップ3:表記ゆれは“辞書”で置換(育てるほど強くなる)
表記ゆれを手作業の置換で回すと、抜け漏れが出ます。Power Queryなら、置換ルールを別表(辞書)として持てます。
やり方はシンプルです。
- Excelに「辞書」テーブルを作る(例:列はBeforeとAfter)
- Power Queryで元データと辞書を読み込む
- [結合(マージ)]で照合し、Afterを優先して置換する
これで「㈱→株式会社」「(株)→株式会社」などを後から追加していくだけで、クレンジング精度が積み上がる運用になります。3章で言った「よく出る10パターン」も、この辞書に移すと管理が一気にラクです。
ステップ4:複数ファイルを“フォルダから”一括取り込み
20代の現場あるあるが、月次データがバラバラのファイルで届くケース。Power Queryの[フォルダーから]を使うと、同じ形式のファイルをまとめて取り込み→同じ手順で一括クレンジングできます。
- フォルダに受領ファイルを放り込む
- Power Queryが全ファイルを結合し、同じ変換を適用
- 翌月はファイルを入れ替えて更新するだけ
ここまで作ると「作業」から「運用」へ変わります。締切前の手直し地獄が、ほぼ消えます。
ステップ5:出力は“読み取り専用成果物”としてシートに戻す
最後に、Power Queryの出力先を決めます。おすすめは新規シートに読み込みです(元データと作業列を汚さない)。
- [閉じて読み込む]→テーブルとして出力
- 集計用ピボットやグラフは、この出力テーブルを参照
これで「原本(00_原本)」「ルール(99_ルール)」「成果物(PQ出力)」が分離し、更新しても壊れにくい構造が完成します。次章では、この仕組みをチェックリスト化・テンプレ化して、チームで回してもブレない形に落とし込みます。
5章:再発防止と運用:チェックリスト化・テンプレ化・共有で「毎回ラク」にする方法
ここまでで「きれいにする手順」は作れました。でも実務で効くのは、次回以降も同じ品質で、同じ速さで回る状態です。クレンジングがしんどい原因は、作業量よりも毎回“考え直す”ことにあります。そこで5章では、仕組みを運用に落とし込みます。
①チェックリスト化:迷いをゼロにして、抜け漏れを防ぐ
おすすめは、ブック内の「99_ルール」シートにチェック欄付きの手順を作ること。たとえばこんな粒度です。
- 原本(00_原本)は保護されている
- テーブル名(tbl_xxx)が正しい
- チェック点(行数/必須空欄数/重複件数)を更新前後で確認
- Power Queryのエラー行が0件になっている
- 出力(PQ出力)を参照して集計している(原本直参照しない)
ポイントは「作業」ではなく「確認」を書くこと。慣れたころに起きる事故(参照先ミス、更新忘れ、型ズレ)をつぶせます。
②テンプレ化:受領→更新→納品を“型”にする
毎月・毎週やるなら、ブック自体をテンプレにしましょう。構成は4章までの設計をそのまま固定します。
- 00_原本:受領データ貼り付け専用(編集しない)
- 99_ルール:表記統一ルール/辞書テーブル/チェックリスト
- PQ出力:Power Queryの成果物テーブル(集計はここ参照)
テンプレ運用のコツは、受領データの差し替え方法を1つに決めることです。たとえば「00_原本のテーブルに上書き貼り付け」か、「受領ファイルをフォルダに入れて更新(4章のフォルダ取り込み)」のどちらかに寄せる。ルートが複数あると、引き継ぎで事故ります。
③共有:属人化を防ぐ“見える化”のコツ
チームで回すなら、次の3点だけでも共有するとブレが減ります。
- 辞書置換は「辞書テーブル」に追記(手作業の置換禁止)
- 例外は「例外ログ」シートに残す(日付・担当・内容・対応)
- 成果物の定義:納品に使うのは「PQ出力」だけ(原本や加工列は内部用)
「この表記ゆれ、また出た」みたいな学びが辞書に積み上がると、クレンジングは回すほどラクになります。
④最後に:更新ボタンの前後で“数を持つ”
運用の仕上げは、チェック点を数字で固定すること。行数、必須項目の空欄数、重複件数——この3つだけでも、更新前後で差分が説明できます。上司に聞かれたときも「何をどう直したか」が数字で返せるので、仕事が一段ラクになります。


コメント