MAGAZINE
ルーターマガジン
Googleスプレッドシートでデータ差分確認
はじめに
ウェブスクレイピングやクローラーの運用では、クロール先のページが変更された場合、クローラーの改修が必要になります。この際、改修前後のデータを比較して、正しく動作しているか、データに差異がないかを確認する作業は非常に重要です。
そこで今回は、スプレッドシートを使ったデータ差分の確認方法をご紹介します。特に複数のシート間でデータの違いを簡単に検出できる方法に焦点を当てます。
データ比較における課題
クローラーの改修後、データに誤りがないかを確認するためには、改修前後のデータを詳細に比較する必要があります。しかし、数百、数千件にも及ぶデータを手動でチェックするのは現実的ではありません。そこでスプレッドシートを利用して、効率的にデータの差異を確認する方法が役立ちます。
スプレッドシートでの差分確認方法
スプレッドシートの便利な関数を活用すれば、手間をかけずに差分を検出することできます。今回使用するのは、INDIRECT
関数とCELL
関数を組み合わせた方法です。この方法では、別シートの同じセルを参照し、データが一致しているかどうかを判別します。
以下の式を利用します。
=(A1&"")<>(INDIRECT("比較対象シート名!"&CELL("address", A1))&"")
式の解説
A1
: 現在のシートのセルを参照します。INDIRECT("比較対象シート名!"&CELL("address", A1))
: 比較対象のシートの同じ位置のセルを参照します。CELL("address", A1)
を使うことで、現在のセルの位置を取得し、それをINDIRECT
関数に渡すことで、比較対象シートの同じ位置のセルを動的に参照しています。- 2つの値が一致していない場合に
TRUE
を返します。これは、改修前後でデータが異なっていることを示します。
この式をスプレッドシートの各セルに適用し条件付き書式で色付けすることで、改修前後のデータ差異を一目で確認できるようになります。異なるデータがある場合は、セルが色付けされます。
実際の手順
-
改修前のデータを準備:
スプレッドシートに、クローラー改修前に取得したデータを貼り付けます。このシートは「改修前シート」とします。 -
改修後のデータを準備:
同様に、改修後に取得したデータを別のシートに貼り付けます。こちらは「改修後シート」とします。 -
差分確認用の列を作成:
改修後シートのデータに対して、前述のINDIRECT
関数を用いた式を条件付き書式として適用します。(前述の式の「比較対象シート名」を「改修前シート」に変更)
(条件付き書式の設定方法:表示形式 → 条件付き書式 → 書式ルール:カスタム数式)
改修前シートと改修後シートの同じ位置のデータを自動的に比較し、差分を表示します。 -
差異の確認と修正:
差異が表示された箇所を重点的に確認し、必要に応じてクローラーの修正やデータの再取得を行います。
▼改修前シート
▼改修後シート
メリット
- 自動化による効率化: 手動で確認する手間を大幅に削減でき、数多くのデータを短時間で比較可能です。
- エラーの早期発見: データの不一致が即座に判別できるため、早期に問題を発見し修正できます。
- 柔軟性: スプレッドシートの関数は柔軟にカスタマイズ可能なので、特定の列やデータ形式に合わせた比較ができます。
まとめ
クローラー改修時のデータ検証は、クロールデータの信頼性を確保する上で欠かせません。スプレッドシートを利用したこの方法であれば、改修前後のデータを迅速かつ正確に比較できます。
CONTACT
お問い合わせ・ご依頼はこちらから