MAGAZINE

ルーターマガジン

データ/フォーマット

Googleスプレッドシートでデータ差分確認

2024.10.04
Pocket

はじめに

ウェブスクレイピングやクローラーの運用では、クロール先のページが変更された場合、クローラーの改修が必要になります。この際、改修前後のデータを比較して、正しく動作しているか、データに差異がないかを確認する作業は非常に重要です。

そこで今回は、スプレッドシートを使ったデータ差分の確認方法をご紹介します。特に複数のシート間でデータの違いを簡単に検出できる方法に焦点を当てます。

データ比較における課題

クローラーの改修後、データに誤りがないかを確認するためには、改修前後のデータを詳細に比較する必要があります。しかし、数百、数千件にも及ぶデータを手動でチェックするのは現実的ではありません。そこでスプレッドシートを利用して、効率的にデータの差異を確認する方法が役立ちます。

スプレッドシートでの差分確認方法

スプレッドシートの便利な関数を活用すれば、手間をかけずに差分を検出することできます。今回使用するのは、INDIRECT関数とCELL関数を組み合わせた方法です。この方法では、別シートの同じセルを参照し、データが一致しているかどうかを判別します。

以下の式を利用します。

=(A1&"")<>(INDIRECT("比較対象シート名!"&CELL("address", A1))&"")

式の解説

  • A1: 現在のシートのセルを参照します。
  • INDIRECT("比較対象シート名!"&CELL("address", A1)): 比較対象のシートの同じ位置のセルを参照します。CELL("address", A1)を使うことで、現在のセルの位置を取得し、それをINDIRECT関数に渡すことで、比較対象シートの同じ位置のセルを動的に参照しています。
  • 2つの値が一致していない場合にTRUEを返します。これは、改修前後でデータが異なっていることを示します。

この式をスプレッドシートの各セルに適用し条件付き書式で色付けすることで、改修前後のデータ差異を一目で確認できるようになります。異なるデータがある場合は、セルが色付けされます。

実際の手順

  1. 改修前のデータを準備:
    スプレッドシートに、クローラー改修前に取得したデータを貼り付けます。このシートは「改修前シート」とします。

  2. 改修後のデータを準備:
    同様に、改修後に取得したデータを別のシートに貼り付けます。こちらは「改修後シート」とします。

  3. 差分確認用の列を作成:
    改修後シートのデータに対して、前述のINDIRECT関数を用いた式を条件付き書式として適用します。(前述の式の「比較対象シート名」を「改修前シート」に変更)
    (条件付き書式の設定方法:表示形式 → 条件付き書式 → 書式ルール:カスタム数式)
    改修前シートと改修後シートの同じ位置のデータを自動的に比較し、差分を表示します。

  4. 差異の確認と修正:
    差異が表示された箇所を重点的に確認し、必要に応じてクローラーの修正やデータの再取得を行います。

▼改修前シート

▼改修後シート

メリット

  • 自動化による効率化: 手動で確認する手間を大幅に削減でき、数多くのデータを短時間で比較可能です。
  • エラーの早期発見: データの不一致が即座に判別できるため、早期に問題を発見し修正できます。
  • 柔軟性: スプレッドシートの関数は柔軟にカスタマイズ可能なので、特定の列やデータ形式に合わせた比較ができます。

まとめ

クローラー改修時のデータ検証は、クロールデータの信頼性を確保する上で欠かせません。スプレッドシートを利用したこの方法であれば、改修前後のデータを迅速かつ正確に比較できます。

Pocket

CONTACT

お問い合わせ・ご依頼はこちらから