株式会社ルーターは、「オープンデータ構築」事業の新サービス「PDFスクレイピング」として、独自エンジンによるPDFのスクレイピングサービスを提供します。

現在官公庁や自治体からの情報公開の多くは、PDFによって配信されています。従来のWebクローラーでは、PDFの内容は分割が難しく、データの再利用や機械のよる読み取りが難しい状態が続いていました。その一方で官公庁や自治体からの情報発信は増えつづけており、鮮度の高いPDFを官公庁・自治体を横断して読み取るニーズは高まっております。

PDFスクレイピングによりこうした散在するPDFを正規化し、官公庁・自治体を横断した日本で統一のデータベースを作ることが可能になりました。

PDF解析エンジン

弊社では、PDFフォーマットの解析を進め、テキストや罫線などの全要素を分解しています。この技術により、全要素の位置関係を把握し、どのテキストがどの罫線の中に含まれているかが分かるようになりました。この技術によって独自のPDF解析を実現しております。

特徴

PDFスクレイピングには以下の特徴があります。

  • デスクトップアプリケーションを使ってないため、クラウドサーバー上でスケールできる
  • セル結合された状態の表にも対応し、正規化された状態でデータを取り出すことができる
  • 表だけにとどまらず、表の外のテキストも位置関係を元に順番を並び替えて、人間と同じように左上から読んで、見出しと表の関係性を維持できる
  • 取得したデータはCSVなどの機械が読み取れる形式に変換し、スムーズに別システムと連携することが可能
エクセルやワードにもPDFをオフィスドキュメント形式に変換する機能はありますが、セル結合された表の解析ができない・少しでも複雑な表になると表ではなく画像として変換されるなど、安定的に大量データを処理するのには向いていません。有償のPDF解析ライブラリでも技術的な制約があり、上記の特徴を全て満たすようなソリューションは存在しませんでした。

活用事例

以下のような事例でご利用頂いております。

  • 自治体が承認・登録をしている施設一覧を取得
  • 官公庁や自治体が公開する、議事録のPDFの解析
  • 特許情報などの添付PDFの解析
  • PowerPointなどのプレゼンテーションツールで作られた官公庁主導の事業(補助金)に関するスライドPDFの解析

自治体のDX機運は高まっており、より多くの情報が公開されております。ただし、全てのドキュメントが機械読み取り可能な状態になるまでは、各自治体は既存のツールで公開せざるを得ないため、ますますPDFによる情報公開が増えると思われます。

PDFのデータ収集にお困りの方は、問い合わせフォームより、ご利用に関するご相談をお待ちしております。

Pocket