MAGAZINE

ルーターマガジン

クローリング/スクレイピング

OCRの誤認識を自動修正する画像タグ付け運用

2023.11.16
Pocket

こんにちは。エンジニアの佐々です。

ルーターが提供する「アドクロール」は、国内最大級の対応媒体数・収集クリエイティブ数のインターネット広告・アプリ広告クリエイティブデータベースです。膨大なデータを効率良く検索できるよう、ユーザーの目的に合わせた柔軟な検索機能を豊富に搭載しています。

今回はその検索機能の一環として、マンガ情報検索を事例に取り上げ、OCR(光学文字認識)の誤認識を自動修正するタグ付け機能に焦点を当ててご紹介します。

マンガ情報検索機能

マンガ情報検索では、漫画タイトル、漫画作者、漫画出版社でカルーセル広告を絞り込むことができます。

カルーセル広告へのマンガ情報がタグ付けされたアドクロール画面

カルーセル広告は、1つの広告に対し複数の画像や動画を横並びに表示できる広告フォーマットという特性上、漫画のコマやページを横並びに表示することで試し読みができるため、漫画広告との相性は高いです。

マンガ情報検索では、複数の媒体や広告主のマンガ広告を横断的に比較検索することができます。

クロールした漫画広告画像への自動タグ付け

マンガ情報検索機能のために漫画広告にマンガ情報をタグ付けする必要があります。

漫画広告画像には著作権の関係上、大半がコピーライトマーク(©)が表記されており、『「漫画タイトル」© 漫画作者 / 漫画出版社』のフォーマットで統一されています。

この著作権の表記フォーマットを利用して、クロールした漫画広告画像内から漫画タイトル、漫画作者、漫画出版社をタグ付けしています。

OCRによるタグ付け

広告画像のような文字情報を含む画像のタグ付けにおいて、OCR技術は画像内のテキスト情報を抽出する重要なツールです。

ただし、漫画広告画像のような複雑な字体や背景ノイズが多い画像では、OCRの認識率が著しく低下します。この誤認識によりタグ付けの精度が低下し、手動修正が必要となるため、効率化の障壁となります。

OCR誤認識の自動修正

OCRの誤認識による手動修正を減らすため、過去の修正ログを活用し、誤認識が再発した場合は自動修正できるようにしました。

例えば、「ツーピース」という漫画のタイトルをOCRが「シーピース」や「ッーピース」と誤認識した場合、人間が正しい「ツーピース」に修正します。この時の誤認識と修正結果をログに記録され、次に同じ誤認識が発生すれば、ログに基づき自動で「ツーピース」に修正できます。

このように過去の修正ログを活用することで、再発するOCR誤認識を効率的に解決し、新規漫画広告の9割を自動タグ付けできるようになりました。

まとめ

今回は、「アドクロール」のマンガ情報検索機能と、OCR誤認識を自動修正するタグ付け機能について説明しました。

このような運用を通し効率的かつ正確なマンガ情報検索を実現し、ユーザーエクスペリエンスの向上につなげてまいります。

Pocket

CONTACT

お問い合わせ・ご依頼はこちらから