NEWS

お知らせ

プレスリリース

「AIクローラー」ドキュメント種別判定機能追加

2021.09.27
Pocket

現在提供している「AIクローラー」のドキュメント区分判定機能の追加されより必要なドキュメントのみを抽出する精度が向上いたしました。

現在のAIクローラーの特長

AIクローラーは人間が検索エンジンを使って検索するのと同様に、検索キーワードのみを指定することで欲しいコンテンツをクロールし、必要な項目のみを蓄積可能にしています。

今回加わった機能

対象のドキュメントが「期待されてるドキュメントの種別かどうか」をスコアリングいたします。

弊社のPDF解析機能の品質向上により、以下の特長をクロール結果のドキュメントに付与することができました。

PDFのページ数

告知ドキュメントであれば少ないページ数ですが、ページ数が多い場合には報告書であるケースが増えます。

PDFに含まれる「数値のみが含まれたセルの多さ」

収支報告のようなドキュメントかどうかが、数値のみが含まれたセルの多さで判定可能です。

PDFに含まれる「空白セルの多さ」

官公庁や自治体には「申込用紙」がPDFで公開されているケースが多いです。空白セルが多いケースでは申込用紙らしさが特徴量に変換できます。

自然言語処理のみに頼らず、以下の例のようにドキュメントの構造全体を参考にすることで文書のカテゴリ分類を柔軟にしています。

例)数値が含まれているセルが多い場合には収支報告書のような文書であるという判定をします

例)ページ全体をみて、罫線とテキストの位置関係を参照し、空欄が多いドキュメントは申込書であるという判定をします。

AIクローラーについての詳細は下記プロダクト説明ページをご覧下さい。

AIクローラー
Pocket

CONTACT

お問い合わせ・ご依頼はこちらから