AIクローラーに本文抽出サービスが加わりました。

NEWS

お知らせ

2019.03.28

AIクローラーに未知のレイアウトのWebサイトから、ナビゲーションバーやサイドバー、フッターなどを取りのぞいた、本文部分のみを抽出するサービスを提供いたします。

通常のスクレイピング技術では、あらかじめレイアウトが決まっており、どの部分がコンテンツとして重要かということがわかってることが前提となっております。しかしながら、未知のレイアウトのサイトでは、本文領域が分かってないため重要ではない単語も同時に取得してしまいます。

上記の例では、教授の情報を取得したいにもかかわらず、サイドバーやフッターなどから別のスタッフの情報もまじるため、精度高くナビゲーション領域を排除する必要があります。

一般的な本文抽出技術では、リンクが多い領域をナビゲーション領域とみなして排除するルールで提供されいることが多いですが、ECサイトなどは本文領域にもリンクが多いためこのルールでは適用できません。

弊社の技術では、ページの中からナビゲゲーションリンクをたどり、別ページとの差分をとることで、「変わらない領域は本文ではない」という判定をすることで、本文部分を判定しております。

昨今のSEOでは本文のコンテンツが重要視されております。SEO上位のサイトの本文部分のみの情報を収集することで、検索エンジンが評価しているフレーズが何かということを分析いたします。

機械学習の教師データとしてWebサイト上の情報を取得する例が多く見られます。何ゲーション上の単語は出現頻度も単語としての重要性も高いですが、本文とは無関係なデータであるため、排除した上で教師データを作る必要があります。

お問い合わせ・ご依頼はこちらから