カテゴリー : クローリング/スクレイピング
yugoyamamotoです。 「ぽこぽこ界隈」というSNS動画界隈があります。界隈といいますが実際にはそういう動画編集フォーマットです。動画あたりの商品紹介の密度という点ではすばらしい発明です。教養として把握しておくべ […]
はじめに こんにちは、エンジニアのmiyakawaです。 ビッグデータとよく聞きますが、いまだに表に記載されているデータがPDFの中にあるということは珍しくありません。 PDF内に記載されている表が1つくらいなら手作業で […]
はじめに 近年、国内でも不正アクセスによる事件が相次ぎ、私たちが利用している多くのサービスで「二段階認証」の導入がほぼ必須となっています。 その中でも代表的なのが、Google Authenticatorを使ったワンタイ […]
PDFでのデータ公開が止まらない yugoyamamotoです。 文書のパーマリンクを共有しておけばリアルタイムに最新版が見れて便利だよねというのがインターネットの便利さではあるのですが、一向にPDFを添付しあうという文 […]
UTF8には3種類ある UTF8と一言で言っても業務上は3つの分岐が発生します BOMなしUTF8 一般的なUTF8ですね BOMありUTF8 「CSV拡張子のファイルをダブルクリックしてエクセルで文字化けせずに開かせた […]
Nokogiriのtextメソッドは子孫要素まで結合されて困る RubyのNokogiriでHTMLをスクレイピングするとほぼ必ず使うメソッド「text」は、子孫要素全てのテキストを結合して取得する仕様となっています。そ […]
curlのレスポンスでheaderとbodyを分けて取得したい スクレイピングの際にはcurlコマンドを使うケースが多いですが、その際にレスポンスヘッダを取得したいケースがあります。 curl -i で、レスポンスヘッダ […]
はじめに 弊社では古くから運用しているプロジェクトなどでRuby2.4のような古いバージョンを利用しているプログラムがいくつか存在しています。そのようなレガシー環境では、最新のライブラリを使えない、あるいはパフォーマンス […]
データサイエンティスト泣かせのPDF 自治体や官公庁の多くはPDFで情報を公開しています。ところがPDFはほぼ印刷データに近いかたちで構造化データにはなっていません。エクセルやWordで無理やりPDFを開けばある程度は構 […]
近年ReactやVueなどクライアントサイドレンダリング(CSR)のサイトが多くなってきました。 それに伴い、NokogiriなどHTMLのDOMを参照するスクレイピングでは太刀打ちできないサイトが多くなりました。 今回 […]
お問い合わせ・ご依頼はこちらから