カテゴリー : クローリング/スクレイピング
curlのレスポンスでheaderとbodyを分けて取得したい スクレイピングの際にはcurlコマンドを使うケースが多いですが、その際にレスポンスヘッダを取得したいケースがあります。 curl -i で、レスポンスヘッダ […]
はじめに 弊社では古くから運用しているプロジェクトなどでRuby2.4のような古いバージョンを利用しているプログラムがいくつか存在しています。そのようなレガシー環境では、最新のライブラリを使えない、あるいはパフォーマンス […]
データサイエンティスト泣かせのPDF 自治体や官公庁の多くはPDFで情報を公開しています。ところがPDFはほぼ印刷データに近いかたちで構造化データにはなっていません。エクセルやWordで無理やりPDFを開けばある程度は構 […]
近年ReactやVueなどクライアントサイドレンダリング(CSR)のサイトが多くなってきました。 それに伴い、NokogiriなどHTMLのDOMを参照するスクレイピングでは太刀打ちできないサイトが多くなりました。 今回 […]
スクレイピング業務で一番使うのはSQL スクレイピング業務で一番使うのは実はSQLです。プログラムを作った後にまともにデータが入っているかどうか、ゴミデータなどが混じってないかどうかを確認します。 期待通りのデータかどう […]
動画要約っていうか字幕スクレイピング&要約ですよね 生成AIを使ったYouTube動画要約ツールをみかけますが、実態としては動画本体を解釈しているのではなくYouTubeの字幕を要約しているだけというケースもあります。 […]
frame,iframe内を参照するには 今回はスクレイピングを行う上で、frameやiframe内の要素を参照する方法を紹介します。 結論、Page.getFrameTree、Page.createIsolatedWo […]
答え:できる 仮説)スマホのLINEを自動操縦するのは難しいが、Chromeの機能拡張がスクレピングできるなら機能拡張経由でLINEの自動化はできるのではないか? 以下、サンプルソースです。 require ' […]
みなさま、こんにちは、エンジニアの Hodoshima です。 弊社では、ブラウザを用いた自動操縦を行う際には、ruby の chrome_remote というライブラリを用いて Google Chrome の自動操縦を […]
コマンドラインからchromeを立ち上げる際、複数のオプションを指定して起動することができます。 この記事ではオプションの例・オプション一覧の確認方法についてご紹介します。 オプション指定の例 例1:incognito […]
お問い合わせ・ご依頼はこちらから