データサイエンティスト泣かせのPDF 自治体や官公庁の多くはPDFで情報を公開しています。ところがPDFはほぼ印刷データに近いかたちで構造化データにはなっていません。エクセルやWordで無理やりPDFを開けばある程度は構 […]
スクレイピング業務で一番使うのはSQL スクレイピング業務で一番使うのは実はSQLです。プログラムを作った後にまともにデータが入っているかどうか、ゴミデータなどが混じってないかどうかを確認します。 期待通りのデータかどう […]
動画要約っていうか字幕スクレイピング&要約ですよね 生成AIを使ったYouTube動画要約ツールをみかけますが、実態としては動画本体を解釈しているのではなくYouTubeの字幕を要約しているだけというケースもあります。 […]
答え:できる 仮説)スマホのLINEを自動操縦するのは難しいが、Chromeの機能拡張がスクレピングできるなら機能拡張経由でLINEの自動化はできるのではないか? 以下、サンプルソースです。 require ' […]
山本ゆうごです。PostgreSQLでカラムを指定の場所に追加する方法のご紹介です。 答え:ない まず、『ない』というところから覚悟しましょう。公式ドキュメントにも「できない」ということと代替案が書かれています。 htt […]
山本ゆうごです。データベースから大量のテキストを出力する際のTipsをご紹介します。 SELECT … INTO OUTFILE の使いづらさ mysqlからCSV出力する際のサンプルとして SELECT … I […]
スクレイピング後のデータの連携はクラウドストレージが大半 山本ゆうごです。 弊社でスクレピング代行サービスでのユーザ企業とのデータ連携はユーザ企業のクラウドストレージに格納するケースが多いです。 メジャーどころはAmaz […]
PDFをスクレイピングしたいニーズは結構ある 山本ゆうごです。 PDFをスクレイピングしたいというご相談をうけることがあります。 構造化されたテーブルデータにスクレイピングするご相談もあれば、単に全文検索したいというニー […]
山本ゆうごです。 学生の方との面談時に「御社でよく使うプログラミング言語は何ですか?」と聞かれた際に「実際に日常的に使うのはSQLとcurlです」と答えています。ほとんどの学生の方には「curl?」となります。スクレイピ […]
サマリー Rubyで高速にCSVを読み取りたければネイティブモジュールのrscsvを使うと良い。 国税庁法人番号公表サイトの全国法人CSV534万件(1.1G)で都道府県別集計 Pythonの標準CSVでは9秒 それに対 […]
お問い合わせ・ご依頼はこちらから