カテゴリー : データ/フォーマット
こんにちは、アルバイトのmihataです。 以前、Rubyで最速でエクセルファイルを出力するコードを作成しました。今回は、そのPython版を作成しました。また、このコードはLinux、Windowsどちらの環境でも動作 […]
Excelで型変換を行いたいときがあるかと思います。今回は文字列型から数値型、日付型への変換の方法とその確認についてまとめました。 ▼ 目次 文字列から数値型に変換する方法 文字列から日付型に変換する方法 終わりに 以下 […]
はじめに ウェブスクレイピングやクローラーの運用では、クロール先のページが変更された場合、クローラーの改修が必要になります。この際、改修前後のデータを比較して、正しく動作しているか、データに差異がないかを確認する作業は非 […]
山本ゆうごです。データベースから大量のテキストを出力する際のTipsをご紹介します。 SELECT … INTO OUTFILE の使いづらさ mysqlからCSV出力する際のサンプルとして SELECT … I […]
jqは、JSONデータを効率的に操作するための軽量で柔軟なコマンドラインツールです。この記事では、jqコマンドでCSVを出力する方法についてご紹介します。 まず、以下のようなJSONを用意します。 ▼sample.jso […]
はじめまして、アルバイトのmihataです。 Rubyではエクセルファイルを作成するとき、RubyXLライブラリを使用することが一般的です。しかし、RubyXLは機能が豊富な反面、実行速度が遅く、またメモリ使用量が多いと […]
PDFをスクレイピングしたいニーズは結構ある 山本ゆうごです。 PDFをスクレイピングしたいというご相談をうけることがあります。 構造化されたテーブルデータにスクレイピングするご相談もあれば、単に全文検索したいというニー […]
こんにちは。エンジニアの佐々です。 ルーターが提供する「アドクロール」は、国内最大級の対応媒体数・収集クリエイティブ数のインターネット広告・アプリ広告クリエイティブデータベースです。膨大なデータを効率良く検索できるよう、 […]
エンジニアの Kanazawa です。弊社のデータアグリゲーション事業では、クローラによるデータの取得から、一部では「名寄せ」を行なうことで、さらに利用価値を高めてデータを提供することも行っております。 このブログでは、 […]
こんにちは。エンジニアの増田です。 昨今、様々なシチュエーションで透明性が叫ばれ、官公庁や地方自治体でもデータ公開が増えております。しかし、外向けのデータ公開に慣れていなかったり、既存ツールの制約上、機械判読が困難なPD […]
お問い合わせ・ご依頼はこちらから