カテゴリー : データ/フォーマット
はじめまして、アルバイトのmihataです。 Rubyではエクセルファイルを作成するとき、RubyXLライブラリを使用することが一般的です。しかし、RubyXLは機能が豊富な反面、実行速度が遅く、またメモリ使用量が多いと […]
PDFをスクレイピングしたいニーズは結構ある 山本ゆうごです。 PDFをスクレイピングしたいというご相談をうけることがあります。 構造化されたテーブルデータにスクレイピングするご相談もあれば、単に全文検索したいというニー […]
こんにちは。エンジニアの佐々です。 ルーターが提供する「アドクロール」は、国内最大級の対応媒体数・収集クリエイティブ数のインターネット広告・アプリ広告クリエイティブデータベースです。膨大なデータを効率良く検索できるよう、 […]
エンジニアの Kanazawa です。弊社のデータアグリゲーション事業では、クローラによるデータの取得から、一部では「名寄せ」を行なうことで、さらに利用価値を高めてデータを提供することも行っております。 このブログでは、 […]
こんにちは。エンジニアの増田です。 昨今、様々なシチュエーションで透明性が叫ばれ、官公庁や地方自治体でもデータ公開が増えております。しかし、外向けのデータ公開に慣れていなかったり、既存ツールの制約上、機械判読が困難なPD […]
logrotateのcopytruncateによる記入漏れ検証 はじめに アルバイトのajikiです。ログを管理するのにloglotateを使う際、ログファイルにクローズを要求できないために、前のログファイルに永久に書き […]
ルーターエンジニアの Sasaokaです。 スクレイピングを行っていると避けて通れないのが、取得したデータのクレンジング処理です。簡単なところで行くと、取得したデータの前後に含まれる空白文字除去から始まり、表記の揺れを如 […]
mysqldumpのinsertを1000件ずつコミットする きっかけ mysqldumpを取り込む際の悩みとして、一斉に全てのレコードを取り込んでしまうとメモリが溢れてしまう場合があります。今回はダンプファイルのins […]
はじめに こんにちは、学生バイトの福島です。私がルーターに来てからはや一年半ほどが経ち、この記事でブログも3回目となります。 過去記事↓ pythonでlineへ通知してみよう! 前回に続き今回もpythonを使って、c […]
利用シーン UTF-8で記述されたテキストをShift-JISエンコードに変換する機会はあります。 UNICODEで表現できる文字の種類の方がShift-JISに比べて圧倒的に広いのですべての文字が変換できるわけではあり […]
お問い合わせ・ご依頼はこちらから