データサイエンティスト泣かせのPDF 自治体や官公庁の多くはPDFで情報を公開しています。ところがPDFはほぼ印刷データに近いかたちで構造化データにはなっていません。エクセルやWordで無理やりPDFを開けばある程度は構 […]
はじめに こんにちは。エンジニアのmiyakawaです。 みなさん、古いバージョンのGoogle ChromeをSeleniumで動かしたい場面はありませんでしたか。 Railsの開発中に、CIだけで落ちるテストを発見し […]
近年ReactやVueなどクライアントサイドレンダリング(CSR)のサイトが多くなってきました。 それに伴い、NokogiriなどHTMLのDOMを参照するスクレイピングでは太刀打ちできないサイトが多くなりました。 今回 […]
はじめに 皆さんこんにちは。エンジニアの Hodoshima です。 今回は、システムの運用について、データベースとの接続が切れてしまった場合の処置について考える必要があったため、そのお話をします。 データベースの再接続 […]
Canvaの無料枠のみを使ってデモ動画を作成する方法を紹介します。結論、無料枠でできることは字幕の挿入とカットです。なお、ブラウザ上で操作するデモ動画であれば、ズームした状態で動画を撮影すればズームのある動画になります。 […]
スクレイピング業務で一番使うのはSQL スクレイピング業務で一番使うのは実はSQLです。プログラムを作った後にまともにデータが入っているかどうか、ゴミデータなどが混じってないかどうかを確認します。 期待通りのデータかどう […]
PostgreSQLでmysql_fdwを使い、UTF8MB4の外部テーブルの文字化けを防ぐ方法 この記事では、PostgreSQLのプラグイン「mysql_fdw」を活用し、MySQLのテーブル(文字コードがUTF8M […]
はじめに エンジニアのsassaです。 MySQLからPostgreSQLへの移行を進める中で、enum型に起因する問題が浮き彫りとなりました。本ブログでは、移行時に直面した課題やその解決策を共有します。具体的には、en […]
こんにちは、エンジニアの yamauchi です。 今回は、slackでファイル共有を行った際にバイナリファイルとして認識される問題と その対処法について調査したので共有します。 slack上でrubyファイルがバイナリ […]
弊社では開発言語として主にRubyを使用し、クローリングやスクレイピングを業務として行っています。その過程で、プログラム内でURLを扱うことが多々あります。特にURLエンコードは正確なデータ取得や通信の安全性を保つために […]
お問い合わせ・ご依頼はこちらから