ビッグデータのしおり

ビッグデータとは

ビッグデータとはその名の通り、「大きなデータ」のことです。個人の家計簿もデータには違いがありませんが、人間が読める程度のデータです。ビッグデータは人間が読みきれない量のデータとなるため機械（コンピュータ）が読むことを前提としています。

ビッグデータは人が読みきれない大きさのデータ
ビッグデータは機械が読むことを前提としている

機械が読めるデータであることを「マシンリーダブル」といいます。パソコンで作ったファイルであっても、WordやPowerPointで作ったファイルはマシンリーダブルではありません。エクセルはある程度マシンリーダブルですが、CSVファイルなどの書式情報の無いファイルが一般的にはマシンリーダブルとされています。機械にやってほしいことは、それまで小さなデータで人間がやっていたことです。

集計・並び替え
データの傾向を掴む
予測をする

といったことです。順に具体例をあげます。

集計・並び替え
- エクセル・リレーショナル・データベースによる処理
データの傾向を掴む
- グラフ化・ビジュアル化（エクセルやBIツールなどを使う）
予測をする
- BIツールや統計解析ソフト・機械学習ライブラリなどを使う

いずれも、数値を人間が読みとくのではなく、機械がデータの「くせ」を発見しやすくするというのが特徴です。

内部データ／外部データ

内部データとは、自社サービスのログファイル・会計情報・従業員の活動情報などの社内の情報のことです。最初からデータとなっているのであとは分析するだけです。普段からKPIとして予実管理をしていることが多いでしょう。内部データはマネジメントの一環としてモニタリング・管理されます。一方で競合他社の情報は入手が難しいです。ただ、以下の例のように公開されている情報なら入手可能です。

競合ECの品揃え・価格
競合の公式SNSのいいね数・シェア数
競合の広告出稿数・出稿内容
競合ソリューションの導入店舗数

外部データの入手は一種のリサーチとなりますが、リサーチ会社がすべて都合よくデータを保持しているとは限りません。ましてやすでに競合と自社の比較を行ったデータが公開されていれば、その差異を埋めるべく競合も動くでしょう。「まだ整理されてない外部データを整理する」ということが重要です。

「自治体が公開するデータ」なども外部データとなります。ただ、多くの自治体ホームページを個別に訪問してデータを収集するのでは非効率です。こういうケースでも一旦は外部データとして自治体を横断したデータにすることで「まだ整理されてない外部データが整理された」状態となります。

エッセンシャルデータ／オルタナティブデータ

エッセンシャルデータとはオルタナティブデータとの区別をつけるための概念です。例えば店舗の売上をエッセンシャルデータとすると、店舗の駐車場の埋まり具合はオルタナティブデータとなります。欲しい情報が入手できないときに、「大きく相関があるだろう」というデータがオルタナティブデータとなります。生のデータが入手できない苦肉の策というわけではありません。大半のデータはオルタナティブデータです。オルタナティブデータを精度よく整理することでエッセンシャルデータを同等の精度で予測が可能になります。

教師データとは

ビッグデータの一番新しい用途が「予測」です。未来を予測する意味だけではなく、人間が行っていた直感的判断も機械学習により実現可能になりました。特に画像認識は人間が得意である一方で機械が苦手とされてきた領域です。人間が行ってる直感的判断はルールに落とし込みにくいことがネックとなっていました。機械学習の発展により、ルールを教えなくても、大量の「問と答」のペアを与え「訓練」することで「予測モデル」が作れるようになりました。プログラムは人間が作るのではなく機械が学習をしてプログラムを吐き出します。そのプログラムのことを「予測モデル（単にモデルということもある）」を作り出します。予測モデルの役割によっては、AとBに分ける「分類器」や、写真の中に何が写ってるかを言い当てる「オブジェクト検出器」などがあります。人間はプログラミングという作業から開放されましたが、今度は教師データを用意する必要が出てきます。自動車の形から車種を予測するモデルを作るには、大量の自動車の写真とその車種名が必要となります。教師データの作成にはたくさんの人間が作業をする「クラウドソーシング」という方法と、インターネット上で公開されている情報から取得する「スクレイピング」があります。

クローリング・スクレイピングとは

クローリングとスクレイピングは共に似た文脈で語られます。厳密な定義はありませんが、弊社では以下のように使い分けています。

クローリング → 公開されているWeb画面全体を巡回する（ブラウザ操作の自動化）
スクレイピング → Web画面から必要な箇所だけ抜き出す（読むことの自動化）

単に中古車サイトから画面全体の情報を持ってくるだけでは教師データとしては不十分です。画面の中から「車種を表しているであろう段落」を取得して初めて教師データとなります。また価格情報のみを抜き出せば、同じ車がどの程度の価格レンジで売られているかという相場情報を作ることも可能です。ビッグデータの主な用途の「データの傾向を掴む」ことも可能になります。

ビッグデータをどれくらいの頻度で取得し続けるべきか

「データ分析をしたい」「AIで予測をしたい」と言ったときに、「どの程度の頻度でそのデータをみたいか」ということを確認すべきです。機械学習の教師データとしての収集であれば、機械学習のモデルを作るタイミングだけでいいでしょう。またそのモデルをどんどん更新しなくては行けない時には、高頻度でデータを収集する必要がありますが、先程の自動車の車種の学習であれば、新しい自動車が出たときだけ追加で学習すればいいでしょう。一方で「価格の相場を掴みたい」という用途の場合は、常に変動するため高頻度でデータ収集が必要です。「同じ商品の競合と自社との価格差を知りたい。さらに自社が高い場合には競合よりも安く売りたい」ということであれば、デイリーやアワリーでのデータ取得が必要となります。データ分析というと半期に一度データサイエンティストが分析するようなイメージもありますが、本当に必要なのは日々のアクションにつながるための材料です。

オープンデータとは

ビッグデータの中で「オープンデータ」という概念も出てきました。「オープンデータ基本指針（平成29年5月30日 IT本部・官民データ活用推進戦略会議決定　令和元年６月７日改正）」では以下のように定義されています。国、地方公共団体及び事業者が保有する官民データのうち、国民誰もがインターネット等を通じて容易に利用（加工、編集、再配布等）できるよう、次のいずれの項目にも該当する形で公開されたデータをオープンデータと定義する。

営利目的、非営利目的を問わず二次利用可能なルールが適用されたもの
機械判読に適したもの
無償で利用できるもの

この中で一番重要かつ達成されてないのが「機械判読に適したもの」となります。冒頭に述べた「マシンリーダブル」なデータが求められています。国だけではなく企業でもこのマシンリーダブルでつまづきがちです。デジタルデータであればデータであろうと思いがちなのですが、以下のようなものは「マシンリーダブルではないファイル」です。

PDF
セル結合されたエクセル
スペースによって字幅を調整されたエクセル

いずれも「人間が読むためのレポート」としてドキュメントファイルは存在しますが、分析集計済であり、データとしての再利用ができるわけではありません。ビジネスの現場では「素データ」などと言われることもあります。オープンデータとして求められているのは素データであって、加工済みのレポートではありません。コンピュータをドキュメンテーションツールとして使い慣れている人にとっては「人が読みやすいドキュメント」として頑張ってしまいがちですが、オープンデータに求められるものは「機械が読みやすいデータ」であることから、周囲に注意と啓蒙が必要となります。

ビッグデータが作る未来

インターネットやスマホによって、私達の生活は支えられています。単に紙の書類がなくなるだけではありません。人間が読むことから開放され機械が読むようになることで、UIが必要なくなります。意思決定のための分析・検討までも機械が行います。モニターやキーボードの前に張り付くことから解放され、リアルな世界で創造的な活動に集中できるのがビッグデータが作る未来です。