ビッグデータとは
ビッグデータとはその名の通り、「大きなデータ」のことです。個人の家計簿もデータには違いがありませんが、人間が読める程度のデータです。ビッグデータは人間が読みきれない量のデータとなるため機械(コンピュータ)が読むことを前提としています。- ビッグデータは人が読みきれない大きさのデータ
- ビッグデータは機械が読むことを前提としている
- 集計・並び替え
- データの傾向を掴む
- 予測をする
- 集計・並び替え
- エクセル・リレーショナル・データベースによる処理
- データの傾向を掴む
- グラフ化・ビジュアル化(エクセルやBIツールなどを使う)
- 予測をする
- BIツールや統計解析ソフト・機械学習ライブラリなどを使う
内部データ/外部データ
内部データとは、自社サービスのログファイル・会計情報・従業員の活動情報などの社内の情報のことです。最初からデータとなっているのであとは分析するだけです。普段からKPIとして予実管理をしていることが多いでしょう。内部データはマネジメントの一環としてモニタリング・管理されます。 一方で競合他社の情報は入手が難しいです。 ただ、以下の例のように公開されている情報なら入手可能です。- 競合ECの品揃え・価格
- 競合の公式SNSのいいね数・シェア数
- 競合の広告出稿数・出稿内容
- 競合ソリューションの導入店舗数
「自治体が公開するデータ」なども外部データとなります。ただ、多くの自治体ホームページを個別に訪問してデータを収集するのでは非効率です。こういうケースでも一旦は外部データとして自治体を横断したデータにすることで「まだ整理されてない外部データが整理された」状態となります。
エッセンシャルデータ/オルタナティブデータ
エッセンシャルデータとはオルタナティブデータとの区別をつけるための概念です。例えば店舗の売上をエッセンシャルデータとすると、店舗の駐車場の埋まり具合はオルタナティブデータとなります。欲しい情報が入手できないときに、「大きく相関があるだろう」というデータがオルタナティブデータとなります。 生のデータが入手できない苦肉の策というわけではありません。大半のデータはオルタナティブデータです。オルタナティブデータを精度よく整理することでエッセンシャルデータを同等の精度で予測が可能になります。教師データとは
ビッグデータの一番新しい用途が「予測」です。未来を予測する意味だけではなく、人間が行っていた直感的判断も機械学習により実現可能になりました。特に画像認識は人間が得意である一方で機械が苦手とされてきた領域です。人間が行ってる直感的判断はルールに落とし込みにくいことがネックとなっていました。 機械学習の発展により、ルールを教えなくても、大量の「問と答」のペアを与え「訓練」することで「予測モデル」が作れるようになりました。プログラムは人間が作るのではなく機械が学習をしてプログラムを吐き出します。そのプログラムのことを「予測モデル(単にモデルということもある)」を作り出します。予測モデルの役割によっては、AとBに分ける「分類器」や、写真の中に何が写ってるかを言い当てる「オブジェクト検出器」などがあります。 人間はプログラミングという作業から開放されましたが、今度は教師データを用意する必要が出てきます。自動車の形から車種を予測するモデルを作るには、大量の自動車の写真とその車種名が必要となります。教師データの作成にはたくさんの人間が作業をする「クラウドソーシング」という方法と、インターネット上で公開されている情報から取得する「スクレイピング」があります。クローリング・スクレイピングとは
クローリングとスクレイピングは共に似た文脈で語られます。厳密な定義はありませんが、弊社では以下のように使い分けています。- クローリング → 公開されているWeb画面全体を巡回する(ブラウザ操作の自動化)
- スクレイピング → Web画面から必要な箇所だけ抜き出す(読むことの自動化)
ビッグデータをどれくらいの頻度で取得し続けるべきか
「データ分析をしたい」「AIで予測をしたい」と言ったときに、「どの程度の頻度でそのデータをみたいか」ということを確認すべきです。機械学習の教師データとしての収集であれば、機械学習のモデルを作るタイミングだけでいいでしょう。またそのモデルをどんどん更新しなくては行けない時には、高頻度でデータを収集する必要がありますが、先程の自動車の車種の学習であれば、新しい自動車が出たときだけ追加で学習すればいいでしょう。 一方で「価格の相場を掴みたい」という用途の場合は、常に変動するため高頻度でデータ収集が必要です。「同じ商品の競合と自社との価格差を知りたい。さらに自社が高い場合には競合よりも安く売りたい」ということであれば、デイリーやアワリーでのデータ取得が必要となります。 データ分析というと半期に一度データサイエンティストが分析するようなイメージもありますが、本当に必要なのは日々のアクションにつながるための材料です。オープンデータとは
ビッグデータの中で「オープンデータ」という概念も出てきました。「オープンデータ基本指針(平成29年5月30日 IT本部・官民データ活用推進戦略会議決定 令和元年6月7日改正)」では以下のように定義されています。 国、地方公共団体及び事業者が保有する官民データのうち、国民誰もがインターネット等を通じて容易に利用(加工、編集、再配布等)できるよう、次のいずれの項目にも該当する形で公開されたデータをオープンデータと定義する。- 営利目的、非営利目的を問わず二次利用可能なルールが適用されたもの
- 機械判読に適したもの
- 無償で利用できるもの
- セル結合されたエクセル
- スペースによって字幅を調整されたエクセル