ビッグデータの衝撃　巨大なデータが戦略を決める　城田真琴

ビックデータという言葉が出てもう随分と経った。
ＩＴテクノロジーの最先端を行っている人にとっては今更的な言葉。
だけど、ＩＴに乗り遅れた人にとっては、何のことかいまだにわかっていない。
そして、そんな古き良き会社が世の中はほとんどだ。
情報の価値、情報の活用に本当の意味で価値を見出し、経営資源を投下する意思決定をするのは、
ＩＴのことがちんぷんかんぷんな今の５０代、６０代の人たちには無理は話なのかもしれない。
おじさんたちが良く分かっていないのに、そこそこの規模のデータにビックをつけたり、
やみくもにデータを収集して分析すれば価値が生み出せるかのようなことを、
知ったかぶって話しているのを聞くと、若干辟易する。
本書が発売されたのは２０１２年。
データ活用を推進している会社は情報の収集、分析によって有益な知見を得、それを経営判断に活かしている。
一方で、そういったことと無縁だった会社はいつまでたっても変わらない。
今後ＩＴリテラシーの差は、企業、組織によって大きく開いていくと思う。
執筆者の城田真琴さんは野村総合研究所イノベーション開発部　上級研究員。ＩＴアナリスト。
そもそもビックデータとは何か。
城田さんは３Ｖで特性が示されると言っている。
その３Ｖとは、
Volume (量：数十テラバイト～数ペタバイト、さらにそれ以上）
Variety (多様性：一言でいえば、構造化されていないデータ　監視カメラの映像データや、位置情報、センサーデータなど）
Velocity(頻度：1秒間に何百、何千件と発生する）
この中でも、個人的にはVarietyの部分が、ビックデータの際立った特徴ではないかと思う。
定義づけして、データベースに行で管理されてきた売り上げ等会計データや、顧客データと、これらは全く異質なものだから。
ビックデータの幕開けはGoogleが2004年に公開した論文に端を発する。
そこからオープンソースとして公開され、Apache Software Foundationによて開発が進められている、
ハドゥープというソフトウェアプログラムが生まれた。
ハドゥープは三つの主要素から構成されている。
「HDFS: Haddop Distributed File System」大容量ファイルを分割して格納するファイルシステム
「Hadoop MapReduce」大量データを効率的に分散処理可能なフレームワーク
「HBase」巨大データテーブル
MapReduceは高性能なＣＰＵやディスクを搭載していない、汎用品コンピューターでも、
多数並べて構成すれば超効率的にデータ処理を可能にした。
これによってデータ活用の敷居が低くなり、一躍ビックデータという言葉が盛り上がることになる。
こうした技術によって様々なデータが収集、分析されるようになったが、活用パターンには傾向がある。
１．商品やサービスのレコメンデーション
２．行動ターゲティング広告
３．位置情報を利用したマーケティング
４．不正検出
５．顧客離反分析
６．故障予測
７．異常の検出
８．サービスの改善
９．渋滞予測
１０．電力の需要予測
１１．風邪の流行を予測
１２．株式市場の予測
１３．燃料コストの最適化
これらを纏めると以下の４つのカテゴリーに分けられる。
Ａ．個別最適・バッチ型　（クーポン配信や個人カスタマイズ保険など）
Ｂ．個別最適・リアルタイム型　（コールセンターオペレーターの最適割当など）
Ｃ．全体最適・バッチ型（統計情報のフィードバックなど）
Ｄ．全体最適・リアルタイム型（フライト遅延予報サービスなど）
ただ単に闇雲にデータを集めただけでは、それはガラクタに過ぎない。
そこから分析にどういう知見を導きだし、さらに経営判断に活用していくか。
まず、データ収集の段階からゴールと道筋が見えてなければデータ活用は成功しない。
今では多くの企業がデータ解析技術を向上させているし、
政府のLinked Open Dataの取り組みもデータの活用とイノベーションを後押してしている。
基本的にはかなり大きな規模があり、一つの意思決定がそれなりのインパクトを持つ、
または一つ一つが小さくても集まれば大きなインパクトとなるくらいの活動に対してでなければ、
データ分析がコストを上回るのは難しいのではないかなと思う。
だけど一方で、これだけデータ収集と分析が身近になれば、
個人レベルでも何か世の中の役に立つことができるのではないかという期待感がある。
なので、僕は引き続き勉強をしていこうと思います。
可能なら何か世の中の役に立つデータ解析をして発信するようなことをしてみたい。