ビッグデータって何だ

昨年から続いてきた話だが、今年のトレンドはビッグデータだろう。

いろんな人がビッグデータと言っている。大阪商工会議所までが「ビッグデータ」を言い出したのには、少し驚いた。

ところが、意外にもビッグデータの定義は人によってバラバラなのだ。Wikipediaなどは、ビッグデータのサイズがエクサバイトだと言っている。エクサは10の18乗、百京だ。情報処理学会の会報でどこかの研究者が言っていたのは、テラバイトすなわち10の12乗のあたり。おそらく大商が想定しているのはもっと小さく、ギガバイト(10の9乗)あたりではなかろうか。

これほど定義がバラバラなのは、「ビッグデータ」というあいまいな名前が原因だろう。

そこで、上記の定義が具体的には何を想定しているかを見てみよう。まず、日本版Wikipediaに対するケチから始めたい。

日本版Wikipediaの「ビッグデータ」項目には自己矛盾がある。現在人類が手にする最大サイズのデータが「ビッグデータ」なのだと定義しているのだ。というとビッグデータは常に一種類しかないことになる。さらに困ったことに、このビッグデータは原理的に処理できない。

ところが記事の後の方では、ビッグデータに分類できるのは、巨大科学、RFID、センサーネットワーク、ソーシャルネットワーク、ビッグソーシャルデータ分析、インターネット文書、インターネット検索のインデックス作成、通話記録明細、天文学、大気科学、ゲノミクス、生物地球化学、生物学、軍事偵察、新しい住宅購入者用の通勤時間予測、医療記録、写真アーカイブ、ビデオアーカイブ、大規模なeコマース、などという記述がある。

何故このような自己矛盾の記事ができあがるかと言うと、Wikipediaは多数の人間が編集するからだ。最初の部分を書いた人と後ろを書いた人が異なるのは普通で、文中の一単語を別の人間が置き換えることさえよくある。Wikipediaは入り口としてはたいへん便利だが、信用しすぎないようにしなければならない。必ず別のソースから裏を取るように。

次に情報処理学学会の学会誌の記事中の定義はたいへん明確だ。一台のコンピュータでは処理できないサイズであること、しかし並列処理を行うことで処理が出来るサイズであること、というわけだ。この定義によるとビッグデータサイズは、現在の環境では10の10乗程度から13乗程度(100億〜10兆)ということになる。

しかし残念ながら、これでは適用範囲が狭すぎて、あまり使えない(この研究者もそう言っていて、彼はビッグデータの利用に懐疑的な意見を述べている)。

最後に大商についてだが。商工会議所というのは、そもそも中小企業のための組織だ。だから、一般の大商会員が手にできるデータは限られる。それでも大商が「ビッグデータ」というからには、ビッグデータの定義をかなり低くおいていると推察できる。

おそらく、大商が想定しているのは最大でも10の10乗程度、10の8乗程度でもビッグデータに入れているのではないか。