ビッグデータバブル

世の中、猫も杓子もビッグデータである(もちろん筆者もバブルに踊る猫であるが)。あまり「ビッグ」とは言えないサイズのものや本来ビッグデータには縁もゆかりも無いものまで、ビッグデータとして扱われている。

しかし、このバブルは悪いこととは思わない。それは「データ」に注目が集まったからである。

今までの情報工学あるいはコンピュータ科学では、データよりもシステムに注目が集まってきた。ここでシステムとは、ハードウェアとソフトウェア、ネットワークを含めた周辺技術などの全体を指す。一見これが全てのように思われるがそうではない。それらは皆、情報関連技術を使う側ではなく、提供する側に重きを置いたものであった。いわば本当の意味でのユーザではなく、ベンダ側の都合に合わせていたのである。

「データ」はユーザのものである。これこそが人間活動の表現であり結果である。だから、少々ビッグデータの概念と外れていても許してもらおう。ビッグでもスモールでもデータである。

その意味で、現在言われている「ビッグデータ」の概念は「データ中心主義」、「データ駆動」、「データ志向」などと言い換えることができよう。データを中心に置くと、多くの分野でパラダイムシフトが起こる。

次節以降でデータ中心の開発手法を取り上げるが、ここに良い本がある。

「アジャイルデータサイエンス — スケーラブルに構築するビッグデータアプリケーション –」

他のオライリーの本と同じように動物が描かれた表紙の技術書である。決して情報工学の概要書ではない。だが、この本には重要な示唆がある。

この本のテーマは、メールの分析である。いくつかのアプリケーションを利用して、大量のメールを分析し、分析結果を可視化しようとする目的で書かれている。最初はローカルにシステムを構築し、最終的にはクラウド上に展開して、ペタバイトサイズ(りっぱなビッグデータである)のメール分析を行えるシステムに仕上げる。

技術的な内容は重要ではない(それ故、一部の専門技術者を除いては読んでも面白くない)。大事なのは、データの流れを中心に置いてシステムを開発するときに、必然的にアジャイル開発手法が選択されているところである。ビッグデータは開発手法の変更を要求する。