読み解き – 「ビッグデータがもたらす超情報社会」

この記事では、どうしても学術志向に流れがちな情報処理学会の記事を、企業的に感心が持てるような方向から読み解いて、できるだけ易しく解説してみたい。

情報処理学会2015年10月号の特集は、「ビッグデータがもたらす超情報社会 – すべてを見る情報処理技術:基盤から応用まで」という表題である。情報処理学会は日本のIT基盤を支える中心的な学会であるが、この学会でも「ビッグデータ」は、避けることのできないテーマである。最近、話題となるキーワードには、他にも「Internet of Things (IoT)」や「Industry4.0」などがあるが、やはり「ビッグデータ」に対する関心度は他を圧している。

本特集には以下の8本の記事がある。それぞれの記事は著者が異なる。そもそも、「ビッグデータ」という単語は、人によって捉え方が大きく異なっている。そのため、記事中で使用される用語が必ずしも統一されていないことには、注意してほしい。

  1. ビッグデータ時代を生きる
  2. ビッグデータ関連プログラム – 米国とEUにおける動向 –
  3. ビッグデータ処理基盤 – クラウド環境においてビッグデータを扱うシステム –
  4. センサ・モバイルビッグデータを有効利用するためのプラットフォーム技術
  5. クラウドソーシング – 新たな情報コンテンツ創造と社会デザインに向けて –
  6. ソーシャルビッグデータ利活用のための自然言語処理
  7. つながる実世界データの利活用 – 課題解決指向のオープンデータ統合基盤 –
  8. ビッグデータ活用におけるガバナンス

上記の記事のうち、比較的興味が持てそうな記事を要約し、さらに私見を加えながら解説する。読みやすくするために、元記事の内容と私見を区別することなく、文章を構成していることをお許し願いたい。なお、現在も執筆・編集中であるので、取り扱う記事が日々、増えていく。また、最後の記事は完結していないことがある。

1. ビッグデータ時代を生きる

元記事著者:中野美由紀(芝浦工業大学)/豊田正史(東京大学)

この記事では、まず、ビッグデータとは何かを明らかにしようとしている。残念ながら元記事は、あまりうまくまとめられていないので、私の独断でビッグデータの定義を記事の中から無理やり抽出した。但し、一つの対象について以下の項目全てが当てはまるとは限らない。

  • 大きなデータである
  • 日々、増大する
  • 「全件処理」を行う必要がある
  • 「社会性」がある
  • データの収集目的と利用目的が異なる
  • リアルタイム処理が要求される

大きなデータとは、どれほどのサイズだろうか?まず、ウォルマートの顧客情報が挙げられている。ここでは、1時間に100万人分のデータが処理され(1時間に100万人が買い物するということであろう)、データ総量が2.5ペタバイト(1ペタバイトは10の15乗=千兆バイト)増加している。Facebookの例では、1日に2億5千万の写真がアップロードされ、8億件の投稿が行われる。これから全体のデータ量を推定すると、Facebookだけでエクサバイト(10の18乗=百京バイト)クラスのデータがサーバ上に格納されていることになる。このデータ量は、1テラバイトクラスのハードディスクなら、実に百万個に相当する。

このように巨大なデータを、「全件処理」(全てのレコードに渉って、検索・変更・解析を行うこと)しなければならないのであるから、そのために革新的な技術開発が必要なことは明らかであろう。その技術として、以下が挙げられている。

  1. 大規模ストレージ
  2. 大規模分散処理(クラウドコンピューティング)
  3. 解析技術(機械学習、データマイニング、自然言語処理)

「社会性」とは何であろうか?ここで述べているのは、データを収集する当初の目的とは異なり、収集者が意図しなかった別の利用法が生じるということである。そして、それは人間の社会的活動の様々な側面に役立てることができる。例えば、自動車に設置されたカーナビである。当初の目的は、ドライバーが目的地に最短距離でたどり着けることである。しかし、それを大量の自動車の位置の時間経過データとして捉えると、交通量分析の基礎データとなり、渋滞予測サービスとして利用できる。また、自治体にとっては、こうして得られた交通量のデータが、道路整備計画の策定や信号機の配置・設定のための有力な情報になるのである。

社会性・リアルタイム要求の例として挙げられているのが、東日本大震災のときのTwitterの役割である。東日本大震災の時には、電話や交通網が麻痺する中、電話に比べてデータ量が小さい(インフラに対する負担が少ない)Twitterが大活躍した。被害状況や救助要請、避難場所等の情報が、非常に速く共有された。さらには、阪神大震災の経験者等から多くの有益なアドバイスが発信され、共有伝播した。そもそもTwitterの目的は、単に友人間の情報共有であったにも関わらず、友人の友人、さらにはその友人へと情報が伝わることで、大規模で高速な情報伝達手段になってしまったのである。このような利用方法は、結果的に一般の人々による意図しない大発明であり、現在では報道機関も、災害時の情報収集手段としてソーシャルメディアを活用している。

ところで、利用されるデータが電子的に収集されたデータであるとは限らない。例えば、ニューヨーク市のマンホールの修理記録である。ニューヨークでは毎年、マンホールの爆発事故が数回起こる。しかし、定期的な点検だけでは全く、これを防ぐことができなかった。そこでニューヨーク市では、過去100年近くに渡る修理記録(マンホール以外も含めて)をデジタル化して、その原因を解析したのである。その結果、爆発事故が起きた箇所に埋設された電線が原因であることを突き止め、電線の補修を効率的に行うことで、マンホールの爆発事故を防ぐことができるようになった。

この例は(おそらくデータサイズとしてはビッグデータの範疇からはずれるのだが)、ビッグデータの解析手法を有効に活用したものであり、過去の非デジタル記録をデジタル化して解析することで、新たな価値を生み出す可能性を示唆したものである。これは、一般企業にもあてはまる可能性が大きい。例えば、最近注目されている食品への異物混入事例などは、製造ラインに起きた障害データを丹念に記録して解析することで、かなりの精度で予防することができるのではないだろうか。

次の記事でも述べるように、ビッグデータは企業にとって宝の山になる可能性を秘めている。2019年には、ビッグデータ分析に使われるインフラの国内市場が、約1500億円に達すると予想されている。それにも関わらず、現在ビッグデータを利用中または検討中の企業は、全体の3割に留まっており、しかもその増加が飽和傾向にある。つまり、積極的にビッグデータに投資する企業とそうでない企業の二極分化が起きつつあるようだ。

ビッグデータの利用は、金をかければ簡単に実現するようなものではない。データサイエンティスト(ビッグデータ解析を担う専門家)を、年月をかけて、その業態に適応できるように要請していくことが肝要である。ビッグデータへの取り組みが、企業の将来を決める時代が来るのかも知れない。

6. ソーシャルビッグデータ利活用のための自然言語処理

元記事著者:鍛冶伸裕/吉永直樹(東京大学情報通信研究機構)

先の記事では、東日本大震災の時にTwitterが果たした役割について述べた。現在、主としてスマートフォンの興隆により、ソーシャルメディアの利用が爆発的に拡大している。一般に、ソーシャルメディアとは、Twitterを始めとする短文投稿サイト(マイクロブログ)、Facebookのような交流サイト、YoutubeやInstagramのような動画像投稿サイトなどの総称である。

こうしたソーシャルメディアからは、日々大量のテキストデータが発信されている。2013年の調査によると、Twitter上に発信された日本語の投稿総数は、1年で200億通を超える(Twitterであるから、1通あたり1文か2文である)。これは新聞記事の電子版1年分が100万文であることに比べると、圧倒的な巨大さが分かる。

ソーシャルメディアの特徴は、データサイズの大きさに加えて、即時性である。人々は、自分の体験やそのときの気持ちをリアルタイムに発信するため、情報の鮮度が極めて高い。

ソーシャルテキストの利活用

こうした特徴のために、ソーシャルメディアから発信されるテキストデータ(ソーシャルテキスト)には、多くの貴重な情報が秘められている。ソーシャルテキストこそが、ビッグデータのひとつの典型であると言ってもいいだろう。

ソーシャルテキストに内包される情報の代表として、特定の対象に対する人々の意見や感情が挙げられる。企業として見れば、従来は多くの手間や費用をかけて収集していた顧客に対するアンケートが結果が、バイアスがかからない生の状態で、しかも大量に得られるのである。そのため、これを企業活動に活かそうと考えるのは至って当然のことである。

今年、新発売の食品の人気が高くなりすぎたために、製品の供給が追いつかず、販売の中断に追い込まれたという事例があった。これなどは、後からソーシャルメディア上の感想を分析すると、人気の沸騰が1〜2週間前には予見できた可能性が指摘されている。もし、ソーシャルテキストをリアルタイムで解析できる用意があったなら、あらかじめ生産ラインを増強して供給不足を避けられたかも知れないのである。ソーシャルテキストの解析と生産・在庫管理を直結させる仕組みは、これからの製造業の中心課題となるであろう。

この種の利用方法では、国民の意見を政治判断に活かすことにおいても、大きな可能性がある。政府は、特定の政策課題に対して、あらかじめ国民の意見を分析しておき、それを政策にフィードバックすることができる。これは、政府側にとっては、国民の望まない政策を強行して支持率を下げることを避けられるメリットがあり、国民にとっても、選挙を経ないで意見を反映することできる。

ソーシャルテキストの利用には、もうひとつ面白いものがある。例えば、ゲリラ豪雨や竜巻などの観測が難しい突発的な自然現象の発生を、ソーシャルテキストから検出するというものである。いわば、ソーシャルテキストを気象観測用機器の代替として利用するのである。高度に人間的なソーシャルデータが、センサ情報のような無機的なデータとして扱われるという事実は、たいへん興味深い。

自然言語処理技術

大量のソーシャルテキストを解析するためには、人間が関与することなく、完全にコンピュータだけで解析を行わなければならない。そのためには、自然言語をコンピュータが解析できる仕組みが必要である。自然言語とは、計算機言語に対して、人間が普段使用する言語、すなわち日本語や英語のことを指す。計算機言語が完全に論理的であり、ひとつの意味を表現するのに、ほぼ一通りの方法しかないのに比べて、自然言語は、同じ意味を表す様々な表現が可能である。このため、自然言語のコンピュータ処理は意外に難しい。

自然言語解析は、一般に英語より日本語の方が難しいとされている。その原因は、英語においては、各単語が空白およびピリオドなどのデリミタで分離されているのに対し、日本語では、まず各単語(形態素)に分離する必要があるからである。

[この項つづく]