品川海外システム運用研究会

第10回 「Big Data」に立ち向かう新技術

概要

海外のビジネス市場でどのようなITシステムがトレンドとなっては廃れていくのか

最近、米国の技術記事などで、「Big Data」という単語を目にする機会が増えてきました。「Big Data」とは読んで字のごとく、「巨大なデータ」の意味です。サービスの拡大やサーバの性能向上によって、企業でTB(テラバイト:GB(ギガバイト)の1024倍の容量)を超えるデータを扱うケースが出てきており、それを管理できるソフトウェアに注目が集まっているのです。本レポートでは、「Big Data」の実情と、それをより早く処理するための技術についてまとめました。

目次
「Big Data」が生まれるケース
「Big Data」を扱うソフトウェア
「Big Data」をより早く処理するために

 

「Big Data」が生まれるケース

企業データベースのデータ量が膨大になる事例として、Catalina
Marketing社のケースを紹介します。

Catalina Marketing社が提供しているソリューションは、スーパーマーケットなどにおいて、顧客の購入履歴を記録し、その履歴に基づい

 

「Big Data」を扱うソフトウェア

Big Data」を扱うソフトウェアとして著名なのは、「Hadoop」です。Hadoopは、google社が開発し、クラウドを支える基盤技術として使用している「Google File System」と「MapReduce」を模した、オープンソースのソフトウェアです。Hadoopを利用すると、複数のサーバを連携させて、TB~PBクラスのデータ処理を高速で行うことができます。またオープンソースであることや、分散ファイルシステムによりデータが分散保存されることから、コストを現実的な範囲に収めることができます。YahooやFacebook、Amazon、McAfeeなどで使われ始めています。

類似のオープンソースソフトウェアも出始めています。一例としては、Facebookが開発したCassandraがあります。

 

「Big Data」をより早く処理するために

「Big Data」をマーケティングの分析材料として使用する場合、データが巨大なために、分析処理に時間がかかるという問題が発生します。これをできるだけ抑えようとする技術も出てきています。

統計分析システムとしてよく知られているのは、SAS
Institute社のSASシステムです。しかし、かつてのデータベースとの連携では、データベースから一度データをコピーして、SASシステムで分析処理を行った後、データベースに結果を書き戻すというやり方を取っていました。これでは、SASシステムとデータベースの間で通信が発生する分、タイムロスが生じてしまいます。

スポーツ用品販売を行うCabela‘s社では、SASの分析処理をTeradataのデータベース内で実行できるよう、データベース移行を行いました。その結果、4日かかっていていたレポート出力処理が1時間で終了したり、7日かかっていたキャンペーン準備処理が1日半で終わるようになったりと、大幅な時間短縮を行うことができました。

 

さらなるスピードアップの方法として期待されているのが、メモリ内でデータベース処理や分析処理を行ってしまうという技術です。

一般的なデータベースでは、データの実体はハードディスクドライブに格納されていますが、ハードディスクはCDのように、データアクセスの際にサーチの時間が生じるため、メモリに比べてデータアクセスに時間がかかります。そこで、USBメモリなどで使用されている、フラッシュメモリの上にデータベースのデータの実体を置き、必要な処理をその上で行ってしまって、処理時間を短縮しようという試みがあるのです。

現状では、従来のデータベース構築に比べてコストが10倍かかるというネックがあるものの、既にフラッシュメモリ上での構築をサポートするオプションを持ったデータベースが登場しており、実際に処理時間が数倍速くなるという結果が得られているそうです。

 

ここまで見てきたように、トレンドはデータの巨大化、巨大データの分析の高速化に向かっています。現在の天気予報は、様々なデータをコンピュータ分析することにより行われていますが、いずれは、あらゆるデータを保持し、一瞬で分析する能力を持ったコンピュータが、どんな問題に対しても正確な予測をはじき出す、そんな時代が来るのかもしれません。

参考:

“Big and Fast”, “MapReduce, Hadoop: Young,
But Impressive”Information Week 2010/08/19版(電子版)

ITpro:記者の眼:「Big Data」はどこにでもある(日本語記事)

http://itpro.nikkeibp.co.jp/article/Watcher/20100616/349256/

ITpro:検証!クラウドコンピューティング:ヤフーを変え始めたHadoop(日本語記事)

http://itpro.nikkeibp.co.jp/article/Watcher/20100616/349256/

カタリナマーケティングジャパン

http://www.catmktg.co.jp/

連載一覧

コメント

筆者紹介

品川海外システム運用研究会

研究会メンバ:

・K谷リーダ
わが研究会の頼れるリーダ。
NYでの営業経験を持つ技術者。もうすぐ2歳になる息子にぞっこん。
・K玉
お客様のシステムを支えるサポート技術者。
スペイン留学時に学んだパエリア作りをメンバに教えてくれるなど、社内にスペインの風を運ぶ。
・U田
大学・院と情報システムを専攻した生粋の技術者。
在学時と就職後に海外プレゼン経験あり。
研究会での的確なアドバイスはさすがとメンバをうならせる。
・W田
アメリカ留学での語学を活かし、海外営業担当に。
興味深い記事や面白いニュースを研究会に持ってきてくれる。
たしなむお酒も国際派?
・N村
サポートから転部した新米マーケティング担当。
小さい頃から観ていたSound Of Music のビデオのおかげで発音だけはいいが、英語の記事を読むのにいつも一苦労。

バックナンバー