SysAdmin's Group システム管理者の会
日本最大規模の
システム管理者のネットワーク

コラムを楽しむ

システム管理に携わる人たちが語る。様々な話題満載のコラムをお届けします。

品川海外システム運用研究会 第10回 「Big Data」に立ち向かう新技術
2011年4月13日 19:55

最近、米国の技術記事などで、「Big Data」という単語を目にする機会が増えてきました。「Big Data」とは読んで字のごとく、「巨大なデータ」の意味です。サービスの拡大やサーバの性能向上によって、企業でTB(テラバイト:GB(ギガバイト)の1024倍の容量)を超えるデータを扱うケースが出てきており、それを管理できるソフトウェアに注目が集まっているのです。本レポートでは、「Big Data」の実情と、それをより早く処理するための技術についてまとめました。

Big Data」が生まれるケース

企業データベースのデータ量が膨大になる事例として、Catalina
Marketing
社のケースを紹介します。

Catalina Marketing社が提供しているソリューションは、スーパーマーケットなどにおいて、顧客の購入履歴を記録し、その履歴に基づいてレジクーポンを発行するというシステムです。

例えば、定期的にヨーグルトを買っている顧客が買い物をした時だけ、ヨーグルトの値引きクーポンをレシートと一緒に発行して、継続購入を促す、ということができます。不特定多数の顧客にクーポンを配布するのではなく、ターゲットの顧客にだけクーポンを発行できるのがポイントです。この仕組みは日本でも行われているところがあるので、実際にクーポンを目にした方がいるかもしれません。

上記の仕組みを実現するために、Catalina
Marketing
社のデータベースでは2億人の消費者の購入履歴を保持しています。データベースのデータ量は7年前の時点でPB(ペタバイト:TB1024倍の容量)に達しており、現在のデータ量は約2.5PBです。

企業のデータベースのデータ量が増加するのは、このケースのように、データをマーケティングの(データマイニングの)分析材料として使用するから、というのがひとつの理由としてあります。たとえば、オンライン書店が購入履歴データから購入の傾向を探ったり、携帯電話サービスを提供する企業が、通話の傾向を探ったりするケースがそれに当たります。

Catalina Marketing社のケースはあくまで極端な例であり、世の中の90%の企業のデータベースのサイズは5TB以下だと言われています。しかし、「2012年までにデータウェアハウスのプラットフォームを入れ替える」と回答した企業が46%に達しており、データ量が増加して行く傾向はあると言えます。大半の企業が「Big
Data
」を扱う時代に突入する日も、そう遠くないでしょう。

Big Data」を扱うソフトウェア

Big Data」を扱うソフトウェアとして著名なのは、「Hadoop」です。Hadoopは、google社が開発し、クラウドを支える基盤技術として使用している「Google File System」と「MapReduce」を模した、オープンソースのソフトウェアです。Hadoopを利用すると、複数のサーバを連携させて、TBPBクラスのデータ処理を高速で行うことができます。またオープンソースであることや、分散ファイルシステムによりデータが分散保存されることから、コストを現実的な範囲に収めることができます。YahooFacebookAmazonMcAfeeなどで使われ始めています。

類似のオープンソースソフトウェアも出始めています。一例としては、Facebookが開発したCassandraがあります。

Big Data」をより早く処理するために

Big Data」をマーケティングの分析材料として使用する場合、データが巨大なために、分析処理に時間がかかるという問題が発生します。これをできるだけ抑えようとする技術も出てきています。

統計分析システムとしてよく知られているのは、SAS
Institute
社のSASシステムです。しかし、かつてのデータベースとの連携では、データベースから一度データをコピーして、SASシステムで分析処理を行った後、データベースに結果を書き戻すというやり方を取っていました。これでは、SASシステムとデータベースの間で通信が発生する分、タイムロスが生じてしまいます。

スポーツ用品販売を行うCabelas社では、SASの分析処理をTeradataのデータベース内で実行できるよう、データベース移行を行いました。その結果、4日かかっていていたレポート出力処理が1時間で終了したり、7日かかっていたキャンペーン準備処理が1日半で終わるようになったりと、大幅な時間短縮を行うことができました。

 

さらなるスピードアップの方法として期待されているのが、メモリ内でデータベース処理や分析処理を行ってしまうという技術です。

一般的なデータベースでは、データの実体はハードディスクドライブに格納されていますが、ハードディスクはCDのように、データアクセスの際にサーチの時間が生じるため、メモリに比べてデータアクセスに時間がかかります。そこで、USBメモリなどで使用されている、フラッシュメモリの上にデータベースのデータの実体を置き、必要な処理をその上で行ってしまって、処理時間を短縮しようという試みがあるのです。

現状では、従来のデータベース構築に比べてコストが10倍かかるというネックがあるものの、既にフラッシュメモリ上での構築をサポートするオプションを持ったデータベースが登場しており、実際に処理時間が数倍速くなるという結果が得られているそうです。

 

ここまで見てきたように、トレンドはデータの巨大化、巨大データの分析の高速化に向かっています。現在の天気予報は、様々なデータをコンピュータ分析することにより行われていますが、いずれは、あらゆるデータを保持し、一瞬で分析する能力を持ったコンピュータが、どんな問題に対しても正確な予測をはじき出す、そんな時代が来るのかもしれません。

参考:

Big and Fast”, “MapReduce, Hadoop: Young,
But Impressive”Information Week 2010/08/19
版(電子版)

ITpro:記者の眼:「Big Data」はどこにでもある(日本語記事)

http://itpro.nikkeibp.co.jp/article/Watcher/20100616/349256/

ITpro:検証!クラウドコンピューティング:ヤフーを変え始めたHadoop(日本語記事)

http://itpro.nikkeibp.co.jp/article/Watcher/20100616/349256/

カタリナマーケティングジャパン

http://www.catmktg.co.jp/

品川海外システム運用研究会
品川港南口桟橋ちかく。 頑張れば東京湾を見渡せる、とある会社の会議室で、東京湾の向こうに広がる太平洋と世界に思いを馳せ、海外のビジネス市場でどのようなITシステムがトレンドとなっては廃れていくのか、またそれらを支える技術はどんなもので、私たちの生活やビジネス環境はどう変わっていくのかを、海外システムに興味を持つ営業やマーケティング、技術者が集まり、夜な夜な熱い論議を交わします。 たまにはビールを片手に。 その論議を経たレポートを、海外システム通信としてシステム管理者の会ポータルサイトで公開! 海外に出張しているシステム管理者の方が、「現地ではこうだよ。」なんてコメントしてくれたらいいなと期待しつつ、皆様にお届けいたします。
記事一覧へ
筆者紹介

品川海外システム運用研究会

研究会メンバ:

・K谷リーダ
わが研究会の頼れるリーダ。
NYでの営業経験を持つ技術者。もうすぐ2歳になる息子にぞっこん。
・K玉
お客様のシステムを支えるサポート技術者。
スペイン留学時に学んだパエリア作りをメンバに教えてくれるなど、社内にスペインの風を運ぶ。
・U田
大学・院と情報システムを専攻した生粋の技術者。
在学時と就職後に海外プレゼン経験あり。
研究会での的確なアドバイスはさすがとメンバをうならせる。
・W田
アメリカ留学での語学を活かし、海外営業担当に。
興味深い記事や面白いニュースを研究会に持ってきてくれる。
たしなむお酒も国際派?
・N村
サポートから転部した新米マーケティング担当。
小さい頃から観ていたSound Of Music のビデオのおかげで発音だけはいいが、英語の記事を読むのにいつも一苦労。

コメントを書く

未ログイン: ログインする

コメント: ログイン(会員登録)すると、コメントを書き込むことができます。

  • 新着Q&A
  • 最新の回答
回答数:22019年11月12日

システム管理者認定講座<全コース共通>試験のみ受験希望の方はこちら

動画で見るセミナー
動画で見るセミナー

2020年7月に開催されました第14回システム管理者の会 感謝の日イベントにおきまして、第3回システム管理者アワード 表彰式が執り行われました。 表彰式の様子と、株式会社クエスト様、ニッセイ情報テクノロジー株式会社様、株式会社山櫻様よりご紹介いただきました各社の活動をご覧ください。

個人情報保護方針
運営者につい て
利用規約
サイトマップ