ビッグデータの活用基盤は GCP(Google Cloud)以外ありえない

  • Google Cloudに関する記事
6min

こんにちは、クラウドエース編集部です。

データ分析基盤の導入にあたって、GCP(Google Cloud) の利用を検討している人もいるでしょう。GCP では、BigQuery をはじめとした高度な分析基盤が用意されています。

この記事では、GCP が提供するビッグデータの活用基盤を紹介し、そのメリットや導入成功事例について解説していきます。

ビッグデータの活用基盤は GCP 以外ありえない理由とは

結論から言うと、ビッグデータを有効かつ効率的に利用したいのであれば、その活用基盤は GCP(Google Cloud) 以外あり得ないと言えます。その理由は、GCP には他社サービスを圧倒する以下のメリットがあるからです。

  • 大規模データの高速処理が可能
  • 専門知識がなくても使える
  • コストパフォーマンスが高い
  • プラットフォーマーとしてのデータ力がある
  • 他ツールとの連携がしやすい
  • サーバーレスで利用できる
  • 機械学習を組み合わせて高度な分析が可能

上記のメリットについて具体的に見ていく前に、まずはそもそもビッグデータとは何なのか、GCP が提供するビッグデータ活用基盤にはどのようなものがあるのかについて見てみましょう。

ビッグデータとは


ビッグデータとは、簡単に言えば「従来の技術では管理・処理することが難しい大量のデータ」のことです。データの量が大きいだけでなく、データの種類もテキストや数値、音声、ビデオ、位置情報、センサ情報など多岐にわたります。

また、全国のレジから2 4 時間発生する POS データや、交通系 IC カードから取得される乗車履歴データなど、日々膨大に生成・記録されるリアルタイム性のあるデータも含まれます。

このようなビッグデータの収集・分析は、あらゆるビジネスにおいて有効に活用されています。例えば顧客の行動を分析してマーケティングに利用したり、売り上げデータを収集して需要予測を立てたりなどが挙げられます。

今後は、さまざまデータを組み合わせることで、新たな事業を生み出したり、人材不足などの課題を解決したりすると考えられています。

GCP のビッグデータ活用基盤とは

このようなビッグデータを収集分析するためには、大量データを高速に処理するための基盤が必要です。GCP では、以下のようにいくつかのビッグデータの活用基盤が提供されています。

内容
BigQuery ビッグデータを高速解析するフルマネージドのサービス。機械学習、地理空間分析などの組み込み機能を使用してデータの管理と分析を行う。
Dataflow ビッグデータのバッチ処理とストリーミング処理を行うフルマネージドのサービス。
Dataproc Hadoop / Spark のクラスタを構成してバッチ処理とストリーミング処理を行うマネージドのサービス。
Pub/Sub データを取り込んで配布するためのストリーミング分析とデータ統合のパイプライン。サービスを統合してメッセージ送受信を行う。
Datafusion バッチ処理とストリーミング処理に対応したフルマネージドなデータ統合サービス。

さまざまな機能が用意されており、自社の目的に合わせた活用基盤を利用することができます。

企業がデータ分析基盤に BigQuery を選択するべき理由

GCP のビッグデータ活用基盤の中でも、代表的なサービスは BigQuery です。ここからは、BigQuery の具体的なメリットについて紹介していきます。

大規模データの高速処理が可能

1つ目は、高速処理が可能な点です。これは BigQuery の最大の特徴とも言える特徴で、他のサービスを圧倒するような処理速度を誇ります。

BigQuery は数バイトから数ペタバイトまで、あらゆる規模のデータに対応しており、通常では長い時間かかるほどの大量データを数秒〜数十秒で終わらせてくれます。

専門知識がなくても使える

2つ目は、専門知識がなくても使えることです。これまでは、データ分析の専門家がデータのテーブルや各領域に対して最適なシミュレーションを行う必要がありましたが、 BigQuery ではそのようなデータベースの専門知識がなくても大規模データの分析が可能です。

コストパフォーマンスが高い

3つ目は、コストパフォーマンスの高さです。BigQuery は他のサービスと比較しても、圧倒的なコスト優位性を誇っています。

BigQuery の使用料金は、サービスが起動している間のみ発生します。また、分析開始前にデータ量がわかるので事前にコストの目安を知ることも可能です。

Google Cloud の公式ドキュメントによると、BigQuery は、他のサービスと比べて、大規模分析に伴う 3 年間の TCO(総保有コスト)を 26%~34% 削減できることがわかっています。

プラットフォーマーとしてのデータ力

4つ目は、プラットフォーマーとしてのデータ力が高いことです。Google により提供される BigQuery は、Google 検索、リスティング広告、Gmail、Youtube、Google Maps など日常的に世界中で利用されている多彩なサービスから得られるビッグデータを利用して、日々サービス向上が行われています。

競合となる Amazon や、Microsoft と比較しても、Google の提供するサービスの多様性や利用者数は大きな強みと言えるでしょう。様々なデータリソースが組み合わされることにより、 BigQuery のパフォーマンスは向上しているのです。

他ツールとの連携がしやすい

5つ目は、他ツールとの連携のしやすさです。BigQuery は、他の GCP 製品とのシームレスな連携が可能です。

例えば機械学習サービスの「 BigQuery ML 」を利用してクエリ結果と AI を連携できたり、データ分析プラットフォームの 「 Looker 」と組み合わせることでデータ統合、変換、分析、可視化、レポーティングを簡単に行えるようになります。

サーバーレスで利用できる

6つ目は、サーバーレスで利用できることです。サーバーレスであるため、従来のデータウェアハウスで必要なチューニングなどの実行環境の設定が不要です。

また、サーバーレスであるため、スケーラビリティにも優れていることもメリットと言えるでしょう。

機械学習を活用して高度な分析が可能

7つ目は、機械学習が可能なことです。例えば先述の「 BigQuery ML 」と連携させれば、BigQuery 内のデータを用いた機械学習の学習・モデルのデプロイ・推論をサーバレスで実現できます。

自社データを用いて BigQuery ML を利用すれば、需要予測やレコメンドシステム、テキストマイニングの構築などもできるようになります。

GCP のデータ分析基盤を活用した成功例

続いては、 BigQuery を利用することで、実際に業務改善につなげている事例について紹介します。

A 社:分析速度が 200~300 倍まで高速化

コンサルティング事業を行う A 社では、2億件近い非正規データの分析に BigQuery を導入しました。
 
従来は一般的なリレーショナルデータベースと全文検索エンジンを用いてデータ分析を行なっており、当時は1回あたり約 10 ~ 12 時間もかかっていたそう。しかし分析基盤をGCP に移行し BigQuery を利用したところ、200~300 倍もの分析速度の向上が実現されたとのことです。

B 社:動作速度は劇的に向上、コストは 100 分の 1 に

人気ソーシャルゲームを数多く開発している B 社では、ユーザー行動の解析に BigQuery の導入を開始しました。

これまでは、ゲームの運営にあたって重要となる顧客行動データの蓄積・解析を他社の分析基盤を利用して行っていたという B 社。しかし、ユーザー規模が大きくなるにつれ、費用も莫大な金額になったと言います。契約の更新をきっかけに、GCP への切り替えを決意したとのこと。

GCP に移行した結果、それまでのコストが 100 分の 1 程度まで激減しました。その上、動作速度は劇的に向上したとのこと。具体的には、これまで 20 分程度かかっていた処理が数秒で終わるようになったそうです。

C社:直感的な操作で未経験者でもすぐにデータ分析が可能

大手メーカーの C 社では、BigQuery や Google Analytics 360 などのプロダクトとレコメンドエンジンなどの外部サービスを連携させ、顧客の行動を分析・活用できるデータ分析基盤の構築をしました。

C 社は GCP のメリットとして、外部サービスと連携させやすい点のほか、従量課金制で初期投資を最小限に抑えられる点、必要に応じて規模を拡大していける点、高速処理が可能な点を挙げています。特に、何十 、何百 GB などの大きなデータであってもレスポンスが非常に速いことを実感しているとのことです。

また、操作が直感的で未経験者でもすぐに使いこなせることも GCP の大きな魅力だと言います。実際に未経験の新卒社員も半年程度でシステムを使いこなせるようになっているそうです。

スプレッドシートで BigQuery が使える!?

ここまで、BigQuery のすごさや魅力について紹介してきました。しかし、中には「便利そうだけど、使いこなすのが難しそう」と感じる方もいるかもしれません。

実は、 BigQuery は利用方法も非常に簡単です。Google では、「 Connected Sheets 」と呼ばれる、Google スプレッドシートから BigQuery 上のデータに接続してピボットテーブルやグラフなどを作成できる機能が用意されています。

Google スプレッドシートはエクセルのようなもので、馴染みのある方も多いでしょう。つまり、エクセルを使える人であれば、新たに覚えることもほとんどなくBigQuery でデータ分析や可視化を行えるのです。

まとめ

ここまで、ビッグデータの活用基盤としての GCP のメリット、強みを紹介してきました。この記事を参考にしながら、初心者でも使いやすい GCP の分析基盤の利用を検討してみてください。

合わせて読みたい