BigLake｜Google Cloudが新しいデータクラウドを発表

こんにちは、クラウドエース編集部です。

2022年4月6日、Google Cloud が新しいデータクラウド「BigLake」のプレビュー版の提供開始を発表しました。これは、データの制限をなくしてあらゆるタイプのデータ分析が可能となるサービスです。

本記事では、BigLake とは何なのか、どのようなメリットがあるものなのかについて、わかりやすく解説していきます。

BigLake とは

BigLake をひとことで表すと「データレイクとデータウェアハウスを統合し、データの制限を取り払うデータレイクストレージエンジン」です。

データレイクとデータウェアハウスを統合することで、データの形式やシステムに関わらずにデータの分析が可能となります。また、データの複製や移動も不要となるため、コスト削減や業務効率化にも繋げられます。

もう少し詳しくBigLake について理解するために、まずは「データレイク」や「データウェアハウス」とは何なのかについて見てみましょう。

データレイクとデータウェアハウスの違い

「データレイク」と「データウェアハウス」は、どちらも分析や機械学習に利用するデータを保存しておくための場所です。しかし、保存されるデータの形や目的などに以下のような違いがあります。

	データレイク	データウェアハウス
保存できるデータ	非構造化データ及び構造化データ	構造化データ
保存できるデータサイズ	無制限	100 GB〜数 TB
構築期間	短期間で構築可能	データレイクより長期間
データの保存目的	未確定のまま保存される	特定の目的をもとに保存される
コスト	低コストのストレージが使用される	高コストのストレージが使用される
分析対象	機械学習、予測分析、データ検出、プロファイリング	バッチレポート、BI、可視化
ユーザー	データサイエンティスト	ビジネス担当者

データレイク、データウェアハウスのそれぞれの特徴やメリット、デメリットについて、詳しく見てみましょう。

データレイクとは

データレイクは直訳すると「データの池」です。テキストデータや画像データ、動画データ、音声データなど、さまざまな種類のデータを放り込める池のようなものです。

データウェアハウスをはじめとする一般的なデータリポジトリでは、格納の際にはデータが構造化されている必要があります。一方、データレイクでは、構造化データも非構造化データも、形式を気にせずにそのまま格納することができます。

データをそのままの形で保存できるデータレイクには、データ構造したり変換を定義したりする時間を節約できるというメリットがあります。また、変換や加工の必要なく情報を格納できるため、ビッグデータの高速処理や、機械学習、予測分析、データ検出、プロファイリングなどに適しています。

しかし、データレイクには注意点もあります。それは、格納されるデータが構造化されていないため、特定のデータを取り出すことが難しくなりやすいということです。

データレイクは、データをそのまま簡単に保存できることから「とりあえず保存しておこう」「いつか、何かで使うかもしれないから保存しておこう」というように、内容を確認しないまま無差別に大量のデータを放り込まれてしまいやすいのです。

このように、あらゆるデータをデータレイクに入れたまま放置してしまうと、必要な時に必要なデータが取り出せなくなり、活用しにくいものとなってしまいます。大量なデータから必要データを抽出し、目的に合わせて分析するためには、高い技術やツールが必要となります。

データウェアハウスとは

データウェアハウスは直訳すると「データの倉庫」です。DWH（=Date Ware House）と表記されることも多いです。何がどこにあるのか一目で把握できる倉庫のように、整理されたデータが格納されます。

データウェアハウスには特定の目的に基づいて整理された構造化データのみが蓄積されるため、特定データの抽出や分析はスピーディに行うことができます。また、CPUやメモリなどのリソースの消費も最小限に抑えられるというメリットがあります。

加えて、データウェアハウスでは更新前の情報や一定期間が過ぎた情報も履歴として残すことができるという特徴があります。そのため、長期間にわたるデータの変化の分析などにも適していると言われています。

ただし、データウェアハウスでは、何か特定の目的に基づく事前に定義されたデータのみしか扱うことができません。どのようなアウトプットが必要で、そのためにはどのデータを格納すべきかを事前に決めて設計するため、構築に時間がかかりやすいです。

また、全てのデータを構造化するため、インデックスデータも大きくなりやすいです。インデックスデータの増大によりデータベース自体も肥大化してしまうと、処理スピードの低下やコストの上昇にも繋がってしまいます。

BigLake のメリット

このように、データレイクとデータウェアハウスにはそれぞれメリット・デメリットがあります。データ蓄積の目的に合わせて、データウェアハウス、データレイク、NoSQL ストレージなど、さまざまな場所に分散されて保存している企業も多いでしょう。

しかし、そのようにいくつかの異なる場所でデータを管理すると、情報の抜け漏れが生まれやすくなり、サイロ化してしまいやすいです。加えて、データの移動が必要な場合はリスクやコストが増加してしまうという問題もあります。

今回発表されたBigLake は、このような問題を解消できるサービスであると言えるでしょう。データレイクとデータウェアハウスが統合された BigLake を利用すれば、基盤となるストレージ形式やシステムを意識することなくデータ分析が可能となるからです。

また、ソースからデータの複製や移動も不要となるため、さまざまな機械学習や AI システムでそのまま分析できるようになります。結果として、サイロ化の防止にも繋がるでしょう。

なお、BigLake では、 Google Cloud が提供する BigQuery やDataplex、Vertex AI、Spark、Prestoなどサービスだけでなく、AWSS3 や AzureData LakeStorageGen2 など他社のクラウドに保存されたデータも一元的に扱うことができます。

（引用元: Google Cloud Blog）