こんにちは。 クラウドエース編集部です。 昨今、これからの企業経営においてはデジタルトランスフォーメーション(DX)・経営の IT 化や AI などのデータ利活用が欠かせない、という風潮が強く見られます。 こうした世の中の時流を受け、クラウド – 特にビッグデータ分析サービス(通称 データウェアハウス – DWH)の利用を考えている企業担当者の方も多いのではないでしょうか。 とはいえ世の中には数多くのデータウェアハウスがあります。 自社の状況に合わせて「最適」なものを選ぶことのが難しい、という話もよく伺います。 そこで今回は、代表的なデータウェアハウスである BigQuery(Google Cloud) Redshift(Amazon Web Services) Synapse(Microsoft Azure) それぞれの特徴について、比較しつつ整理しました。 そのうえで、人気が高く・すでに多くの企業に愛用されている “BigQuery” の「強み」や「使うべきケース」についても解説していきます。 目次 Toggle 改めて BigQuery とはAmazon Redshift・Azure Synapse とは各サービスの特徴と BigQuery の強みBigQuery を使うべきケースまとめ まとめ(類似サービスと比較) BigQuery の強み 項目 説明 完全サーバレス 実行環境の設定が不要 自動スケール スケーリングの設定が不要 シンプルな費用形態 BigQuery を使った分( = 分析量・ストレージ量)に応じて課金 サービス内での永続的なデータ保存 クイックなデータ分析が可能 加工前・後のデータ両方を保持可能 無料で使えるビジネスインテリジェンス Google データポータルとの連携 Google Workspace 連携 スプレッドシート連携によるクイックな分析 BigQuery を使うべきケース 1.非エンジニア部門への導入 2.全社的なデータ分析文化の醸成 改めて BigQuery とは Google BigQuery – 公式 – BigQuery は、Google Cloud のペタバイト規模の費用対効果に優れたフルマネージド型の分析データ ウェアハウスであり、膨大な量のデータに対してほぼリアルタイムで分析を行うことができます。 BigQuery には、設定や管理を必要とするインフラストラクチャが存在しないため、標準 SQL を使用し、オンデマンドと定額料金のオプション全般にわたるフレキシブルな料金モデルのメリットを活用することで、有意な分析情報を見つけることに集中できます。(出典:URL) BigQuery を利用することで、ペタバイト(1ペタバイト=1,024TB)規模のビッグデータなど、膨大な量のデータであってもほぼリアルタイムな分析ができるようになります。 こうした BigQuery は、 大規模なコンシューマー向けサービス(ソーシャルゲームやSNSなど) センサーなど、IoT関連サービス など「常に膨大な量のデータが発生する現場など」で、データ分析の基盤として活用されることが多いです。 また、 他の Google Cloud サービスとシームレスに連携することができること サービスを利用する際の環境構築に、専門的な知識が不要 といった、BigQuery ならではの特徴もあります。 (BigQuery の詳細な特徴はこちら) Amazon Redshift・Azure Synapse とは 続けて、類似する2サービスについても見てみましょう。 Amazon Redshift – 公式 – Amazon Redshift は、クラウド内でのフルマネージド型、ペタバイトスケールのデータウェアハウスサービスです。 数百ギガバイトのデータから開始して、ペタバイト以上まで拡張できます。 これにより、お客様のビジネスと顧客のために新しい洞察を得る目的でデータを使用できるようになります。(出典:URL) Azure Synapse – 公式 – Azure Synapse Analytics は、データ統合、エンタープライズ データ ウェアハウス、ビッグ データ分析が一つになった制限のない分析サービスです。 サーバーレスまたは専用リソースのいずれかを使用して、各自の条件でデータのクエリを自由かつ大規模に実行できます。 Azure Synapse では統合されたエクスペリエンスによってこれらの環境がまとめられているので、データの取り込み、探索、準備、管理、提供を行って BI と機械学習の差し迫ったニーズに対応できます。(出典:URL) それぞれ、Amazon Web Service・Microsoft Azure が提供するデータウェアハウスになります。 いずれも「ビッグデータ」「ペタバイト」「データ分析」など、データウェアハウスを利用することで実現されるキーワードが含まれています。 ただ、これだけでは「具体的に何がどう優れているのか」が見えてこないのではないでしょうか。 各サービスの特徴と BigQuery の強み そこで、各サービスを「データウェアハウス活用」の上で重要になるいくつかの項目で比較整理してみました。 各サービス間で共通する MPP(Massively Parallel Processing)を活用した高速なデータ処理構造 リッチなバックアップ・セキュリティ機構 インプットファイルの豊富なデータフォーマット などは割愛しています。 大項目 項目 BigQuery Redshift Synapse オペレーション 実行環境 サーバレス、自動プロビジョニング(出典:URL) AWS 専門知識を元にした、クラスタ設定により構築(インスタンスサイズやノードタイプ等)(出典:URL) サーバレス、自動プロビジョニング 個別設定環境(専用 SQL プール) (出典:URL) スケーリング ストレージとコンピューティングリソースが分離 データ容量に合わせて自動スケール (出典:URL) ストレージとコンピューティングリソースが同一(クラスタ内でのデータ保持)(出典:URL) 手動スケーリング(クラスタサイズの変更、ダウンタイム有)(出典:URL) ストレージとコンピューティングリソースが分離(出典:URL) データ容量に合わせて自動スケール(サーバレス SQL プール)(出典:URL) 手動スケーリング(専用 SQL プール、クラスタサイズの変更、ダウンタイム有)(出典:URL) 費用形態 分析料金とストレージ料金の2種類 +α(ストリーミングなど特定のオペレーションにかかる費用) 分析料金は、オンデマンド料金 or 定額料金(含、割引) の2種類 (出典:URL) クラスタ使用時間に対する従量課金 +α(Redshift Spectrum など、通常のクラスタ使用以外の従量課金) クラスタ使用時間に対する従量課金は、オンデマンド料金 or リザーブドインスタンス料金 の2種類) (出典:URL) サーバレス SQL プール:分析料金とストレージ料金の2種類 + α(データパイプライン構築や Apache Spark を使用した分析料金など) 分析料金はオンデマンド料金 or 定額料金(コンピューティングリソースの専有、予約購入による値引き有) 専用 SQL プール:リソース使用時間に対する従量課金 (出典:URL) データ 分析関連 データ連携 ローカル環境や Cloud Storage からのデータファイル読み込み(出典:URL) Google Cloud 周辺サービス(BigTable や Cloud Logging、Spreadsheet など)とのデータ接続(出典:URL) BigQuery Data Transfer Service 経由での外部サービス(Google 提供サービスや Amazon S3、Redshiftなど)からの読み込み(出典:URL) 公式ストリーミングインサート(出典:URL) AmazonS3/EMR/DynamoDB テーブルからの一括ロード(COPY コマンド)(出典:URL) 外部データソース – RDS・Aurora 等 – へのクエリ実行(federated query)(出典:URL) 外部パートナーとの統合(出典:URL) インサートクエリによるレコード追加(出典:URL) 注)S3を対象に Amazon Athena 経由でクエリ可(出典:URL) Azure Blob Storage や Azure Data Lake Storage Gen2 からのロード(COPY ステートメント)(出典:URL) 外部データソース – Storage – へのクエリ実行(出典:URL) Synapse ワークスペース内でのパイプライン定義&アクティビティ実行(コピーアクティビティ、対象:Azure 上データサービスや外部パートナー等)(出典:URL) データ加工 BigQuery 内でのデータ加工(クエリのスケジューリング)(出典:URL) Google Cloud を使用したデータ加工(Cloud Dataflow、Cloud Composer、Cloud Data Fusion、Workflows 等)(出典:URL) Redshift 内でのデータ加工(クエリのスケジューリング)(出典:URL) AWS を使用したデータ加工(AWS Glue、Kinesis Data Firehose/Stream、MSK)(出典:URL) Synapse ワークスペース内でのパイプライン定義&アクティビティ実行(データ変換アクティビティ)(出典:URL) Azure を使用したデータ加工(Data Factory、Databricks、Stream Analytics 等)(出典:URL) 可視化 ビジネスインテリジェンス(無料:Google データポータル、有料:Looker)(出典:URL) ビジネスインテリジェンス(QuickSight)(出典:URL) Synapse 上での可視化(synapse notebook)(出典:URL) ビジネスインテリジェンス(Power BI)(出典:URL) 分析 分析用サービス(Cloud DataPrep、Cloud Dataplex、Analytics Hub)(出典:URL) Google Workplace(Spreadsheet)(出典:URL) Microsoft 365(Excel – Microsoft Query)(出典:URL) 分析用サービス(EMR、Kinesis Data Analytics、Glue DataBrew…) Microsoft 365(Excel – Microsoft Query)(出典:URL) Synapse 上での分析(synapse notebook)(出典:URL) 分析用サービス(Analysis Services、Databricks、Data Stream Analytics 等)(出典:URL) Microsoft 365(Excel – Microsoft Query)(出典:URL) 実行環境 「環境設定が不要なもの」と「環境設定が必要なもの」なものの2つに大別できます。 環境設定が不要なもの: BigQuery・Synapse(サーバレス SQL プール) 環境設定が必要なもの: Redshift・Synapse(専用 SQL プール) Redshift を使用する上で「環境設定が必要」なことには注意すべきでしょう。 AWS の専門知識を持つエンジニアと共に、環境構築を進める必要がある、ということになります。 BigQuery の強み 完全サーバレス:実行環境の設定が不要 スケーリング 「自動スケール」と「手動スケール」の2つに大別できます。 自動スケール: BigQuery・Synapse(サーバレス SQL プール) 手動スケール: Redshift・Synapse(専用 SQL プール) 手動スケール、というのは「立ち上げた分析基盤が使用するコンピューティングリソースを変更する」ようなことを指します。 そのため手動スケールの際には、使用している分析基盤を一度停止しなければいけません( = ダウンタイムが必要)。 BigQuery の強み 自動スケール:スケーリングの設定が不要 費用形態 どのサービスも「サービスの利用に対する従量課金」が基本になります。 ただし、 BigQuery・Synapse(サーバレス SQL プール): 行われた分析量&ストレージ量に応じた従量課金 Redshift・Synapse(専用 SQL プール): 立ち上げた分析基盤が消費する、コンピューティングリソースに応じた従量課金 というように、従量課金の対象が異なることがポイントです。 Redshift・Synapse(専用 SQL プール)では、「分析基盤を設けているあいだ、常に課金が行われる」ことになります。 そのため、実際に使用する際はやや注意が必要でしょう。 また、どのサービスでも「将来的に使用するリソースを事前に購入」することで、使用料金の値引きを受けられることは覚えておくと良いかもしれません。 BigQuery の強み シンプルな費用形態:BigQuery を使った分( = 分析量・ストレージ量)に応じて課金 データ連携 どのサービスも豊富なクラウド内/外とのデータ連携機能を提供しています。 ただし、各サービスで「データ保存の考え方」が異なっている印象です。 サービス外でデータを保存:Redshift・Synapse サービス内でデータを保存:BigQuery こうした違いは「サービスの実行環境の違い」に起因していると考えられます。 Redshift やかつての Synapse(現在の専用SQLプール)は「ストレージとコンピューティングリソースが同一」、つまり立ち上げた分析基盤内に分析用データを保持する構成です。 これは、分析基盤を削除した場合、その分析基盤が持つ分析用データも同時に削除される、ということになります。 そのため、分析基盤外でデータを保存し、分析を行う際に分析基盤内にデータをコピーして使用する、というプロセスが必要です。 一方、BigQuery はサービスリリース当初から「完全サーバレス」であり、BigQuery 上でストレージとコンピューティングリソースを分離した構成を採用していました。 つまり、「BigQuery 上で分析用データを保存する」前提でサービスが考えられています。 こうした背景から、 Redshift・Synapse:サービス外へのデータ接続(コピーやクエリ実行) BigQuery:サービス内へのデータ取り込み を行うための手段がそれぞれ用意されている、と理解すれば良いでしょう。 また「サービス内で永続的にデータを保存できる」ことは BigQuery の強みと言えるはずです。 これにより「ローカル環境から手動でデータをアップロードし、そのまま分析を行う」「Google Cloud の他サービスが提供するデータを BigQuery 上で収集し分析する」など、クイックなデータ連携〜分析をワンストップで実施できるようになります。 BigQuery の強み サービス内での永続的なデータ保存:クイックなデータ分析が可能 データ加工 どのサービスでも、クラウドプラットフォーム上の他サービスと連携してデータを加工するのが一般的です。 どのサービスも豊富なデータ加工の手段を提供していることが分かります。 各サービスを比較した際、 Synapse: 複雑なパイプライン(データ変換アクティビティ)をサービス上で定義可能 ということが特筆すべきポイントでしょう。 また、上述の「サービスの実行環境の違い」から BigQuery では加工前・後のデータを永続的に保持可能 ということも覚えておくとよいかもしれません。 BigQuery の強み サービス内での永続的なデータ保存:加工前・後のデータ両方を保持可能 可視化 どのクラウドプラットフォームでも、ビジネスインテリジェンス系サービスを提供しています。 BigQuery(Google Cloud):Google データポータル(無料)・Looker(有料) Redshift(Amazon Web Services):QuickSight(有料) Synapse(Microsoft Azure):Power BI(有料) ここで押さえておくべきポイントは「Google は無料のビジネスインテリジェンスを提供している」という点です。 Google データポータルは他サービスとは異なり「完全に無料」です。 「定常的に BigQuery のデータを追っていきたい」などの要望はもちろん、「ビジネスインテリジェンスをまずは触ってみたい」というニーズにも対応できます。 また、Synapse では Synapse notebook(Syanpse 上の分析・可視化サービス)にシームレスに接続することが可能なことも、特筆すべきポイントでしょう。 BigQuery の強み 無料で使えるビジネスインテリジェンス: Google データポータルとの連携 分析 どのクラウドプラットフォームでも、豊富なデータ分析系サービスを提供しています。 BigQuery(Google Cloud): Notebooks、DataPrep、Dataplex、AnalyticsHub… Redshift(Amazon Web Services): EMR、Kinesis Data Analytics、Glue DataBrew… Synapse(Microsoft Azure): Analysis Services、Databricks、Data Stream Analytics… 技術革新のスピードも早く、毎年それぞれのプラットフォームからサービスのアップデートや新しいサービスのリリースが行われています。 また、行う分析に応じて求められる技術要件も異なります。 そのため、「どのプラットフォームが優れている」とは一概には言えない現状です。 ただし高度な分析ではない、実際のビジネスの現場であるような「データを抽出し、簡単に加工する」というようなケースであればどうでしょうか。 それぞれのサービスでは ODBC ドライバーを提供しています。 これを使用することで Excel などの外部サービスから直接各サービスに接続することができます。 ただ、Google Workspace を利用している企業様が BigQuery を利用する場合、こうした設定は不要になります。 BigQuery のデータを直接、Google スプレッドシートに出力することができるからです。 BigQuery の強み Google Workspace 連携:スプレッドシート連携によるクイックな分析 BigQuery を使うべきケース これまでの各サービスの比較内容を踏まえ、どのようなケースであれば BigQuery の利用が好ましいと言えるのでしょうか。 いくつかのキーワードでまとめてみました。 キーワード: 非エンジニア部門への導入 全社的なデータ分析文化の醸成 1. 非エンジニア部門への導入 これまで見てきた通り、BigQuery を使用する上での「技術的なハードル」はほとんどありません。 細かい環境設定やデータパイプラインの組み込みは不要、最悪ブラウザから手動でcsvファイルをアップロードすれば、すぐに分析を始められます。 エンジニアである必要はありません。 経営企画・会計部門やマーケティング部門など、「データ」と親和性の高い部門で BigQuery を利用してみるのは一案です。 スムーズに導入が進むのはもちろん、従来のデータ分析がより迅速に行われるようになると考えられます。 2. 全社的なデータ分析文化の醸成 Google は「Google データポータル」という無料のビジネス・インテリジェンスを提供しており、BigQuery ともスムースに連携することができます。 また、Google Workspace を利用している企業であれば BigQuery のデータをスプレッドシートにシームレスに出力することも可能です。 こうした「BigQuery 上のデータ」の可視化・活用のしやすさは、全社的な分析文化を醸成するのに大いに貢献するはずです。 仮に、「顧客のログデータ」や「受注・売上データ」など、「ビジネスの根幹となるデータ」を BigQuery 上にあらかじめ蓄積した上で、従業員に BigQuery を開放してみるとします。 全社的なデータ利活用が進むのはもちろん、データを元にした報告・意思決定などの文化が浸透するのではないでしょうか。 まとめ ここまで BigQuery の「強み」「使うべきケース」について、類似サービスと比較しつつ見てきました。 「非エンジニアでも手軽にデータを分析し活用できる」こと。 それにより「ビジネスにおける全社的なデータ利活用・デジタル化を推進できる」ことが、BigQuery ならではの特徴であり、企業から愛され続ける理由ではないかと思います。 クラウドエースでは、BigQuery や Google Clooud に関するセミナーも毎週開催しておりますので、よろしければそちらから情報収集いただければと思います。 https://cloud-ace.jp/event/ また、今回ご紹介した Google Cloud、AWS、Azure をさらに比較してみたいという方は、下記の資料をご覧になってください。 AWS・GCP・Azure 3大クラウドサービス 比較表