こんにちは、クラウドエース システム開発部 Data/ML ディビジョン の田中と宮崎です。2023 年 11 月 16 日、Google Cloud のカンファレンスイベント「Google Cloud Next Tokyo ’23 DAY2」が開かれ、生成AI 関連の機能を中心に新サービスや既存サービスのアップグレードや活用事例が発表されました。今回は、Google Cloud Next Tokyo ’23 DAY2 のブレイクアウトセッションの中で特に興味深かった「DMM における AWS から BigQuery へのデータ基盤移行」の内容をご紹介します。目次 Toggleデータ基盤移行の背景これまでにどのような技術を使って何を解決したか今後、 Google Cloud を活用してどのような展望を描いているのかまとめデータ基盤移行の背景DMM についてDMM (合同会社DMM.com) は、皆さんもご存じの通り、Web を通じて様々なコンテンツを提供している大規模な事業会社です。今では、地方創生から AI まで 16 の領域で 60 以上の事業を運営しているため、それに伴いデータ基盤が年々肥大化している状況にあります。 移行前のデータ基盤利用状況(Amazon Web Service, 以下 AWS)1500 以上のテーブル数1週間に BI ツール経由で投げられるクエリは週 30,000 回以上データ取り込みや BI ツールユーザー追加等の保守以外のオペレーションが週 5 件データ基盤の抱える課題このようなデータ基盤の利用状況から、下記の3つの課題が顕在化していました。 これらの課題を解決するために藤井 亮太 氏は Google Cloud へのデータ基盤移行に踏み切ったと言います。 この取り組みは 2022 年に開始され、これまでに「オペレーションの省力化」および「ガバナンス」の問題は既に解決し、今後は「データ活用の拡大」を目指し、継続的に取り組んでいるとのことでした。従って、本記事の以下では、データ基盤を AWS から Google Cloud に移行したことで、「これまでにどのような技術を使って何を解決したか(「オペレーションの省力化」「ガバナンス」部分)」と「今後、 Google Cloud を活用してどのような展望を描いているのか(「データ活用の拡大」部分)」の 2 セクションに分けて紹介します。これまでにどのような技術を使って何を解決したか①オペレーションの省力化の成功問題点データ基盤が充実している裏で、データ基盤を保守するコストは増大します。増大する保守業務にデータ基盤チームのリソースが割かれてしまい、データ活用の方面まで手が回らなくなるのが課題でした。 解決策この課題への解決策として、Google Cloud への移行に伴い Serverless や Managed な製品を多く採用したそうです。運用以外でも、例えばデータ移行の際には AWS に存在する既存データを BigQuery に転送する際には Data Transfer を採用するなど、様々な Google Cloud 製品を活用しながらプロジェクトを進めていった旨が語られていました。 結果的に、Serverless や Managed な Google Cloud 製品を採用することで、 データ基盤システムの運用コストを下げられたそうです。現在ではデータ活用のオペレーションにも目を向けられるようになってきた、とのことでした。 また、データ活用のオペレーションの際にも、例えば機能と機能の繋ぎこみに Pub/Sub や Cloud Functions、Dataflow templetes のような Google Cloud の製品や機能を採用することで、Change Data Capture のような機能であってもスムースな開発が実現できたというお話がありました。②データ信頼度の確保とデータガバナンスの確立問題点DMM 社内では、データが全員に公開され、データの民主化が進んでいました。しかし、この状況はデータを利用する各ユーザーのスキルにより、アウトプットの品質に差が出てしまうという課題を生んでいました。この状況を克服し、データを利用する全てのユーザーが高品質なアウトプットを得られるような、データ信頼度の確保とデータガバナンスの確立が求められていました。解決策データ信頼度の確保に向けた取り組みとして、GitLab 社の Trusted Data Solution Criteria をベースに社内でのデータの信頼度を定義し、それに基づいた運用がなされているというお話がありました。例えばデータサイエンティストが PoC の中で作成したデータは、下図の ”Explorational” や “Ad-hoc” といったデータに分類されます。そういったデータはクイックに導出できることが強みですが、アウトプットがデータ作成者の質に依存する部分がある以上、ビジネス上の意思決定への使用には適しません。下図の ”Business Insights” や “Trusted Data” に分類されるデータは、データマート管理ワークフローのように信頼できるやり方をもとに生成され、ビジネス上の意思決定などに用いられる信頼度の高いデータとなります。 信頼度の異なるデータには、それぞれ使い道が存在します。どれかだけを用いるのではなく、それぞれの特徴を把握しながら信頼度の異なるデータを活用していくことが重要です。このデータ信頼度の分類は今後の業務でも意識したい学びになりました。またデータガバナンス確立への取り組みとして、 データ基盤の環境とクエリ実行環境の分離を行い、各データ活用部門の利用状況をモニタリングする仕組みを整えたことが紹介されていました。これにより、利用状況が閾値を超えた場合には該当部門に通知することで、データの過剰な利用を防ぐことができるようになりました。 今後、 Google Cloud を活用してどのような展望を描いているのかデータ活用の拡大を狙うこれまでのセクションでは、AWS から Google Cloud へのデータ基盤移行と AWS依存の解消によって、オペレーションの省力化とガバナンスの強化をどのように実現したかについての説明でした。このセッションでは、今後の展望である Google Cloud の機能を活用したデータ活用の拡大について紹介します。問題点社内システムと社外システムの連携が取れていなかったことが課題でした。特に広告領域では、社外システムとの連携が不可欠で、そのためには社外のサービスや組織と容易に連携できるシステムが必要でした。展望この課題に対応するために、Retail API、Google Ads、Google Search、各種広告媒体、MAツールとの連携を通じてデータ活用を拡大することを目指しています。さらに、Service Account や IAM を用いて社外の Google Cloud プロジェクトとの連携を容易にできるようにすることで、社外の組織との連携を強化し、DMM のデータを他の組織でも活用できるようにする計画を進めています。 まとめ本記事で紹介した「DMM における AWS から BigQuery へのデータ基盤移行」の内容をまとめると下記のようになります。 これまでにどのような技術を使って何を解決したかServerless、managed を活用した低保守コストなシステムを実現BigQuery、Looker、Cloud Composer などを活用することで、インフラの保守運用より機能開発により多くの時間を割けるようになった。各機能の結合においても、Pub/Sub、Cloud Functions を活用することでスムーズな開発を実現できた。他にも、GA4 / GTM 活用や Dataflow Template による Change Data Capture (CDC)なども実現できた。 データ利用者増加に耐えるガバナンスと運用設計を実現Information Schema の活用により、データ取り込みやデータ利用料の監視をスケーラブルな方法で実現できた。データ利用者管理、アナリストによるデータマート作成とレビューテストプロセスの構築など。組織拡大に対し再現性のある運用方法を構築できた。データ信頼度とそれぞれのデータアクセス方法を提供することで、Delivery 重視なアドホック分析や Quality 重視なダッシュボード作成などデータ活用の選択肢を提供することができた。 今後、 Google Cloud を活用してどのような展望を描いているのか社外のサービスや組織との柔軟な連携に挑戦中Retail API、 Google Ads、 Google Search、 各種広告媒体、 MA ツールとの連携によりデータ活用の拡大を狙う。Service Account、IAM による社外のGoogle loud プロジェクトとの容易な連携により社外の組織でも自社データの分析・活用が容易にできるようにする。ここまで、Google Cloud Next Tokyo ’23 で 発表されたブレイクアウトセッション「DMM における AWS から BigQuery へのデータ基盤移行」について紹介してきました。こちらでは、基調講演のアーカイブ動画をご視聴いただけます。また今回紹介したブレイクアウトセッションを含むその他のセッション動画は 12 月中旬に公開を予定していますので、Google Cloud の最新情報や活用事例のキャッチアップにご活用いただき、アップデートされた Google Cloud の各種サービスをぜひお試しください。※Google Cloud、Google Workspace、 BigQuery は Google LLC の商標です。