- tech系
Cloud OnAir 第12回 ~「ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩」 LIVE 編~
目次
こんにちは。クラウドエース編集部の高木です。
2017年10月5日より、【隔週木曜 18:00~18:45】に、Google社のエンジニアが、Google Cloud Platformの製品、サービスや導入事例等について解説する番組が始まっています。
ユーザー参加型の生放送番組となっており、視聴者からのリアルタイムQ & Aも受け付けています!
この記事では、動画を見逃した方や、見る時間が無い方向けに、要点をかい摘まんで、クイックに紹介したいと思います。
今回はデータ分析をするにあたって、データの蓄積や活用するための基盤についてお話いたします。
講師は、Google Cloud カスタマーエンジニアの寳野 雄太さんです。
今回のテーマ: 「ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩」 LIVE 編
今回のテーマは、データ分析をする上での、「データの蓄積・活用」をメインとした内容となっております。
ビジネスにおいて、売り上げに直結することもあるデータ分析。
そのビジネスに対するインパクトは日々大きくなってきています。
まず簡単なデータ分析の説明から、データを蓄積・活用するため基盤に関して解説していきます。
アジェンダ
- 企業におけるデータの活用
- データ活用のための基盤とは
- Google Cloud 事例
- 本日のまとめ
企業におけるデータの活用
まずは、データ活用について紹介していきます。
データを活用することにより、
- 仮説を立てた際に、その仮説を後押しすることができる
- 確度の高い打ち手を打っていける
- AIを使用し、過去のデータから良い結果を導き出せる
などの側面があります。
データの現実
データを活用するといっても、そのデータが使えない状態にあっては活用することができません。
具体的にデータが使えない状態とは…
- フォーマットが違う
- 格納場所が違う
- データを捨てている
- データがとれてない
- 検索・集計ができない
上述したように、データが使えない状態とは、そもそも活用するデータがない、データがあるのにうまく活用できないということです。
こういったことが現実に多くあります。
AI、機械学習したいと考えている場合、データの分析ができていない状態では、AI、機械学習をする準備ができているとは言えません。
データ分析、機械学習をビジネスに適用するステップ
スライドは、実際にデータを分析、機械学習をする上で必要な準備です。
データを収集、蓄積するためには、データを正しく持ってくることが重要です。
具体的には、手動、つまり人の手でデータを収集させた場合、ミスが起こる場合があります。
こういった自体をさけるためにも、データを収集する際は、自動的に収集するようにシステムを作ることが重要となります。
システムで収集することにより、収集する人の時間の確保も可能となります。
データ活用のための基盤とは
データウェアハウス と データレイク
- データ分析基盤の根幹を無す「データ」は、『データウェアハウス』と『データレイク』から成ります。
- 整理された倉庫のようなデータウェアハウスだけで良いのでは?それは後述します。
データウェアハウス(Data WareHouse、DWH)とは
- きっちりと整理、整備され、『検索できる』倉庫のようなものです。
- 原則としてデータは更新せず、蓄積し続けます。
- 構造化されたデータを蓄積します。
なぜDWHが必要なのか?
- たとえばECサイト(Web店舗)での売り上げに由来するデータと、実店舗のデータが別々に保存されている場合。
- 経営側の視点としては「同じ、売り上げのデータ」であり、両方を利用している顧客の情報を得たい、という要件も。
- データを専用の一箇所に集約することで、負荷軽減にもなります。
DWHに求められる要件と、それを叶えるBigQuery
Google Cloudで作るDWH
- BigQueryなら、フルマネージドなので分析のみに集中できる
- DataStudioで別途ツールを用意する必要なく、すぐに可視化、スプレッドシートへの出力も
- Web-UIでほぼ全てが完結するとっつきやすさ
データレイク(Data Lake)とは
- 構造化されていないデータを蓄積する。
- 加工前のデータを蓄積する。
- 湖(lake)のように、生のデータをざぶざぶ入れるもの。
なぜデータレイクが必要なのか?
- データウェアハウスだけでは実現できない要件の例: Cloud AutoML Visionによるラーメン二郎判別機
- AutoML Visionの入力データとして、非構造化データ(画像)と構造化データの紐付けが必要なケース
データレイクに求められる要件と、それを叶えるGoogle Cloud Storage(GCS)
GCSの耐障害性
- 災害対策(DR)に対応、複数国へのデータ配信
- リージョン内部でのデータ複製で 11 Nines ( 99.999999999% )の耐久性を誇る
GCSのパフォーマンスとコストのバランス
GCSのデータレイクとしての使い方の例
データウェアハウス、データレイク 各々の要件を満たすBigQuery / GCS
Google Cloud 事例
データの活用をした例を、スライドとともに紹介していきます。
SONY 様の活用例です。
リクルートライフスタイル様の例です。
Q & A
Q & Aはありませんでした。
本日のまとめ
- データを活用するためには、データを蓄積、整理・分析する必要がある
- データを蓄積するにはデータレイク
- データを整理・分析するためにはデータウェアハウス(DWH)
- クラウドならではのスケーラビリティ、コストを利用することで気軽に構築が可能
機械学習、データ分析などを活用する時を逃さない
そのためにも、データ活用のための基盤を構築する必要があります。
最後にひとこと
今回は、データ分析の説明から、データを蓄積・活用するため基盤に関して解説していきました。
データを蓄積、活用するためのサイクルを回すことにより、ビジネスにおいての意思決定をスムーズにすることや、そのまま直接売り上げに貢献できることが多くあります。
昨今話題になっている、AIや機械学習を利用するためにも、データを整理し、データ分析できるようなシステム、仕組みづくりをしていきたいですね。
参考リンク
Youtube視聴
Cloud OnAirの放送は、今回分含め、バックナンバーも全てYoutubeで視聴できます。
スライドと合わせて進行する解説を、是非ご覧ください!
Youtube URL:https://www.youtube.com/watch?time_continue=2&v=porw57xqAXI
SlideShare
今回の動画で説明に使用されたスライドについても、SlideShareでいつでも閲覧可能です。
登場した用語について振り返りたい、用語同士の関係性を確認したい等、大変参考になります!
スライドURL:https://www.slideshare.net/GoogleCloudPlatformJP/cloud-onair-live-2018412
それでは、次回も05/10(木) 18:00にお会いしましょう。
この記事を共有する