• IT・トレンド記事
9分で読める

ビッグデータ分析を行う準備から具体的な手法まで解説|考えておくべき課題とは

こんにちは、クラウドエース編集部です。

ビッグデータ分析の検討を始めた企業が次に行うことは、準備やプロジェクト計画を立案するために必要な具体的な情報を集めることではないでしょうか。
ここでは、ビッグデータ分析へと一歩踏み出す準備と計画に役立つ情報をご紹介します。

ビッグデータ分析の価値

ビッグデータ分析の価値は、その目的や対象領域によってさまざまですが、大きくは次の 2 点に集約されると考えられます。

新しい課題や新しいアイデアが発見できる

ビッグデータ分析では、以前は不可能だった詳細かつ多様なデータを分析することで、精度の高い結果をスピーディーに得ることができます。
さらに

  • 思いもしなかった顧客の合わせ買いが見つかる
  • 特定の生活習慣を続けた人は病気になりにくいことがわかる

などデータ同士の関連性を見出すことで、単一種類のデータ分析からは得られなかった新しいインサイトの獲得も期待できます。

データに基づいたタイムリーな意思決定ができるようになる

ビッグデータ分析を支えるサーバーやネットワーク、分析ソフトウェアなどシステム基盤の技術革新によって、スピーディーに分析結果を得られるようになってきました。
必要であればデータや前提を変えて分析を繰り返し、刻々と変化するビジネス環境での意思決定に役立てることができます。

こうして

  • 顧客購買行動をデータ化して精度の高いマーケティングに繋げる
  • 農地の各所に取り付けたセンサーからのデータと気象データを分析して水やりや農薬量を調整する

など、ビッグデータ分析は経験や勘に頼っていた属人的な判断から脱却し、データに基づいた合理的な意思決定を可能にします。

ビッグデータ3つの種類

ビッグデータ分析においてどのような種類のデータが利用できるのか、総務省の情報通信白書 [3] を参考に次の3種類で捉えてみます。

政府や地方自治体が提供する「オープンデータ」

まず、政府や政府機関、地方自治体が公開している「オープンデータ」を挙げることができます。
オープンデータとは、誰もが自由に利用でき、再利用や再配布も可能なデータのことです。
日本政府が公開しているものとして、国勢調査による人口や就業に関するデータや気象観測データ、都道府県別の新型コロナウイルス感染者数・病床使用率など、多くのオープンデータがあります。デジタル庁が整備しているデータカタログサイト [2] や厚生労働省など各省庁サイトから参照することができます。

企業が生成・保有する「産業データ」

次に、企業内で発生し蓄積されている「産業データ」が挙げられます。
産業データはさらに次の 2 種類に分けられます。

  • 知のデジタル化:暗黙知(ノウハウ)をデジタル化・構造化したデータ
  • M2M(Machine to Machine)データ:工場の生産現場や橋梁などの設備に設置された IoT 機器から収集されるストリーミングデータ

個人の属性に関わる「パーソナルデータ」

個人情報を含む「パーソナルデータ」もビッグデータの 1 種です。
年齢・住所・性別などの個人の属性情報、行動履歴や購買履歴、バイオセンサーから収集した情報などの個人情報を含みます。さらにパーソナルデータには、個人を特定できないように加工された人流情報や商品情報なども含みます。

ビッグデータ分析に必要な BI ツールとは

BI(ビジネス インテリジェンス:Business Intelligence)ツールとは、企業が必要としているデータを集約して意思決定に役立てるために、データの分析・可視化・共有を支援するツールです。一般的には、データの集約・蓄積から、整形・分析・活用までのデータ分析に必要な機能を備えています。

主要 BI ツール

Tableau

Tableau(タブロー)[4] は「ほぼすべてのシステムからあらゆる種類のデータを取得し、迅速かつ容易に実用的なインサイトを引き出せる」として世界的に利用されている BI ツールです。
Salesforce との連携が可能な CRM Analystic(旧称 Tableau CRM)も用意されており、Salesforce で顧客データを管理している多くの企業においても活用されています。

Qlik Sense

Qlik Sense(クリックセンス)[5] は、自然言語処理や AI が自動生成するインサイト提案など、最新技術を駆使した BI ツールとして広く使われています。
データ分析の Qlik Sense を中心に、単一クラウドプラットフォームでの複雑なユースケースに対応する Qlik Cloudや、異種・複数プラットフォームをまたがった分析を可能とする Qlik Forts など、データ統合から分析までを網羅する製品群を提供しています。

Microsoft Power BI

Microsoft Power BI(パワービーアイ)[6] は、Excel の操作感で利用できる BI ツールとして、利用が広がっています。
分析のデータソースとして、オフィスで広く使われてきた Microsoft 製品による資料やデータを分析する際には、利用しやすい BI ツールだと言えます。

Looker

Looker(ルッカー)[10] は、Google Cloud が提供する次世代データプラットフォーム製品の一つです。Looker では独自データベースを持たずに、社内外に分散しているデータを集約した DWH (データウェアハウス)を直接セキュアに読み、分析や可視化が行えます。
モデリング言語 LookML を使って指標・集計ロジックを一元管理できます。SQL を自動生成するため、ロジックのメンテナンス負担が軽減されます。
また LookML を使うことで、各種ツールと集計結果をシームレスに連携することができます。
データ分析や可視化に特化した BI ツールと呼ばずに、Looker をデータプラットフォーム製品と呼ぶ理由がここにあります。

BIツールを選ぶポイント

目的に合った分析手法が使えるか

BI ツールによって利用できる分析手法は異なります。
今回の目的に合った分析手法がどのようなものであるか、必要な場合は専門家の支援を得ながら選定し、候補の BI ツールが対応しているかどうかを確認しましょう。

想定する利用者に合っているか

セルフサービス BI として経営層が直接使えるとするツールも登場していますが、実際のところ分析手法を使いこなすのに苦労することもあります。
そこで、分析についてはデータサイエンティストやデータアナリストなどの専門家が行い、ビジュアル化した結果を経営層と共有する、といった利用体制も考えられます。
BI ツール選びと合わせて、その利用者や体制を検討することをお勧めします。

分析対象のデータ種類・データ量を処理できるか

分析対象の主なビッグデータのデータ種類やデータ量を把握し、BI ツールが対応可能かを確認します。
データ種類やデータ量の情報は、データ保管や分析のためのプラットフォーム選定・設計にも必要な情報となります。

分析対象のデータと連携できるか

パブリック/プライベートクラウド、オンプレミスの基幹システム、あるいは外部サイトなど、分析対象のビッグデータの所在を把握した上で、BI ツールとの連携が可能かを確認します。
BI ツールと直接連携が取れない場合には、どのようなデータ連携の仕組みが可能かについて検討する必要があるでしょう。

ビッグデータ分析を行うための3つの準備

ビッグデータ分析に入る前の重要な準備として、ここでは3つを説明します。

目的設定

まず、ビッグデータ分析を行う背景にある、売上アップや生産性向上といった経営レベルの課題を確認します。その経営課題において、どのような数字を知りたいのかを洗い出すと、それがビッグデータ分析の対象データとなります。
さらに、1 年間で 10% アップ、などとできるだけ具体的な数値で目的を設定をします。

ツール・手法選定

BI ツールによって、データクレンジングや保管に強いもの、データ分析やビジュアル化に強いものと特徴が異なります。
今回の目的に合った分析手法と機能が利用できるツールを選定します。

データ整備

BI  ツールとデータソースとの連携を行ったり、BI ツールを使ってデータクレンジングを行ったり、必要な範囲のデータ抽出を行ったりして、精度の高い分析が可能となるようにデータとその環境を整備します。

ビッグデータ分析の主な手法

ここでは、ビッグデータの主なデータ分析手法を説明します。

クロス集計

クロス集計とは、データを属性で分類して傾向を把握する分析手法です。

たとえば、アンケートの設問ごとの回答数や回答比率を単純集計したものに、新たな分析軸として回答者の性別や年齢を追加して(クロスさせて)掘り下げていくことで、傾向を探ることができます。

クロス集計は専門的な統計学の知識を必要としないため、ビッグデータの分析においても比較的扱いやすい手法と言えます。

クラスター分析

クラスター分析とは、多様な性質を持つデータの集合体から、類似データを集めたグループ(クラスター)を作って分析する手法です。

性別や年齢などの外的な属性ではなく、高級志向、旅行好きなどの内的な要因でグルーピングを行うため、顧客のセグメンテーションや自社ブランドの市場でのポジショニングなど、マーケティング領域において広く使われています。

クラスター分析には

  • 階層クラスター分析: 類似データを階層としてまとめていき、一つのクラスターにする
  • 非階層クラスター分析: クラスターの分類数を決めてふるいにかけて、階層を作らずにデータを分類する

の2種類があります。
階層クラスター分析の場合、データ量が大きいと計算量が増えてしまうため、ビッグデータには非階層クラスター分析が向いています。

アソシエーション分析

アソシエーション分析とは、データ間の関連性(アソシエーション)を分析する手法です。
複数データの間のルールを評価して、新しい関連性を発見するために利用されます。

ネットショップにおいて、商品Aを購入する人は商品Bも購入する傾向が高い、との関連性を発見することで、顧客への商品リコメンデーションを行うなどの活用が可能となります。

ロジスティック回帰分析

ロジスティック回帰分析とは、ある要因から事象が起こる確率を予測する分析手法です。YES/NOや当たり/はずれなど、2つの値のどちらかしか起こり得ない事象が対象となります。

結果に対する原因の推測に利用できることから、商品がどのような理由で購入されるのか、生活習慣から病気の発症率はどれくらいか、などの予測に利用されます。

決定木分析

決定木分析とは、条件と選択結果を階層型に積み重ねて、分類と抽出を行う分析手法です。

設問・回答を繰り返し、決定木(デシジョンツリー)と呼ばれるツリー状のモデルを作りながら、決定木の分岐ごとにクロス集計を繰り返していきます。

商品を購入してくれる顧客のターゲットを絞り込んだり、自社商品のコアなファンの属性がどのようなものかを分析する場合などに利用されます。

主成分分析

主成分分析とは、多くの要素を含むデータを要約して、主要な要素のみ(主成分)をまとめる分析手法です。

膨大な要素を持つ複雑なビッグデータから主要な要素だけを集めることで、データの特性を理解するのに役立ちます。
機械学習の教師なし学習でも利用されています。

ビッグデータ分析を行う上での課題

ビッグデータ分析においてしばしば直面する課題についても、あらかじめ認識しておきましょう。

ビッグデータ分析のスキルを持つ人材不足

BIツールを利用することで、専門的な統計の知識を持たなくても分析可能となった側面もありますが、ビッグデータ分析の本格活用にあたっては、データ活用についての高いスキルを持った人材が必要となってきます。とはいえ、データ分析スキルに加えて、分析結果をビジネス課題と繋げて考えられる人材は、そう多くは見つかりません。
ビッグデータ分析を本格活用していくにあたっては、外部の専門家の採用や、自社での育成を考えていく必要があるでしょう。

ビッグデータ分析に関する理解

ビッグデータ分析は、どのような問題においても万能というわけではありません。
過大な期待先行で始めたために、失敗してしまうケースも散見されます。
適切なデータ準備や適切な分析手法を選ばなければ、有益な結果が得られないことを理解した上で、現実的な目的設定や活用形態を設計することが肝心です。

ビッグデータ管理負担の増大

ビッグデータを本格的に活用するほど、データ管理の負担は増大します。
一回限りではなく継続的に分析を行うため、データ収集・蓄積・処理のためのシステム運用とデータ管理は付いてまわります。
さらに個人情報を含むビッグデータの場合、セキュリティ対策を十分に行う必要があります。
ビッグデータの分析の側面だけではなく、継続的な管理の側面にも目を向けておく必要があります。

ビッグデータ分析の未来予測

世界のビッグデータ市場規模は 2027 年に 3,007 億米ドルに達する、との予測があります。[7]
確実に増え続けるビッグデータを有効に活用できるかどうかは、今後の企業を中心としたビッグデータ分析への取り組み姿勢次第と言えるでしょう。

ビッグデータを促進する 5G・IoT

ビッグデータの規模拡大が加速する背景には、5G と IoT の広がりがあります。
さまざまな場所に取り付けられたセンサーから大量のデジタルデータが生まれる IoT の世界は、5G やその次の通信インフラがその膨大な流通量を支えます。
さらに詳細で大量のビッグデータを有効活用しようとする動きも、データ規模の拡大に合わせて加速していくものと考えられます。

データ仮想化によるビッグデータ統合

ビッグデータはデータ量だけではなく、その多様性も拡大していくと考えられます。
しかし、多様なデータソースから異種データを一箇所に集めて分析に利用する場合、フォーマット変換、連携など管理負担は大きいものとなります。

そこで、データをオリジナルの場所から移動させずにアクセス可能とするためのソフトウェアが登場し、「データの仮想化」が可能となってきました。
「データの仮想化」によってビッグデータを仮想的に統合することで、データ間の連携を強化し、データ管理の労力を軽減できます。データ仮想化は、ビッグデータの活用領域をさらに拡大していく可能性を持っています。

国家レベルのデータ戦略

2021 年 9 月 1 日に発足したデジタル庁が策定した「デジタル社会の実現に向けた重点計画」が、2022 年 6 月 7 日に閣議決定されました。[8] その「データ戦略」において、行政のオープンデータやそのシステム基盤の整備・拡充を目指しています。

また総務省の令和 4 年版 情報通信白書 [9] では、「第 2 章 今後の日本社会の展望」の中で「ICT による労働生産性の向上と労働参加の拡大」として「ビッグデータの解析などにより生産過程や流通過程の更なる効率化を図ることも可能となる」と述べています。

一方海外に目を向けて、中国や米国のビッグデータへの取り組みの本気度や勢いと比較すると、日本のビッグデータ分析の領域はまだ開拓の余地ありと言えるでしょう。

まとめ

ビッグデータ分析を活用してビジネス上の価値を手にするためには、適切な準備と計画が肝心です。
クラウドエースでは、 お客様のニーズに合ったビッグデータ分析のためのデータプラットフォームの構築をご提案します。ビッグデータ分析をご検討の際には、どうぞお声がけください。

参照元

  1. Wikipedia “オープンデータ”
  2. データカタログサイト
  3. 総務省 平成29年版 情報通信白書 “ビッグデータの定義及び範囲”
  4. Tableau “Tableau(タブロー)が選ばれる理由とは”
  5. Qlik Sense “クラウド統合/アナリティクス”
  6. Microsoft “Power BIとは”
  7. GII 市場調査レポート “ビッグデータの世界市場”
  8. デジタル庁 “デジタル社会の実現に向けた重点計画”
  9. 総務省 令和4年版 情報通信白書 “第2章 今後の日本社会の展望”
  10. データプラットフォームサービスLooker

この記事を共有する

合わせて読みたい