こんにちは、クラウドエース編集部です。 インターネットや IT 活用の拡大に合わせて、蓄積されていく膨大な情報—ビッグデータ。 ビッグデータを有効に活用できれば、企業の未来の姿も変わってくるはずです。ところが、適切な分析方法を適用しなければ、宝の持ち腐れになってしまうかもしれません。 ここでは、ビッグデータの主要な分析方法と、ビッグデータ活用のメリットについて説明します。さらにビッグデータを扱う際の注意点も踏まえて、ビッグデータを宝の山とする効果的な向き合い方を考えていきましょう。 目次 Toggle ビッグデータの定義とはビッグデータの分析手法ビッグデータ分析に使えるツールビッグデータ活用のメリットビッグデータ解析の注意点まとめ ビッグデータの定義とは ビッグデータとはデータの収集、取捨選択、管理及び処理に関して、一般的なソフトウェアの能力を超えたサイズのデータ集合のことです。[1] ビッグデータの特性を表すのに、ガートナーの「3V モデル」がしばしば採用されています。 データ量(Volume) データ速度(Velocity) データ種類(Variety) ガートナーは 3V を使って、ビッグデータを次のように定義しています。[1] ビッグデータは、高ボリューム、高速度、高バラエティのいずれか(あるいはすべて)の情報資産であり、新しい形の処理を必要とし、意思決定の高度化、見識の発見、プロセスの最適化に寄与する データ量 ビッグデータの第一の特徴は、その名が表すように、膨大なデータ量にあります。 具体的な数値としての定義があるわけではありませんが、「一般的なソフトウェアの能力を超えたサイズ」と表現されることから、「数十テラバイトから数ペタバイト」のデータ量と捉えられています。 データ速度 データ速度とは、データの発生頻度、更新頻度のことです。 ビッグデータとは静的なデータではなく、データが大量かつ高速に生まれ、変わっていく動的な状態のデータと言えます。 データ種類 ビッグデータにおいては、データの発生源やデータのタイプも多様です。 総務省の情報通信白書[2]によると、ビッグデータのデータ種類として オンラインショッピングサイトやブログサイトにおいて蓄積される購入履歴やエントリー履歴、ウェブ上の配信サイトで提供される音楽や動画等のマルチメディアデータ、ソーシャルメディアにおいて参加者が書き込むプロフィールやコメント等のソーシャルメディアデータ さらに GPS、IC カードや RFID において検知される、位置、乗車履歴、温度等のセンサーデータ、CRM(Customer Relationship Management)システムにおいて管理されるダイレクトメールのデータや会員カードデータ等カスタマーデータといった様々な分野のデータ が挙げられています。 最近では以上の 3V に データの正確さ(Veracity) データ価値(Value) の 2 つを追加して、ビッグデータの特性を 5V で表すこともあります。 ビッグデータの分析手法 ビッグデータ解析でこれまでは得ることができなかった新しい価値を獲得するには、目的に合った分析手法を選ぶ必要があります。 昨今注目されているデータサイエンティストとは、こうした分析手法を駆使してビッグデータ解析を行うプロフェッショナルのことです。 ここでは、ビッグデータの主なデータ分析手法の特徴を捉えておきましょう。 クロス集計 クロス集計とは、データを属性で分類して傾向を把握する分析手法です。 たとえば、アンケートの設問ごとの回答数や回答比率を単純集計したものに、新たな分析軸として回答者の性別や年齢を追加して掘り下げていくことで、傾向を探ることができます。 クロス集計は専門的な統計学の知識を必要としないため、ビッグデータの分析においても比較的扱いやすい手法と言えます。 クラスター分析 クラスター分析とは、多様な性質を持つデータの集合体から、類似データを集めたグループ(クラスター)を作って分析する手法です。 性別や年齢などの外的な属性ではなく、高級志向、旅行好きなどの内的な要因でグルーピングを行うため、顧客のセグメンテーションや自社ブランドの市場でのポジショニングなど、マーケティング領域において広く使われています。 クラスター分析には 階層クラスター分析: 類似データを階層としてまとめていき、一つのクラスターにする 非階層クラスター分析: クラスターの分類数を決めてふるいにかけて、階層を作らずにデータを分類する の 2 種類があります。 階層クラスター分析の場合、データ量が大きいと計算量が増えてしまうため、ビッグデータには非階層クラスター分析が向いています。 アソシエーション分析 アソシエーション分析とは、データ間の関連性(アソシエーション)を分析する手法です。 複数データの間のルールを評価して、新しい関連性を発見するために利用されます。 ネットショップにおいて、「商品 A を購入する人は商品 B も購入する傾向が高い」との関連性を発見することで、顧客への商品リコメンデーションを行うなどの活用が可能となります。 ロジスティック回帰分析 ロジスティック回帰分析とは、ある要因から事象が起こる確率を予測する分析手法です。YES / NO や当たり/はずれなど、2 つの値のどちらかしか起こり得ない事象が対象となります。 結果に対する原因の推測に利用できることから、商品がどのような理由で購入されるのか、生活習慣から病気の発症率はどれくらいか、などの予測に利用されます。 決定木分析 決定木分析とは、条件と選択結果を階層型に積み重ねて、分類と抽出を行う分析手法です。 設問・回答を繰り返し、決定木(ディシジョン・ツリー)と呼ばれるツリー状のモデルを作りながら、決定木の分岐ごとにクロス集計を繰り返していきます。 商品を購入してくれる顧客のターゲットを絞り込んだり、自社商品のコアなファンの属性がどのようなものかを分析する場合などに利用されます。 主成分分析 主成分分析とは、多くの要素を含むデータを要約して、主要な要素のみ(主成分)をまとめる分析手法です。 膨大な要素を持つ複雑なビッグデータから主要な要素だけを集めることで、データの特性を理解するのに役立ちます。 機械学習の教師なし学習でも利用されています。 ビッグデータ分析に使えるツール ビッグデータ分析には、膨大で多様なデータを処理できるツールが必要となります。加えて、前章でご紹介したような分析手法が利用できることも求められます。 BI ツール BI(ビジネスインテリジェンス:Business Intelligence)ツールとは、企業が必要としているデータを集約して意思決定に役立てるために、データの分析・可視化・共有化を支援するツールです。 BI ツールは、多様なデータソースに対応しています。また、分析のためのモデルやグラフなどの可視化機能も複数用意されています。 ビッグデータの集計や加工には多大な労力がかかりますが、BI ツールを利用することで、データの集計や加工の省力化が可能となり、企業の迅速な意思決定に役立てることができます。 データマイニングツール データマイニングツールとは、大量のデータの中から有用なデータを採掘(マイニング)するためのツールです。 収集したばかりの何の手も加えられていない状態のローデータには、多くのノイズが含まれています。 したがって、データマイニングツールを利用して、ローデータからノイズ除去をするデータクレンジングを行います。 次にクレンジング後のデータから、さまざまな分析を行います。 多くのデータマイニングツールでは、AI による機械学習を使って大量データから傾向を把握します。 従来は、データマイニングツールで大量のローデータを活用できる形にして、BI ツールで分析・可視化するといった組み合わせ/使い分けで捉えられていました。 現在は、BI ツール・データマイニングツールとも同様の機能をカバーするようになり、両ツールの違いは小さくなっていると言えます。 ビッグデータ活用のメリット ビッグデータ分析に使えるツールの登場や、大量データ処理を支えるシステム基盤の成熟によって、企業におけるビッグデータ解析は実現可能なものとなっています。 ここでは、ビッグデータの活用によってどのようなメリットが得られるのかを確認します。 精度の高いタイムリーな現状把握ができる 従来は不可能だった詳細かつ広範なデータを分析できるようになり、現状把握の精度が上がります。 大量データ処理についてもタイムリーに結果を得られるため、さまざまな分析を繰り返し行えるようになりました。 予想していなかった商品同士の合わせ買い傾向がわかるなど、これまで隠れていたデータを発見できれば、今後打ち出す施策も変わってくることでしょう。 精度の高いスピーディーな予測ができる 需要予測や障害発生予測などにおいても、ビッグデータ解析から精度の高い結果をスピーディに得ることができます。 勘と経験に頼りがちなマーケティング領域においても、データに基づいた予測が可能となります。 新たなビジネス機会の創出が期待できる ビジネスにおけるビッグデータ解析のメリットは、ここに集約されると言えます。 高い精度のタイムリーな現状把握や予測は、新商品開発や新規事業立ち上げなど、企業経営に関わる意思決定とその迅速化を促進するでしょう。 ビッグデータ解析の注意点 ビッグデータを活用するにあたっては、そのリスクも理解しておくことが重要です。 不完全なデータや信頼性の低いデータがある 収集しただけのローデータには、不完全なデータが混じっていることがあります。 IoT 機器から収集されたデータには、欠損や誤差が含まれていることもあります。アンケートや口コミなどから得られたデータには、信頼性に問題のあるデータが含まれているかもしれません。 ビッグデータ分析の前に、こうしたノイズを除去するための「データクレンジング」を行う必要があります。加えて、SNS から収集するデータを分析する際には、倫理面での問題やフェイクデータが含まれていないかなど、データの質的な側面に注意を払う必要があるかもしれません。 ビッグデータ解析の目的や対象領域によっては、データレンジングや事前のデータ抽出が必要なケースがあることに留意しましょう。 収集したデータの維持管理コストがかかる ビッグデータ解析のためには、膨大なビッグデータを収集する仕組みの維持や、増え続けるデータを保管するためのスペースの確保が必要です。 継続的なビッグデータ解析には、継続的なデータの維持管理とそのコストがかかる点を考慮しておく必要があるでしょう。 個人情報についてのセキュリティ対策が必要となる 特に個人情報が含まれるビッグデータについては、セキュリティ対策が必要です。 万一情報漏えいが発生した場合、社会的な信頼の損失は計り知れません。そのため外部からの不正アタックを防ぐ・暗号化する・関係者にセキュリティ教育を行うなど、安全にビッグデータを取り扱うための対策は欠かせません。 ビッグデータには、個人情報や個人関連情報が含まれることが多いため、データ収集の時点からセキュリティ対策は必須と捉えておくべきでしょう。 まとめ ビッグデータ解析をビジネスに役立てることのできる環境が整ってきた現在。 これまでは見過ごされてきた膨大なデータの中から、新しいビジネスチャンスの芽を掴み取る準備を始めませんか。 クラウドエースでは、お客様におけるビッグデータ解析プラットフォームの構築や運用をご支援します。ビッグデータの活用をお考えの際には、ぜひ一度ご相談ください。 参照元 Wikipedia “ビッグデータ” 総務省 平成24年版情報通信白書 “ビッグデータとは何か”