資料公開|データ分析の基礎と上手な活用方法を学ぶ

公開 : 2021.03.01  最終更新 : 2021.06.24
カテゴリー
タグ

2021年2月26日にオンラインセミナー「データ分析の基礎と上手な活用方法を学ぶ」を開催いたしました。
この記事では当日用いた資料を公開し、そのポイントをご紹介します。

動画で見る

データドリブンとは

AI技術やビックデータ解析技術の進歩により、あらゆる側面でデータに基づく意思決定の重要性が認識されています。しかし「データドリブン」とは、「データを分析すること」や「技術を活用すること」ではありません。
経営課題に則して必要なデータを適切に活用できていることが「データドリブン」の価値であり意味であると言えます。

データサイエンティストとは

一般的に「データサイエンティストに必要」と言われるスキルの要素はこの3つです。

  • Business・・・業務知識や業務課題の解決スキル
  • Analytics・・・統計に関する素養
  • Engineering・・・技術への理解

この3つを高いレベルでバランスよく持っていることが理想ですが、人によって強みを持つ分野やその程度はさまざまです。
特にDX推進においてはBusinessに強みを持っていることが重要であると言えます。なぜなら課題から必要なデータを分析し、実際の業務へ適用した上で結果を見て改善してく必要があるからです。

データ分析の進め方

データ分析を始めるにはまず「問い」(何をしたいから分析するのか)が必要になります。「AIを使って何かしたい」「データがたくさんあるからとりあえず分析してみたい」という発想で進めてしまうと、出てきた結果が適切であるのか、どのように扱ったらいいのかがわからなくなり、ただ「データを出しただけ」になってしまうからです。

データ分析標準プロセス「CRISP-DM」

「CRISP-DM」とは、「CRoss-Industry Standard Proccess for Data Mining」の略語で、業種業界に捉われない、データ分析を行う際に採るべき標準的なプロセスを体系化したもので、以下の6つのフェーズで構成されています。

1.Business Understanding(ビジネスの理解)

解決したい課題を見極め、検証したい内容の仮説を立てること、「問い」の設定をすることです。ビジネスの現状やプロジェクトに求められている役割から、分析で突き詰めるべき課題を明確にするのがデータ分析の最初のプロセスです。

例えば、小売店の販売戦略を立案するときに以下のデータが手元にあって、売り上げ予測分析をしようとしているとします。

  • 自社の売り上げデータ
  • 外部機関から購入した市場データ(都道府県別/店舗タイプ別)
  • 気象庁のデータ、人口統計データ等の無償オープンデータ

分析の前に整理すべきこととしては、「これらのデータを使って何をしたいのか」ということです。

  • 具体的な売り上げ額を予測して経営シミュレーションをしたい
  • 売り上げが落ちるタイミングを把握して事前に戦略を立てたい

など、問いの立て方によってその後の分析手法は大きく変わってきますので、まずは課題を明確にし、目的をしっかりと把握することが大切です。

2.Data Understanding(データの理解)

分析するデータについて、課題に対して必要なデータが揃っているのか、偏りや欠損がないか、データの特徴を理解するというプロセスです。ここを疎かにすると正しい分析結果がでません。

例えば、先ほどと同じ小売店の例に当てはめてみると、年間を通した売り上げ情報が見たいのに「夏」のデータが欠けている(欠損)、全国の傾向が見たいのに関東地方しかデータが取れていない(偏り)、気象庁のデータで「最高気温」が見たいのに取得できていない(不足)などの問題があり得るので、分析に必要なデータが正しく揃っているのかどうかを確認する必要があります。

3.Data Preparation (データの準備)

取得したデータを加工し「データクレンジング(人にとって見やすくする作業)」と「特徴量の生成(機械にとって見やすくする作業)」を行うプロセスです。
実はこの工程がデータ分析の大部分を占めるのですが、具体的には以下のような作業を行います。

  • 欠損の除去/補完
    あるはずの値が存在しない場合、0で埋める/平均値で埋める/中央値で埋める/レコード自体を削除する、などの方法の中から最適なものを検討します。
  • 外れ値の除去
    例えば、特定の日付だけ売り上げが突出しているようなことがある場合、当該データがノイズになってしまうため、除去するのが一般的です。ただし、「何を以て外れ値とするか」についてはビジネスとしての判断が必要になります。
  • カテゴリー型変数のダミー化
    テキスト処理されている情報は、コンピューターが読み取りやすい0・1の数値に置き換えます。この手続きを「ダミー化」といいます。
ダミー化
4.Modeling(モデリング)

データの準備が整ったところで、統計的な分析手法や機械学習、深層学習等を用いたモデリングを実施します。「データ分析」というと一般的にこの工程をイメージする方が多いと思います。

  • 回帰分析
    分布の規則性を適切に説明する数式(回帰式)を算出し、傾向を確認したり予測をしたりする手法
  • クラスター分析
    分散しているデータをグルーピングして、傾向を確認したり予測をしたりする方法
  • 予測モデル/判定モデルの生成(AIの活用)
    基本的には回帰分析、クラスター分析をさらに複雑にしたもの

1のBusiness Understanding(ビジネスの理解)で明らかにした課題や問いの問題設定に対して、適切な手法で分析していくことが必要です。問題設定は大きく以下の2つに分類されます。

  • 回帰問題
    具体的な数値を予測するような問題(株価予測、気温予測など)
    →例えば、具体的な売上額を予測して経営シミュレーションをしたい場合などは回帰問題
  • 分類問題
    真偽の判定(二項分類/PCR検査など)やどのカテゴリーに分類されるか(多項分類)という問題。
    →例えば、売り上げが落ちるなんらかの原因を把握してプッシュ戦略を立てたい場合などは分類問題

また、一般論としてモデリングでは学習用データと検証用データを分割します。なぜなら学習用のデータの中に検証用のデータが混在していると、リーク(いわゆるカンニングと同じ状態)になってしまうためです。

よく用いられるのが「交差検証」です。
例えば図のように一つのデータをランダムに複数回に分割し、テストデータをずらしながら繰り返し学習・テストを実施します。

交差検証(AI Academy Mediaより引用

5.Evaluation(評価)

生成した予測モデルを評価するプロセスです。
評価の観点は「精度」と「過学習(偏った学習)がないか」です。「過学習」については前述の「交差検証」を活用することで、モデリングと同時に検証をすることができます。

「精度」については問題の設定やこの先どのようにこの結果を活用していくのかによって異なります。業務的な文脈に沿って「精度」が適切かどうかの判断をする必要があります。

AIを活用する場合、精度だけでなく「当たり前の結果きちんと導き出せるのか」という信憑性と「新しい知見を見出すことができるか」という発見が求められます。
実際に用いる精度評価指標をご紹介すると以下のようなものがあります。

回帰モデルの評価

  • RMSE(平方平均二乗誤差)
    予測した値と実際の値についてどのくらいの誤差があったかを評価する
  • 決定係数
    予測モデルが実際の値をどのくらい説明できているかを評価する

分類モデルの評価

  • 混同行列
    予測結果と実際の判定結果の関係性から「真陽性」「真陰性」「偽陽性」「偽陰性」の数を算出して結果を分析する
  • ROC曲線/AUC
    予測結果をもとにROC曲線を描画し、曲線下部の面積(AUC)で精度を評価する

もし、評価の結果が良くなかった場合は以下のようなことを見直してみることをおすすめします。

  • 仮設や問題の設定は適切か?(そもそものビジネス理解に立ち返って見直しましょう)
  • データ量が少なすぎないか?(あまりに少なすぎると適切な結果がでません)
  • 変数に過不足はないか?(予測結果に寄与していないデータは外した方がいいです)
  • データ加工は適切ですか?(外れ値の設定、カテゴリー変数の粒度、異常値など)
  • 学習データと検証データは適切か?(夏のデータで冬の予測は立てられません)
  • モデリングの方法は適切か?(データの分布が広い場合回帰分析は向いていません)
6.Deployment(展開)

分析結果に基づく新たな手順を新たな業務に落とし込むプロセスです。
得られた知見を現場と共有して、作業を追加するような軽いものから、結果に基づき業務プロセスを抜本的に変更する、アプリ開発をして丸ごと見直すような大掛かりなものまでさまざまです。

上記プロセス(CRISP-DM)についてはこちらのコラムでも便利な分析ツール「KNIME(ナイム)」とともにご紹介しています。併せてご覧ください。
データ分析とは? 依頼の前に知っておくべきプロセスと注意点

まとめ

データドリブンとは、課題を明確にして、課題に則したデータを分析し、検証結果を元にアクションすること、そして改善を繰り返すことです。そのため、分析に着手する前に「なんのための分析なのか」という課題を明確にすることが特に重要になります。

課題を明確にしたら、分析プランを立てましょう。また、進めていくうちに迷ったり、行き詰まったりすることも出てくると思いますが、その時には必ず課題に立ち返えり見直しをしていくことが肝要です。

もし、課題についてまだ不明瞭な状態であったり、明確化できていない場合、その掘り起こしから支援してくれるパートナー企業を探すことを検討しても良いと思います。
パートナー選定の際にはぜひ「依頼者のビジネスを理解し、課題を共有しよう」という姿勢があるかどうかをポイントにしてみてください。

DXのご相談はNCDCへ!

NCDCはデータ分析の知見のみならず、新規事業やDXに関する企画・実行支援やシステム構築のノウハウが豊富に揃っております。
データ分析に際しての問いの策定・洗練から分析実務、分析結果に基づいたビジネス戦略の策定、新たなシステムの設計構築まで、さまざまな分野のスペシャリストによるワンストップでのご支援が可能です。データ分析の支援を含め、DXや新規事業の立ち上げ、実行に関してのお困りごとは、ぜひNCDCへご相談ください

この記事でご紹介したオンラインセミナー「データ分析の基礎と上手な活用方法を学ぶ」のアーカイブ動画をご覧になりたい方は下記のリンクからお申し込みください。

動画で見る

また、NCDCでは定期的にセミナーを開催していますので、ご興味のある方はセミナー情報ページもご覧ください。

ページトップへ

お問い合わせ

NCDCのサービスやセミナー依頼などのお問い合わせは
下記のお電話 また、お問い合わせフォームよりお気軽にご連絡ください。

050-3852-6483