COMPANY

PAGE TOP

BLOG

【分析活用成功を!】機械学習活用を成功させるには 前編:落とし穴 (第2回)

KSKアナリティクスでは、データ前処理に特化した分析プラットフォームを開発しております。
このブログでは、データ分析活用を進める際に立ちはだかる壁とも言われ続けている前処理の視点で、
どうしたら分析活用を、より円滑に、より成功確度を高める ことができるのかについて、
話をしていきたいと思います。

前回、「データ分析活用の壁となるデータ前処理、この壁をより低くするには?」
を掘り下げていくとアナウンスしたのですが、
そもそも「機械学習を活用したプロジェクト自体を成功させたい」ということが、
まずはの関心ごとではないかと思い、このプロジェクトの成功をテーマとして取り上げて、
前編で落とし穴を、後編で工夫を、2回に分けて話をしたいと思います。

データ分析技術を活用したプロジェクト

最初に、話の趣旨をより明確に理解していただきたいので、用語を整理しておきます。

”分析” と ”解析”、どちらもよく使われていますが、
このニュアンスの違いを意識したことはあるでしょうか?

分析技術を活用していく上で、ヒントとなるツボを、この言葉のニュアンスの違いから考えてみます。

データ分析とは

私見の定義になりますが、細部をそぎ落としていき、
この言葉が使われる文脈に含まれている本質的な概念を、以下のように表現してみました。

 分析とは、意思決定のために、比べて考えること

この定義に従うと、3つの要件があることに気づきます。

 構成要素
 ● 意思が必要で、目的のない分析は、ありえない
 ● 比べることが肝要で、目的とする価値観で、何と何を比べるか? が本質
 ● 考えることが必要で、比べた結果が目的を果たしたのか? が本質

データを用いて行う分析であるデータ分析は、”定量的に比べる” となります。

 データ分析とは、意思決定のために、定量的に比べて考えること

データ解析とは

では、同じ方法で ”解析” についても考えると、以下の表現となります。

 解析とは、手順に従って、正しく処理を行うこと

 構成要素
  ● 出力する目的が必要で、何を出力したいかがある
  ● 手順が必要で、アルゴリズムを重視
  ● 正しい処理が必要で、手順を正しく適用することを重視

分析とは異なり、アルゴリズムなどの手順を重視していることがわかります。
より優れた手順で事業へ貢献するために、データを活用したいという場合に
当てはまるのは "解析" となります。

機械学習などのデータ分析技術を活用する際に、
より目的を重視する分析なのか、よりアルゴリズムを重視する解析なのか、
どちらに重きを置くかというアプローチの方向に合わせて、
言葉を使い分けることにより、より明瞭に伝えることができるとようになります。

ご想像の通り、解析の場合は、より技術面の影響を強く受け、
分析の場合は、技術面以外の影響をより強く受けることになります。
これは、検討すべき範囲が、一般的に分析の方が広くなってしまうからです。

データ分析プロジェクト

事業に貢献するために気をつけることを掘り下げていきたいと思いますので、
解析よりも検討すべき範囲が広い(より視野を広く持つ必要がある) ”分析” を
取り上げて話を進めます。

データ分析プロジェクトは多様な目的で実施されますが、企業人の関心ごとを極論すると、
「業績を向上させる or 損失を抑制する ことに有用な、法則を発見し、改善に活用する」
となります。しかしながら、いざ実践してみると、いろいろな困難に遭遇することも、
よく知られていることです。

特に、初めて機械学習などの分析技術を活用するプロジェクを行う場合には、
成功を阻害しかねない構造的な問題が根っこに存在しているのため、
落とし穴に注意して、失敗を避けて成功確度を高める活動をお勧めします。

データ分析プロジェクトの落とし穴

それでは、データ分析プロジェクトを推進する場合に気をつけたい落とし穴について、
考えてみましょう。

誰も知らない難しさ

当たり前のことですが、答えを知らないなかでプロジェクトを進める必要あるため、
確かな予見が難しいという不透明さへの工夫が大切になってきます。

この当たり前のことを、最初の落とし穴に選んだのは、
分析活用プロジェクトでは、これを前提にした上で、
数々の工夫を行なっていく必要があるからです。

 ● 知らないを前提に筋道を考える
 ● これを怠ると多くの困難に見舞われてしまう

バランスの問題である という難しさ

機械学習は、魔法の杖ではないため、評判の高い手法を適用することで、
成功できるだろうと考えてしまうのは、危険です。

データ分析においては、3つの視点でバランスを図ることが重要になりますが、
このバランスという、組み合わせの相性問題への対処が必要になります。

 独立でなく密結合
  ● 業務活用の狙いの設定
  ● データの質と量の確保
  ● 分析技術の選定

どれか一つでも状況が変化した場合、残りのものも影響を受けるため、
改めてバランスの取れた組み合わせへ修正する必要があるということです。

残念ながら、データ分析活用をする上での本質的な特性のため、
避けることができない問題ですし、この構成を理解するだけで、
多大な労力が必要になることも、想像いただけると思います。

データの質・量に問題がある という難しさ

バランス問題で一番よく遭遇するのは、データの質・量の問題ですが、
これは偶然ではなくて、構造的なものがあります。

落とし穴として、誰も知らない難しさがあると説明しましたが、
そもそもデータ分析をしたくなる主な理由は、「答えを知らない」からです。
データ分析により、知らない状態から、知っている状態に移ることができるのです。

知らない状態では、知りたい視点での業務活用が行われていないのはもちろんのこと、
充実したデータの蓄積も、データ間での紐付け用のキー項目も無かったりするのも、
すべては、知らないが故です。

  答えを知りたいから、分析を行う
  答えを知らないくて、現在活用していないが、今後は活用したい
  活用していないから、データの質は不明瞭で、分析用途の紐付けなども未整備
     ↓
  バランス問題の発生や、複雑で煩雑なデータ前処理が必要になる恐れあり

既に類似の成功例を知っていた、先見の明ある人が関与してきたとかで無い場合、
データの質・量の問題に遭遇する恐れがあるとして、工夫することが必要になります。

業務への活用の難しさ

データ分析で得た知見(法則や予測値)をもとにアクションを起こさない限り、
事業へ貢献することはできません。

現場へ適用する場合の落とし穴としては、最終的に責任を取れるのは人だけなので、
データ分析結果に対して、責任を負う人が納得できることを求められることがあります。

  ● 責任を取れるのは人だけ
  ● 分析結果の活用に責任負う人が、納得できること

この問題の難しさは、人との信頼関係の話なので、対象者の文化やスキルレベルに応じて
精度の向上以外にも、モデルの理屈が納得できるとか、表示がわかりやすいといった
工夫が必要になります。

人の命にかかわるような医療や自動運転などの分野だけでなく、
生産現場や、機器の予防保全などにおいても、
モデルの精度だけに配慮するのではなくて、正しく情報を判断できる工夫や、
モデルに対する納得感からの信頼性向上なども、必須の要件となることもあります。

まとめ

今回は、データ分析プロジェクトの4つの落とし穴について、
腑に落ちた感じになっていただきたくて、背後にある本質的なメカニズムを紹介しました。

 4つの問題点
  問題1: 誰も知らない難しさ
  問題2: バランスの問題である という難しさ
  問題3: データの質・量に問題がある という難しさ
  問題4: 業務への活用の難しさ

実際にプロジェクトを推進する場合には、ここで挙げた本質的な特性を手掛かりにして、
穴に落ちるのを避けて、より成功確度を上げるための工夫を織り込んでいくことが、
必要になります。

次回の後編では、成功確度を高める工夫に焦点を当てて、考えていきます。

過去の投稿
【分析活用成功を!】データ前処理という成功の鍵を考えてみませんか (第1回)


データ前処理に特化した分析プラットフォーム 「KSKP」


https://www.kskp.io/

弊社のビジョン 「 誰もが当たり前にデータを分析・活用できる社会 」 実現のために、
データ前処理の壁を乗り越えることを支援します。

さらに、組織的なデータ分析・活用を発展させるために、
データ前処理に対して、共有化による労力の削減と品質の向上を支援します。

データ前処理の領域は、その特性より多様性と奥深さがあるため、
ツールの選定問題ではなく、データ前処理の要件整理と設計が必要な局面も多くあります。
製品導入だけでなく、データ前処理の問題への対処が必要な場合も、
まずは、お気軽にお問い合わせください。

【お問い合わせ】

執筆者: KSKアナリティクス 山田 賢太郎

鉄鋼業のシステム研究開発部門にて、分析技術の現場適用を推進し、
SI構築業にて、分析活用のコンサルティングを推進し、
現在、データ前処理ツールの開発に従事と、
20年以上に渡り、データ分析活用の成功について問い続けています。

$$ \begin{aligned} \newcommand\argmin{\mathop{\rm arg~min}\limits} \boldsymbol{\beta}_{\text{ridge}} & = \argmin_{\boldsymbol{\beta} \in \mathcal{R^p}} \biggl[ ||\boldsymbol{y}-\boldsymbol{X\beta}||^2 + \lambda ||\boldsymbol{\beta}||^2 \biggr] \\ & = (\boldsymbol{X}^T\boldsymbol{X} + \lambda\boldsymbol{I_{p+1}})^{-1}\boldsymbol{X}^T\boldsymbol{y} \end{aligned} $$
PAGE TOP