COMPANY

PAGE TOP

BLOG

【分析活用成功を!】データ前処理という成功の鍵を考えてみませんか (第1回)

KSKアナリティクスでは、データ前処理に特化した分析プラットフォームを開発しております。
このブログでは、データ分析活用を進める際に立ちはだかる壁とも言われ続けている前処理の視点で、
どうしたら分析活用を、より円滑に、より成功確度を高める ことができるのかについて、
話をしていきたいと思います。

初回では、「データ前処理が、なぜデータ分析活用の壁となるのか?」の問題提起を行い、
次回以降、「どうすれば この壁を、より低くすることができるのか?」を掘り下げていきます。

「データ前処理とは」を、上手く説明できますか?

データ前処理は、AI、機械学習などの言葉に対して、とても地味な領域と思います。
形式的な位置付けとしては、収集された生データに対して、分析手法を適用するまでに行われる処理で、
データプレパレーション、データクレンジング、データ加工、データマネジメントや、
最近では 特徴量エンジニアリング、DataOps などの文脈でも取り扱われています。

分析活用の経験ある人には、
その必要性と大変さ、汎用化の難しさ、同僚や上司への説明の難しさ など、思い浮かぶかもしれません。

分析活用の経験がない人には、
この言葉自体を知らない、知っていてもピンとこない状態ではないでしょうか。

この連載の中で、
 「汎用化も難しく、創造性が必要で、作業が大変で、説明が大変、教えるのも引き継ぐのも大変だけども、
  分析活用の成否を握る重要なもの」
というデータ前処理の特性について、
なぜ難しいのか、なぜ大変なのかという、問題となる特性の本質的な原因を理解することで、
  「どうしたら、より進歩した状態になれるだろうか?」
を考えていきたいと思います。

データ分析活用で遭遇する3つの壁

企業での業務改善やDX推進など、組織的にデータ分析活用を行う場合について、
成功確度を高めるためのポイントを探ってみたいと思います。

当たり前のことではありますが、「ゴミからは、ゴミしか生まれない」
と言われるように、データの質や量によっては、
分析活用の目標に到達できないという本質的な問題があるため、
どれだけ分析手法を完備しようとも、分析者が気合いを入れたとしても、
必ず成功するとは限らないという潜在的なリスクがあります。

このため、分析活用を行う際には、既知の落とし穴は避けて、
成功確度を高める工夫を織り込んで進めることが、大切だと感じます。

製造業での品質改善や、営業者の成長支援、ピープルアナリティクスでのマネジメント改善支援など、
20年以上行ってきた分析コンサルタントとしての経験から、少なくとも3つの壁があることを学びました。

 (1) 分析成功の壁 ・・・ もっと成功確度を高めたい
 (2) 効果・効率の壁 ・・・ もっと分析者を増やしたい
 (3) 組織・文化の壁 ・・・ 分析者・開発者など関係者Win-Winにしたい、上手く引継ぎたい

以下、これらが壁となる背景について、考えていきましょう。

(1)分析成功の壁

取得可能なデータの質と量に起因する問題がある中で、
組織でデータ分析活用を促進していくには、
まずは、事業への貢献面での価値と、データ面、分析技術面で、
バランスの取れた課題を選定する必要があります。

実は、この課題選定が、分析活用成功の上で重要ながらとても難しくて奥が深いのですが、
今回は、前処理の視点で議論が趣旨のため、別の機会にヒントを紹介したいと思います。

無事に適切な課題設定ができたとして、次に取り組むのは、PoCを行い、
データの問題をクリアして事業へ貢献可能なことを意思決定者に示す必要があり、
そして、分析システムを開発して実際の事業へ適用して効果を上げるという運用を成功させて、
社内で、類似した課題や分析活用のプロセス自体を展開・普及させて、
その効果を積み上げていくことが理想的な姿です。

適切な課題が設定されている上で、この一連の小さな壁をクリアしていく際に有用な方針として、
以下の4つがあります。

 ・データの種類をUpする  ・・・ 課題に関連する要因を網羅したい
 ・特徴量の種類をUpする  ・・・ 要因間の関係性を、より明確にしたい
 ・試行する分析手法をUpする ・・・ データ、特徴量、手法の相性を見極めたい
 ・1回の試行を短期化する  ・・・ 限られた期間で、多数の試行を行いたい

これらは「より短期間に、より多くの可能性を検討する」という探索する範囲を拡大して、
成功の確度を高める作戦です。

過去に類似の成功例という答えが分かっている課題でないなら、
データの問題と課題とデータと分析手法のバランスの問題への対処として有用な方法ですが、
前処理の作業負荷や、全体での処理効率がネックになることが多く、
実際に試行できる回数を増やせないという問題が起こります。

つまり、成功確度をより高めるポイントとして、
前処理の作業負荷を下げ、処理効率を上げることが、効果的な方法と言えます。

(2)効果・効率の壁

分析活用の成功事例もできて、さらに展開することで、
草の根的な効果の積み上げを図りたい場合、
新規の案件と、過去の累積された案件を維持・改善するために、
分析活用プロジェクトを推進する提供力の強化が必要になってきます。

提供力の強化としては、分析者の育成が考えられますが、
近年、便利なツールや書籍、トレーニングが充実してきたとはいえ、
短期間での育成が難しい面もあります。
分析業務を専任する場合はともかく、事業部門内でも分析できる人を増やしたい場合など、
プログラミングレベルのスキルを使いこなすことを前提にしていては、
さらに育成は難しくなってしまいます。

この育成が難しいことの一つの要因として、機械学習などのアルゴリズムを理解し使うこと以上に、
分析課題の設定や、前処理の設計と実装についての技術やスキルを習得するのが難しい問題があります。

その原因は、分析課題とデータと分析技術のバランスを考えて、状況に応じて対処や調整を行うという
組み合わせ的な相性の問題があるからです。 ケース・バイ・ケースに見えるような相性の問題のため、
汎用化や体系的な教科書を作ることが難しく、ベテランも若手に教えるのに苦労してしまいます。

(3)組織・文化の壁

異なる役割の関係者との連携と、現在の人と将来の人との連携である引継ぎについて、考えてみます。

連携の例として、運用のための分析システムを開発する場合を考えてみます。
一般的に、分析の内容を熟知している人と、運用システムとしての品質を担保する人が異なるために、
分析者とシステム開発者とで連携する必要があります。

しかしながら、より効果的な分析モデルを提供したい分析者は、
特徴量や前処理の工夫には執着ありますが、運用性面での処理効率とか信頼性には関心が低く、
一方で運用性の高いシステムを提供したい開発者は、処理効率に優れ、改良などの保守性を目指すも、
分析者が作成した多様で複雑なデータ加工内容を理解するのは容易でないため、
ブラックボックス化してしまうといった困った状態に陥ることがあります。

また、運用を継続していく上で、データソースの追加、前処理や特徴量の改善などの
維持と発展の活動も重要なのですが、最初の開発者から交代があった場合はさらに、
データ加工内容を理解するのは容易でないため、ブラックボックス化が進んでしまい、
発展を阻害してしまう問題も起こります。

まとめ

分析成功の壁、効果・効率の壁、組織・文化の壁の3つの視点で成功確度を高める方法を
掘り下げましたが、いずれにも、やっかいな前処理がネックとして横たわっています。

今回は、「データ前処理が、なぜデータ分析活用の壁となるのか?」の問題提起を行いました。
それでは、「どうすれば この壁を、より低くすることができるのか?」を、
今後 紹介していきたいと思います。


データ前処理に特化した分析プラットフォーム 「KSKP」


https://www.kskp.io/

弊社のビジョン 「 誰もが当たり前にデータを分析・活用できる社会 」 実現のために、
データ前処理の壁を乗り越えることを支援します。

さらに、組織的なデータ分析・活用を発展させるために、
データ前処理に対して、共有化による労力の削減と品質の向上を支援します。

データ前処理の領域は、その特性より多様性と奥深さがあるため、
ツールの選定問題ではなく、データ前処理の要件整理と設計が必要な局面も多くあります。
製品導入だけでなく、データ前処理の問題への対処が必要な場合も、
まずは、お気軽にお問い合わせください。

【お問い合わせ】

執筆者: KSKアナリティクス 山田 賢太郎

鉄鋼業のシステム研究開発部門にて、分析技術の現場適用を推進し、
SI構築業にて、分析活用のコンサルティングを推進し、
現在、データ前処理ツールの開発に従事と、
20年以上に渡り、データ分析活用の成功について問い続けています。

$$ \begin{aligned} \newcommand\argmin{\mathop{\rm arg~min}\limits} \boldsymbol{\beta}_{\text{ridge}} & = \argmin_{\boldsymbol{\beta} \in \mathcal{R^p}} \biggl[ ||\boldsymbol{y}-\boldsymbol{X\beta}||^2 + \lambda ||\boldsymbol{\beta}||^2 \biggr] \\ & = (\boldsymbol{X}^T\boldsymbol{X} + \lambda\boldsymbol{I_{p+1}})^{-1}\boldsymbol{X}^T\boldsymbol{y} \end{aligned} $$
PAGE TOP