COMPANY

PAGE TOP

BLOG

【連載】RapidMinerで始める簡単データ分析!!~Part2:データ可視化~

前回の記事では、分析練習用として顧客離反データを読み込む方法を学びました。
今回は読み込んだデータをRapidMinerで可視化し、
データを俯瞰的に眺め知見を得る方法を学んでいきましょう!

RapidMinerを用いてデータと、統計や図表など各種情報を確認しましょう。

下の図に示す「結果」画面の、5つの機能を順番に確認していきましょう。

1.結果画面
2.データフィルタ
3.データ一覧
4.統計情報
5.グラフ


1.結果画面
  結果画面では、レポジトリへ前回保存した顧客離反データを確認することができます。
  ※結果画面にデータが表示されていない場合は、
   以前の記事に従ってデータの読込をお願い致します。
  
  結果画面の上部を確認すると、次のことがわかります。
  ・データセットには、996行(example)のデータがあります。 
  ・データセットには、1つの目的変数(label)と4つの説明変数(regular attributes)が含まれます。
2.データフィルタ
  データフィルタを使えば、一覧に表示するデータをフィルタリングすることが可能です。

  2-1.下記のように「missing_labels」を選択すると、目的変数(label)の値が「?」表示のレコードのみに絞られます。
     今回の場合は、996行のデータのうち96行のみになります。



   2-2.他の種類のフィルタも試してみましょう。

3.データ一覧

  データ一覧では、取り込まれたデータを確認できます。
  また、データーフィルタでフィルタリングされた結果も反映されます。
4.統計情報

  次に、「Statistics」をクリックします。
  統計情報では、属性(変数)の型、各属性の欠損値の数、
  基本統計量(最小値、最大値、最頻値、平均値、標準偏差など)を確認することが出来ます。

   4-1.「Payment Method(支払方法)」をクリックし、展開してグラフを表示します。

   4-2.「Open chart」をクリックします。

   4-3.グラフ画面へ遷移します。「Statistics」をクリックすると、統計情報の画面へ戻ります。

   4-4.「Payment Method(支払方法)」を再度クリックすると元に戻ります。


5.グラフ

  4で確認したように、統計情報の「Open chart」をクリックすると、
  グラフ画面へ遷移します。「Statistics」下の「Charts」をクリックしても遷移できます。

   5-1.グラフの種類を選択します。

   5-2.表示されているグラフ名をクリックすると(ここでは「Scatter」)、
     利用できるグラフがすべて表示されます。
     新しいグラフでデータを可視化してみましょう。

データを可視化する方法は多くあります。
RapidMinerのグラフ機能を使って、時間をかけてデータについて学びましょう。
そして準備が整えば、次のステップPart3へ進み、モデルの作成方法について学びましょう。

 

$$ \begin{aligned} \newcommand\argmin{\mathop{\rm arg~min}\limits} \boldsymbol{\beta}_{\text{ridge}} & = \argmin_{\boldsymbol{\beta} \in \mathcal{R^p}} \biggl[ ||\boldsymbol{y}-\boldsymbol{X\beta}||^2 + \lambda ||\boldsymbol{\beta}||^2 \biggr] \\ & = (\boldsymbol{X}^T\boldsymbol{X} + \lambda\boldsymbol{I_{p+1}})^{-1}\boldsymbol{X}^T\boldsymbol{y} \end{aligned} $$
PAGE TOP