RapidMiner
【連載】RapidMinerで始める簡単データ分析!!~Part2:データ可視化~
前回の記事では、分析練習用として顧客離反データを読み込む方法を学びました。 今回は読み込んだデータをRapidMinerで可視化し、 データを俯瞰的に眺め知見を得る方法を学んでいきましょう! RapidMinerを用いてデータと、統計や図表など各種情報を確認しましょう。
下の図に示す「結果」画面の、5つの機能を順番に確認していきましょう。 1.結果画面 2.データフィルタ 3.データ一覧 4.統計情報 5.グラフ
1.結果画面 結果画面では、レポジトリへ前回保存した顧客離反データを確認することができます。 ※結果画面にデータが表示されていない場合は、 以前の記事に従ってデータの読込をお願い致します。 結果画面の上部を確認すると、次のことがわかります。 ・データセットには、996行(example)のデータがあります。 ・データセットには、1つの目的変数(label)と4つの説明変数(regular attributes)が含まれます。
2.データフィルタ データフィルタを使えば、一覧に表示するデータをフィルタリングすることが可能です。 2-1.下記のように「missing_labels」を選択すると、目的変数(label)の値が「?」表示のレコードのみに絞られます。 今回の場合は、996行のデータのうち96行のみになります。2-2.他の種類のフィルタも試してみましょう。
3.データ一覧 データ一覧では、取り込まれたデータを確認できます。 また、データーフィルタでフィルタリングされた結果も反映されます。
4.統計情報 次に、「Statistics」をクリックします。 統計情報では、属性(変数)の型、各属性の欠損値の数、 基本統計量(最小値、最大値、最頻値、平均値、標準偏差など)を確認することが出来ます。![]()
4-1.「Payment Method(支払方法)」をクリックし、展開してグラフを表示します。 4-2.「Open chart」をクリックします。
4-3.グラフ画面へ遷移します。「Statistics」をクリックすると、統計情報の画面へ戻ります。 4-4.「Payment Method(支払方法)」を再度クリックすると元に戻ります。 5.グラフ 4で確認したように、統計情報の「Open chart」をクリックすると、 グラフ画面へ遷移します。「Statistics」下の「Charts」をクリックしても遷移できます。 5-1.グラフの種類を選択します。
5-2.表示されているグラフ名をクリックすると(ここでは「Scatter」)、 利用できるグラフがすべて表示されます。 新しいグラフでデータを可視化してみましょう。 データを可視化する方法は多くあります。 RapidMinerのグラフ機能を使って、時間をかけてデータについて学びましょう。 そして準備が整えば、次のステップPart3へ進み、モデルの作成方法について学びましょう。