COMPANY

PAGE TOP

BLOG

【連載】RapidMinerで始める簡単データ分析!!~Part1:データ読み込み~

前回の記事では、この連載で学んでいくチュートリアルの概要をお伝えしました。

もう一度、チュートリアルの目標を確認しましょう。
あなたは顧客が離反するか継続するかを、RapidMinerを使って予測したいと考えています。
顧客が離反するか継続するか、どちらのカテゴリに属するかを予測するプロセスは、「分類」と呼ばれます。

顧客を分類するためにはまず、データを読み込むことから始める必要があります。
今回はその方法を学んでいきましょう!

1.RapidMiner Studioを起動します。

2.画面中央上部に表示されている「Design(F8)」をクリックして、デザイン画面を開きます。


皆さんはこれから、このデザイン画面での作業に多くの時間を費やすことになります。
デザイン画面で、オペレータを使用し、データマイニングを実行する処理内容を記述します。
(オペレータ:デザイン画面の左下に表示されている、 「Operators(オペレータ)」の中の各アルゴリズム)

処理を実行した結果は、「Results(F9)」と表示されている結果画面で確認できます。
(こちらは次回、Part2で紹介します)

3.デザイン画面の左上に、「Repository」と表示されている、レポジトリ画面があります。
ここは、分析データ、プロセス、そして結果を保管する場所です。


4.「Local Repository」レポジトリに新規フォルダを作ってみましょう。
 a.「Local Repository」レポジトリを右クリックします。
 b.「Create Folder」を選択します。
 c.新規フォルダに名前を入力し(例えば「Getting Started」)、「OK」をクリックします。
5.4の手順を繰り返し(右クリックで新規フォルダを作成、名前付け)、
 「data」フォルダと「processes」フォルダを追加します。
 すると、レポジトリ画面は次のように表示されるでしょう。


6.データセット「customer-churn-data.xlsx」を、こちらからダウンロードします。

------------------------------------------------------------------------
ここでは、データセット「customer-churn-data.xlsx」をレポジトリへ取り込みます。
1.レポジトリ画面の左上の[Add Data」ボタンをクリックします。

2.「My Computer」ボタンを選択し、「customer-churn-data.xlsx」を保存した場所(フォルダ)を探し、
ファイルを選択し、「Next」をクリックします。

3.レポジトリに取り込むデータを確認します。最初の行は列名を示しています。 
  今回は標準の設定のまま変更せず、「Next」をクリックします。 
4.取り込むデータの型や役割を定義します。属性名は、性別(Gender)、年齢(Age)、
  支払方法(Payment Method)、離反(Churn)、最終購入日(Last Transaction)です。
  「Churn(離反)」は予測する属性ですので、「label(目的変数)」の役割を設定します。
  「Churn(離反)」属性の右にある歯車を選択し、「Change Role」メニューを選択します。


5.「label」を選択し、「OK」をクリックします。そして、「Next」をクリックします。


6.「Getting Started」フォルダの中の「data」フォルダを選択し、「Finish」をクリックします。
   データはレポジトリに保存されます。 

これでデータの取り込みは完了です。

次回Part2では、結果画面について学んでいきましょう。
$$ \begin{aligned} \newcommand\argmin{\mathop{\rm arg~min}\limits} \boldsymbol{\beta}_{\text{ridge}} & = \argmin_{\boldsymbol{\beta} \in \mathcal{R^p}} \biggl[ ||\boldsymbol{y}-\boldsymbol{X\beta}||^2 + \lambda ||\boldsymbol{\beta}||^2 \biggr] \\ & = (\boldsymbol{X}^T\boldsymbol{X} + \lambda\boldsymbol{I_{p+1}})^{-1}\boldsymbol{X}^T\boldsymbol{y} \end{aligned} $$
PAGE TOP