COMPANY

PAGE TOP

BLOG

RapidMiner初心者のための4種類の用語解説

みなさんこんにちは、
株式会社KSKアナリティクスの網野です!

今日は、RapidMinerを使い始めたばかりの人向けに、
RapidMinerの基本用語の解説をしていきたいと思います。

ではさっそく!

RapidMinerで使用する用語について

当社のサイト含め、色々なサイトでRapidMinerの操作について
説明がありますが、そもそも基本がわかってないと、
何をすればよいのかわかりづらいですよね。

今日は本当の基本の基本の部分‥をご説明しようと思います。
もしそんなの知っているよ!という方がいればどんどん
読み飛ばしていただいて構いません!

1.オペレータについて


これが、オペレータです。

データをどのように扱うかという操作を行う箱のことです。

RapidMinerの画面の左下にあります。
CSVを読み込む、列を選択する、などの
一般的なデータの扱い等のオペレータから、
K近傍法や決定木などの
アルゴリズムのオペレータまで
様々なものが一覧の中に含まれています。

このオペレータを複数つなげていくことで、
RapidMinerでは分析を進めていきます。

データを読み込むときのオペレータには、
Read CSV」や、「Read Excel」などはよく使いますね!

また、アルゴリズムのオペレータといえば、
決定木をするときの「Decision Tree」や、
k近傍法を行うための「k-nn」があります。

どんな時にどのオペレータを使うのかが、
データ分析者の腕の見せ所!
ぜひ色々検索してみてください。

2.ポートについて

オペレータにくっついている半円のことを「ポート」と呼びます。
情報が出入りする場所です。

ひとつのオペレータに対し、
複数のポートがついている時もあり、
使用するポートにより次のオペレータへ流すデータも変わります。

それぞれのポートに書いてあるアルファベット3文字は、
単語の頭文字3つをとって表現しています。

例えば‥

  • out (out)
    そのオペレータに入ってきたデータをそのまま出力します。
  • exa(example)
    オペレータで処理したデータセットを出力します。
  • mod(model)
    オペレータで処理したモデルを出力します。
  • tra(training)
    モデル作成用の訓練データを出力します。
  • per(performance)
    モデルの精度を出力します。
    こんな感じで出てきます!
  • ori (original)
    加工前のオリジナルデータのことです。
    そのオペレータに入ってくる直前のオリジナルデータを出力します。
  • res(result)
    これだけは、オペレータにくっついているものではなく、
    画面の右端の最後につなげるものです。
    それぞれのオペレータをつないだ、出力結果を出力します。

    色々な繋ぎ方をして、複数のresにつないで、一度に実行しても、
    複数の結果が出るので大丈夫です!

3.exampleとattributeとは

RapidMinerでは、
行のことを 「example」
列のことを 「attribute」 と呼びます。

attributeは、
属性や、変数などといった意味合いでも使われるので、
イメージしやすいかもしれません。

「Filter examples」(行を抽出する)、
「Sellect Attributes」(列を選択する=変数を選択する)、
「Generate Attribute」(列を増やす)
といったオペレータもよく使うので、覚えておくと便利です!

4.RapidMinerの中のデータの型

データにもいろいろな種類がありますね、
文字列だったり数値だったり‥
RapidMinerでは、英語表記で
色々なデータの型を表現しています。

まずは、nominal(テキストや文字列)の仲間から
紹介していきます。

  • polynominal(複数の文字列の値)
    red,blue,yellowなど、複数の値を持つ文字列を表します。
  • binominal(二値)
    true⇔false、yes⇔noなどの2つの値を持つ、文字列です。

次に numeric(数値)についてです。

  • integer(整数)
    23、-5、1024、768など‥
  • real(実数)1.23、0.00001など‥
  • date_time(時間を含む日付)
    23/12/2014 17:59など
  • date(日付のみ) 23/12/2014など
  • time(時間のみ) 17:59など

RapidMinerにデータを流す時には、
数値には色々なデータの型があることを知っておくのが、非常に重要です。

これは、RapidMinerにもともと入っている
「Titanic」というサンプルデータを
流してみたときのデータです。

性別を表す「Sex」は、
2つの文字列なのでbinominal(二値)

年齢を表す「Age」は
real(実数)になっていますね。

まずは、自分の扱うデータを知るためにも、
必ずデータを流したらデータの型を確認してみましょう。

例えば、これを確認しないとどうなるか‥
住所のデータを読み込んだとしましょう。

郵便番号を表す値の「550002」という値は、
もちろん、住所を表す文字列ですが、
RapidMinerはそんなことわからないので、
「55万2」という、謎の数値の扱いにしてしまい、
結果の認識が異なってしまいます。

機械学習というと難しく聞こえますが、
まずは「データの型」や「データの種類」を意識して、
自分の分析対象のデータに、
どのような特徴があるのかを掴んでみましょう!

私も初めてRapidMinerを触ったときに
データの型を見るのがすごく楽しいなと思いました。

いろんなデータセットがRapidMinerのなかにあるので、
ぜひ色んなデータを見て、特徴をつかんでみてください。

\/\/\/\/\/\/\/\/\/\/

▼1日で機械学習の基礎が学べる!無償ハンズオンセミナー随時開催中▼
https://www.ksk-anl.com/event/

▼RapidMinerをもっと知りたい方はこちら▼
https://www.rapidminer.jp/

▼早速使ってみたい!RapidMinerの体験版の無償DL▼
https://www.rapidminer.jp/download/

▼導入を検討中!わかりやすい詳細なQ&A▼
https://www.rapidminer.jp/faq/

\/\/\/\/\/\/\/\/\/\/

※このブログでは、RapidMinerのver.9.3を使用しています。

$$ \begin{aligned} \newcommand\argmin{\mathop{\rm arg~min}\limits} \boldsymbol{\beta}_{\text{ridge}} & = \argmin_{\boldsymbol{\beta} \in \mathcal{R^p}} \biggl[ ||\boldsymbol{y}-\boldsymbol{X\beta}||^2 + \lambda ||\boldsymbol{\beta}||^2 \biggr] \\ & = (\boldsymbol{X}^T\boldsymbol{X} + \lambda\boldsymbol{I_{p+1}})^{-1}\boldsymbol{X}^T\boldsymbol{y} \end{aligned} $$
PAGE TOP