G検定の用語整理にも!機械学習の代表的手法

machine-learning データサイエンス

線形回帰、決定木、ロジスティック回帰、SVM等、機械学習アルゴリズムの種類は様々ありますが、
どういった場合にどのアルゴリズムを選べばいいか、まとめました。

機械学習の種類は大別すると以下の通り、3種類に分けられます。

  • 教師あり学習
  • 教師なし学習
  • 強化学習

どの学習に該当するかは以下を参考にしてください。

Q. データの中に、正解となるデータが入っているか。
正解データ例:売上を予測したい場合の過去の売上データ
       ある動物の画像が何の動物の画像か識別したい場合の正解となるデータ

A. 入っている = 教師あり学習

A. 入っていない = 教師なし学習

A. 入っていない + 自分で学習を強化していく = 強化学習
  例:囲碁において、良いスコアを取れるようにどんどん学習していく

教師あり学習

教師あり学習とは、
正解が与えられた状態で、各データがどのように出力がされるのか識別・予測する学習です。

教師あり学習は更に2種類の問題に分類できます。

Q. 正解となるデータは数値か、カテゴリ値(性別、血液型、順位等分類できるデータ)か
  ※正解データが0or1の場合は、2択で分類できるため、カテゴリ値の扱いとなります。

A. 数値 = 回帰問題

A. カテゴリ値 = 分類問題

回帰問題

例えば、売上を予測したい場合、正解データとなる売上は数値となるので回帰問題に属します。
ここでは、回帰問題の代表的な手法な手法である「線形回帰」を紹介します。

線形回帰

線形回帰は、雨がふれば桶屋の売上が上がるといった、相関関係を学習・予測します。
この場合、桶屋の売上は目的変数、雨といった天候は説明変数と呼ばれます。
上記の例のように桶屋の売上という目的変数に対して、
天候という説明変数が一つの場合を単回帰分析
天候に加えて曜日や時間といった複数の説明変数で学習・予測したい場合は重回帰分析といいます。

分類問題

例えば、何の動物の画像か識別したい場合、正解となるデータは猫、犬、ウサギ等分類できる
カテゴリ値となるので、分類問題に属します。
以下にて分類問題の代表的な手法を紹介します。

ロジスティック回帰

ロジスティック回帰は、
線形回帰のような相関関係の学習・予測を分類問題に使えるようにした手法です。
動物の画像を例にした場合、目的変数を正解である動物、画像の色・動物の形等の特徴を説明変数として、学習・予測します。

決定木

決定木は、
動物の画像を識別したい場合、その画像に写っているのは動物か→鳴き声は「にゃーにゃー」であるか→色は茶色か、といった分類を繰り返すことで識別・予測します。
この分類結果についてはもちろん100%正確に分類できるわけではなく、実際には間違って分類される場合もありますので、正解データと照らし合わせて評価していきます。

サポートベクターマシン(SVM)

サポートベクターマシンとは、
各データ点との距離が最大となるような境界線を求めることで、パターン分類を行うものです。
分類問題でよく使われますが、回帰問題にも使用が可能となっております。
注意点として、線形分離可能(一つの境界線で二つに分けられる)データにしか使えないという点が挙げられます。
例えば、ある動物の画像が猫か犬か識別したい場合、鳴き声と身体の色という特徴で判断するとします。データを鳴き声と身体の色の軸でプロットしていき、2つのグループに分け、学習・予測します。
グループ分けをするという点では教師なし学習の手法であるクラスタリングと似ていますが、こちらは予め正解がわかっているデータという点で異なります。

ニューラルネットワーク

ニューラルネットワークは、人間の脳内にある神経細胞の仕組みを模した手法です。
入力を受け取る入力層、出力を行う出力層、入力層と出力層の間にある中間層の3層構造で、結果を識別・予測します。入力から抽出した特徴量を中間層で変換し、識別した結果を出力として返します。

教師なし学習

教師なし学習とは、データそのものの構造・特徴を着目する学習です。

教師なし学習についても2つの方法に分類されます。

Q. どのように学習するか

A. データの類似性を元にグループ化 = クラスタリング

A. データの次元数を減らしてデータの特徴を見える化 = 次元削減

クラスタリング

クラスタリングは、
データの類似性からグループ構造を見つけ出し、それぞれをグループ化する方法です。
代表的な手法としては「k-means法」があります。

k-means法

k-means法は、
元のデータからk個のグループ構造を見つけ出し、それぞれをまとめる手法となります。
グループ分けの手順としては以下の通りとなります。

  1. 適当にk個のグループに分ける
  2. 各グループの中心点を求める
  3. 各データとそれぞれのグループの中心点との距離を求める
  4. 各データをそれぞれのグループの中心点との距離が最も近いグループの振り分ける
  5. 中心点が変化しなくなるまで2〜4を繰り返す

次元削減

次元削減は、相関を持った多数の特徴量から、相関のない少数の特徴量へ変換することをいいます。
代表的な手法として「主成分分析」があります。

主成分分析

主成分分析は、多数の特徴量を、データの持つ情報をできる限り損なわず相関のない少数の特徴量へ変換し、データの構造をつかむ手法です。この少数の特徴量を主成分といいます。

強化学習

強化学習は、自らの行動を学習する仕組みで、目的とする報酬を最大化するための行動を学習します。
囲碁の例でいうと、自らの手(行動)をいくつも考えて対戦相手に勝てるように学習していきます。

強化学習にはQ学習、モンテカルロ木探索、ディープラーニングとQ学習を組み合わせたDQN(Deep Q-Network)等があります。

まとめ

機械学習には、教師あり学習、教師なし学習、強化学習の3種類があることを説明しました。
教師あり学習は予め正解が与えれた状態で識別・学習していく方法です。

数値を予測する回帰問題とカテゴリ値を予測する分類問題にわけることができ、
回帰問題は線形回帰、分類問題はロジスティック回帰、決定木、サポートベクターマシン、ニューラルネットワークなどの手法がありました。

教師なし学習は正解が与えれていない状態で識別・学習していく方法です。
クラスタリングと次元削減に分けることができ、クラスタリングはk-means法、次元削減は主成分分析といった手法がありました。

強化学習は自らの報酬を最大化するように学習していく方法です。Q学習、モンテカルロ木探索、DQNといった手法がありました。

これらの手法から目的に適した手法を選ぶことで、よりよい予測精度を求めることができます。

コメント

タイトルとURLをコピーしました