教師なし機械学習

教師なし機械学習とは

教師なし学習は機械学習の一種で、既知つまりラベル付きの結果を参照せずにデータセット内のパターンを推察します。教師あり学習とは対照的で、データポイントには真理値つまり「正しい答え」が関連付けられていません。そのため、教師なし学習手法を回帰または分類問題に直接適用することはできません。出力データの値がどのようなものになるかわからないため、通常の方法でアルゴリズムをトレーニングできません。しかし、データの基盤となる構造を見つける場合には効果的に使用できます。

教師なし機械学習が重要である理由

教師なし学習は、データ内の未知のパターンを見つけ出すことを目的としていますが、ほとんどの場合、これらのパターンは教師あり機械学習が達成できる結果の近似値ではありますが質は低くなります。たとえば、顧客を個別に扱い、大幅にカスタマイズしたコミュニケーションを提供するのではなく、大規模なグループに分類します。予測モデルの結果がどのようなものになるか、またはどのようなものになるべきかがわからないというのが教師なし学習の定義なので、実際のコンテキストには教師あり機械学習が適しています。教師なし機械学習の使用が最適なのは、これまで販売したことのないまったくの新製品のターゲット市場を決めるなど、望ましい結果に関するデータがない場合です。ただし、単に既存の消費者ベースについての理解を深めようとする場合であれば、教師あり学習が適しています。教師なし機械学習手法の応用をいくつか紹介します。

  1. クラスタリングでは、類似性に基づいてデータセットを自動的にグループに分割できます。ただし、多くの場合、クラスタ分析では、グループ間の類似性が過大評価され、データポイントが個別に扱われません。このため、クラスタ分析は、顧客のセグメント化やターゲット化といった応用には適していません。
  2. 異常検知は、データセット内の異常なデータポイントを自動的に検出できます。これは、詐欺取引の特定、ハードウェアの故障部品検出、またはデータ入力中の人的エラーによる異常値の識別に役立ちます。
  3. アソシエーションマイニングは、データセット内で頻繁に同時発生するアイテムセットを識別します。小売業者がバスケット分析によく使用します。アナリストは、同時に購入されることが多い商品を見つけ出し、それに従って、より効果的なマーケティング戦略やマーチャンダイジング戦略を開発できます。
  4. 潜在的変数モデルは、データセット内の特徴量の数を減らす(次元削減)、データセットを複数のコンポーネントに分解するなど、データ処理で一般的に使用されます。

教師なし手法によって見つけ出されるパターンは、後で教師あり学習を実装する場合にも役立つことがあります。たとえば、教師なし手法を使用してデータのクラスタ分析を実行し、各行が属するクラスタを教師あり学習モデルで追加の特徴量として使用することができます(詳細については、「半教師あり機械学習」を参照してください)。もう 1 つの例として、詐欺検知モデルでは異常検知スコアを追加生成された特徴量として教師あり学習アルゴリズムに投入します。

教師なし機械学習 + DataRobot

DataRobot の自動機械学習プラットフォームは「ターゲット」列を必要とします。つまり、データ内のパターンを見つけ出すには出力の変数を知っている必要があります。ただし、そのモデルの多くでは、教師なし学習を利用します。弊社の熟練データサイエンティストが複雑な特徴量エンジニアリング技法を自動化するブループリントを組み込みました。自動化がなければ、特徴量エンジニアリングの実装は極めて困難で長い時間を要します。