特徴量の選択

機械学習での特徴量の選択とは

データセットに特徴量を追加すると、機械学習モデルの精度が向上することがあります。モデルが単純すぎて既存のデータに正しくフィッティングしない場合には特に当てはまります。ただし、解決しようとしている課題に関連する特徴量に重点を置き、無益な特徴量は避けることが重要です。たとえば航空便の遅延を予測しようとしている場合、今日の気温は重要かもしれませんが、3 カ月前の気温は重要ではありません。適切な特徴量の選択では、精度を損なうことなく、無関係な列または冗長な列をデータセットから排除できます。次元縮退と異なり、特徴量の選択では、新しい特徴量を作成したり既存の特徴量を変換したりするのではなく、分析に価値を付加しない特徴量を取り除きます。

特徴量の選択が重要である理由

機械学習での特徴量の選択には次のようなメリットがあります。

  1. オーバーフィットの可能性を低減。
  2. データの読み取り、前処理、データサイエンスの実行に必要な演算の数を減らしてアルゴリズムの速度を向上させることで、モデルの構築と使用に必要な本稼動システムでの CPU、I/O、RAM の負荷を低減。
  3. モデルの結果の原動力となる、最も情報に富んだ要素を明らかにして、解釈可能性を向上させます。

特徴量の選択 + DataRobot

DataRobot の自動機械学習プラットフォームでは、モデリングワークフローの中で、特徴量の選択のために以下のような複数のアプローチが併用されます。

  1. モデルに依存しない特徴量の重要度。DataRobot では、いずれかのアルゴリズムが実行される前に、ターゲット変数に対する各特徴量の単変量での重要度が特定されます。
  2. モデル固有の特徴量のインパクト分析。DataRobot では、生成されるモデルごとに、各特徴量の影響の大きさを示す定量的なランキングが生成されます。
  3. 特徴量の自動選択。DataRobot には、適切な特徴量を自動的に選択するエキスパートレベルのモデルブループリントが用意されています。手動のチューニングもサポートされます。
  4. 複数の特徴量リストのサポート。特徴量のさまざまなサブセットに対して DataRobot を実行すると、特徴量リストがどれほど異なるかがわかります。