特徴量の選択

特徴量の選択とは

データサイエンス人工知能(AI)のイニシアチブを開始するために予測モデルを構築しようとしているとき、データは多ければ多いほどよいでしょうか。いいえ、必ずしもそうではありません。ターゲット変数(予測したい変数)にわずかでも関連する可能性がある、思いつく限りのデータを収集したくなりますが、実際にはそれがモデルに役立つ以上に害になることがあります。そこで登場するのが、特徴量の選択です。データセットに特徴量を追加すると、機械学習モデルの予測精度が向上することがあります。モデルが単純すぎて既存のデータに正しくフィッティングしない場合は特にそうです。ただし、すべての特徴量が同等に作成されるわけではなく、ターゲット変数の予測に一切役立たないものもあります。データを過剰に収集してまったく無益な列を生成してしまうことはありがちです。たとえば航空便の遅延を予測しようとしている場合、今日の気温は重要かもしれませんが、3 カ月前の気温は重要ではありません。特徴量の選択では、予測精度を損なうことなく、無関係な列または冗長な列をデータセットから排除できます。次元縮退と異なり、新しい特徴量を作成したり既存の特徴量を変換したりするのではなく、予測分析に価値をまったく付加しない特徴量を取り除きます。

特徴量の選択が重要である理由

特徴量の適切な選択とは、次のようなものです。

  1. オーバーフィットの可能性を低減して、将来のデータにより適したモデルにします。
  2. 予測データ分析の読み取り、前処理、実行に必要な演算の数を減らす(つまりモデルをより高速で実行できるようにする)ことで、モデルを構築して使用するために必要な本稼動システムでの CPU、I/O、RAM の負荷を低減します。
  3. モデルの予測の原動力となる、情報に富んだ少数の要素のみを使用して、解釈可能性を向上させます。

特徴量の選択 + DataRobot

DataRobot の自動機械学習プラットフォームでは、モデリングワークフローの中で、特徴量の選択のために以下のような複数のアプローチが併用されます。

  1. モデルに依存しない特徴量の重要度:DataRobot では、いずれかのアルゴリズムが実行される前に、ターゲット変数に対する各特徴量の単変量での重要度が特定されます。
  2. モデル固有の特徴量のインパクト分析:DataRobot では、生成されるモデルごとに、各特徴量の影響の大きさを示す定量的なランキングが生成されます。
  3. 特徴量の自動選択:DataRobot には、適切な特徴量を自動的に選択するエキスパートレベルの「モデルブループリント」が用意されています。必要に応じて、エンドユーザーによる手動チューニングもサポートされます。
  4. 複数の特徴量リストのサポート: データセット内の特徴量のさまざまなサブセットに対して DataRobot を実行すると、特徴量リストがどれほど異なるかがわかります。