交差検定

交差検定とは

注: この項目をお読みになる前に、「トレーニング、検定、ホールドアウト」をご覧ください。交差検定は、サンプルの偏りを最小限に抑えて、機械学習モデルのパフォーマンスを示すサンプル外基準の安定性を向上させるために、トレーニング/検定のフレームワークを拡張したものです。 交差検定でもホールドアウトセットを指定しますが、データの異なる部分を検定パーティションとして使用します。以下の例では、ホールドアウトデータを取り出して、残りを 5 分 の 1 ずつに分割しました。これで、複数の検定セットに使用できる、重なりのない 5 つのサブセットができました。ホールドアウト以外のデータを n 個のバケットに分割すると、n 分割の交差検定になります。ここではホールドアウト以外のデータが 5 つのバケットに分割されているため、これを「5 分割交差検定」といいます。TVH

次に、モデルの 5 回のイテレーションを設定し、セットのグレーの部分でトレーニングしてブルーの各部分でテストします。その後、検定パーティションごとにモデルの平均パフォーマンスを算出し、モデルのサンプル外パフォーマンスの最適な尺度としてその平均を使用します。

交差検定が重要である理由

元の検定パーティションが母集団全体を代表していない場合、優れたモデルでも検定セットが偏っているために不適合になることがあるため、モデルの有効性の判別が困難になります。交差検定では、予測モデルが適合するかどうかを複数の検定セットで二重にチェックして、予測モデルの結果と思われるものが実際の結果であることを確認できます。

交差検定 + DataRobot

DataRobot では、デフォルトで、検定または交差検定によってすべてのモデルがサンプル外データで自動的に評価されます。上の例と同様、データの 20% がホールドアウトされ、5 分割交差検定が実行されます。パーティションの数と検定のフレームワークは必要に応じて変更できます。また、トレーニング、検定、ホールドアウト(TVH)または交差検定を使用する代わりに、1 つの期間のデータでモデルをトレーニングし、その後の期間のデータでモデルを検定する時間外分割、またはグループ分割を指定することもできます。制御レベルを最大限に高めるため、分割特徴量によってデータセットの各レコードに割り当てるパーティションを厳密に指定することもできます。