ラーニング /  Wiki / 交差検定

交差検定

交差検定とは

交差検定は、トレーニング/検定/ホールドアウト(TVH)プロセスを拡張したもので、機械学習モデルのサンプリングの偏りを最小限に抑えます。通常の TVH プロセスのためのデータのパーティショニングは次のようになります。

TVH 1

交差検定の場合にもホールドアウトデータはありますが、上記の例のとおり、5 分の 1 をホールドアウト、5 分の 1 を検定、残りをトレーニングに使用するのではなく、データの異なる部分を検定に使用します。ここではホールドアウト以外のデータが 5 つのバケットに分割されているため、これを「5 分割交差検定」といいます。4 つのバケットがある場合は、4 分割交差検定といいます。

TVH

次に、モデルの 5 回のイテレーション(5 行で表されています)を設定し、セットのグレーの部分でトレーニングしてブルーの部分でテストします。その後、検定パーティションごとにモデルの平均パフォーマンスを算出し、それを使用してモデルのパフォーマンスを測定します。

交差検定が重要である理由

元の検定パーティションが母集団全体を代表していない場合、結果として生成されるモデルは精度が高いように見えることがありますが、実際には異常な検定セットにたまたま適合したにすぎず、将来のデータに適用すると実際には精度が低いモデルを実装することになります。交差検定では、複数の異なるデータのサブセットに対するモデルの精度をダブルチェックし、そのモデルが将来的に収集するデータに適切に一般化することを確認します。

交差検定 + DataRobot

DataRobot では自動的に 5 分割交差検定が使用されますが、データを手動で分割することもできます。

DR-crossvalidation

また、トレーニング、検定、ホールドアウト(TVH)または交差検定を使用する代わりに、1 つの期間のデータでモデルをトレーニングし、その後の期間のデータでモデルを検定するグループ分割または時間外分割を指定することもできます。制御レベルを最大限に高めるため、データセットの各レコードに割り当てるパーティションを指定することができます。