オーバーフィット

オーバーフィットとは

オーバーフィットは、機械学習モデルが、トレーニングしているデータに対して過剰に適合した結果、他のデータセットへの適応性が失われた場合に発生します。つまり、元のデータに特化しすぎているので、将来的に収集したデータに適用しようとしても、問題のある予測や誤った予測が生成されてしまいます。グラフで表現すると、モデルがいつオーバーフィット状態になるのかが簡単にわかります。 オーバーフィット

出典: Quora

このモデルは、まったく同じデータセットに適用しない限り、役に立ちません。曲がりくねった線にぴったりと沿うデータなどないためです。

オーバーフィットが重要である理由

オーバーフィットにより、モデルが学習したデータを正しく表現できなくなります。オーバーフィット状態のモデルは、より一般的にフィッティングされたモデルと比べ、新たな類似データでは予測の精度が低くなる可能性がありますが、その反面、トレーニングデータに適用した場合は精度がより高くなります。オーバーフィットへの対策を講じなくても、モデルをトレーニングしてデプロイし、精度が高いと考えることはできますが、本番で新しいデータを与えられた場合のパフォーマンスは低くなります。ここから発生する問題は想像に難くありません。債務不履行の可能性を 95% の精度で予測できると考えているモデルが、実際にはオーバーフィット状態で、精度が 60% 程度である場合、将来的な融資の裁定にこれを適用すると、本来は利益があったはずのビジネスで多額の損失が発生してしまいます。これはビジネス上の本物の価値をトイレに捨てるような行為であり、顧客の不満が膨れ上がることは言うまでもありません。

オーバーフィット + DataRobot

DataRobot の自動機械学習プラットフォームは、機械学習のライフサイクルの各段階にオーバーフィット対策を講じているため、ユーザーが懸念する必要はありません。DataRobot では、トレーニング-検定-ホールドアウト(TVH)、データの分割、モデルの精度を評価する n 分割交差検定などの標準的なオーバーフィット対策を採用しています。また、DataRobot には、積み上げ予測によるトレーニングデータからのサンプル内でのモデル予測のようなオーバーフィット対策も含まれています。非常に技術的に聞こえますが、本質的に言うと、トップレベルのデータサイエンティストの専門知識を組み込むことにより、モデルが適切にフィッティングされていることを確認するプロセスを自動化しました。これにより、モデルの実際の精度を疑うことなく、自社のビジネス上の問題に対する関連性が最も高いモデルを選ぶことに集中できます。