アンダーフィット

アンダーフィットとは

オーバーフィットに対応する用語であるアンダーフィットは、機械学習モデルがデータセットの​特徴量ターゲット変数の関係を正確に把握できるほど十分に複雑でない場合に発生します。アンダーフィット状態のモデルは、新しいデータまたは​ トレー二ング済み でないデータで問題のある結果や誤った結果を引き起こします。また、多くの場合、トレーニングデータですらパフォーマンスが劣ります。

以下は、アンダーフィットを図で表したものです。

フィッティング

シンプルな直線は、トレーニングデータをきれいに表していますが、変数 x と y の根本的な関係を表す曲線を十分に描いていません。Tしたがって、新しいデータに適用したとき、特に新しいデータの x 値がトレーニングデータの x 値よりもはるかに大きいまたは小さい場合にモデルの結果は​精度が低くなります。

アンダーフィットが重要である理由

アンダーフィット状態のモデルをビジネス上の意思決定に使用すると、コストがかさむ可能性があります。たとえば、アンダーフィット状態のモデルは、マーケティングの費用を増やすことで常に販売成績を向上させることができると提案する場合がありますが、実際にはモデルは飽和効果を把握できていません。つまり、マーケティングの費用をいくらかけても、販売はある時点で平坦化します。ビジネスがそのモデルに依存してマーケティング予算を判断した場合、マーケティングに費用をかけすぎです。

DataRobot + アンダーフィット

アンダーフィットを回避するための最も効果的な方法の 1 つは、モデルが十分に複雑であるようにすることです。これは、特徴量を追加する、またはデータの前処理ステップを変更することで実現できます。The DataRobot の機械学習の自動化プラットフォームは、自動的に高度な特徴量エンジニアリングを実行し、データの前処理に関するベストプラクティスを実装し、データセットとターゲット特徴量に最も適した複雑な機械学習モデルを多数作成します。DataRobot はトップレベルのデータサイエンティストの専門知識を組み込むことにより、モデルが適切にフィッティングされていることを確認するプロセスを自動化します。これにより、ユーザーはモデルの実際の精度を疑うことなく、関連性が最も高いモデルを選ぶことに集中できます。