フィッティング

フィッティングとは

注: 機械学習について詳しくない方は、このトピックについて学習する前にトレーニング、検定、ホールドアウトの項目をお読みください。「フィッティング」と言っても、仕立屋に行く訳ではありません。データサイエンスでは、フィッティングはデータに基づいて機械学習モデルをトレーニングするプロセス中に行われます。それにより、新たな類似データにモデルを適用して、予測分析を実行できるようになります。データに適切にフィッティングされたモデルは、より正確な予測を導き出します(ただし、負の側面もあります。オーバーフィットとアンダーフィットを参照してください)。それぞれの機械学習アルゴリズムには、基本的なパラメーターのセットが用意されており、これを調整して精度を向上できます。フィッティングでは、結果を知っているデータをアルゴリズムに送り、予測モデルを生成します。次に、予測しようとしているターゲット変数の実際に観察された値に対し、予測された値を比較して、予測の精度を確認します。次に、この情報を使用してアルゴリズムの標準パラメーターを調整してエラー率を削減し、解決しようとしている実際のビジネス上の問題に対する精度を高めます。次に、将来的に分析するすべてのデータに適用できる実用的で有効な予測を生成できる最適なパラメーターが見つかるまで、同じ手順を繰り返します。可能性は無限にあります。

フィッティングが重要である理由

フィッティングは機械学習の本質です。モデルがデータに正しくフィッティングしていない場合、このモデルから生成される予測は精度が低く、実用的ではありません(ただし、オーバーフィットの危険性も忘れないでください)。適切にフィッティングされたモデルには、既知の変数とターゲット変数の間の複雑な関係性をとらえるハイパーパラメーターがあり、関連性のあるインサイトを発見して正確な予測を行うことを可能にします。フィッティングによって、人間が介入することなく、データのみに基づいて予測モデルをトレーニングすることができます。最終的に、モデルの個別パラメーターは実際のビジネス上の問題を解決できるように最適化され、汎用的な予測を適用するよりも精度が格段に高くなります。

フィッティング + DataRobot

DataRobot は、データを使用して一度に数十種類のモデルを自動的にフィッティングするため、作業時間が通常より大幅に削減されます。また、フィッティング自体は完全に自動的なプロセスですが、ハイパーパラメーターの調整など、モデルの精度を高めるためのより複雑なデータサイエンス手法には、一般にかなりの時間とデータサイエンスの経験が必要となります。DataRobot はこの作業を自動化するため、あらゆるモデルを最低限の労力でフィッティングすることができます。