トレーニング、検定、ホールドアウト

トレーニング、検定、ホールドアウトとは

注: この項目について理解するには、アルゴリズムモデル特徴量に関する基礎知識が必要になります。トレーニング: 予測の基盤となるデータセット内のパターンを見つけるには、まずアルゴリズムが過去の例から学習する必要があります。通常は、予測したい出力の変数を含む過去のデータセットから学習します。基本的に、これはモデルを構築するために使用するデータです。検定: アルゴリズムが過去データの 1 つのサブセットに対してトレーニングされたら、「学習する」パターンの関連性を確認する必要があります。学生がどれだけの知識を維持できているかを見るために試験を実施するのと同様に、アルゴリズムを過去データの別のサブセットに適用し、ターゲット変数をどのぐらい正確に予測できるかを確認します。この 2 つ目のセットを検定セットと呼びます。アルゴリズムの精度にランク付けして最も精度の高いものを見つけるために、また、有益なアルゴリズムに関する意思決定のために検定を使用します。ホールドアウト: 「テスト」データと呼ばれることもあるホールドアウトもまた、アルゴリズムの予測能力を判断するために使用され、トレーニングと検定が済んだ後でモデルのパフォーマンスを最終的に推定します。基本的に、元のデータの一部です。トレーニングおよび検定データとは別に保持して、選択したアルゴリズムがそのアルゴリズムの選択において使用されなかったデータに対しても機能することを最終確認します。これは、検定データのみに基づいて複数のモデルを評価するときに行われる場合があります。ホールドアウトは、使用するアルゴリズムに関する意思決定や、アルゴリズムのチューニングまたは改善には使用すべきではありません。基本的に: 過去データ(トレーニングセット)の大半が、アルゴリズムの学習を支援するために使用されます。その後、どのアルゴリズムが最適か、さらに作業を行う必要があるかどうかを判断するために検定セットが使用されます。ホールドアウトデータは最後の砦です。選択されたモデルが、その予測が実際の応用に合致していると判断される前に通過しなければならない最終前線です。モデルをトレーニングして検定するたびに、各セットに対して使用するデータの割合を選択します。このプロセスを分割と呼びます。例を紹介します。データセットに対して次のパーティションを使用するとします。トレーニングセットがデータの 64%、検定が 16%、ホールアウトが 20% です。灰色のトレーニングセクションでアルゴリズムをトレーニングし、トレーニング後のパターンを青色の検定セクションで評価します。次に、オレンジ色のホールドアウトセクションでテストします。 TVH 1

トレーニング、検定、ホールドアウトが重要である理由

データをトレーニング、検定、およびホールドアウトセットへと分割することにより、可能な限り最も精度が高いだけでなく、開発の基になったデータに加えて将来収集するデータとも関連性のあるモデルを開発できます。データをトレーニング、検定し、ホールドアウトセットでテストすることにより、特定のモデルで行う予測の精度がどのぐらいになるかを知ることができ、意思決定およびモデルの信頼性の向上につながります。

トレーニング、検定、ホールドアウト + DataRobot

機械学習データサイエンス全般に詳しくない場合は特に、データを分割、トレーニング、検定、テストするための最善の方法を判断することが難しくなります。DataRobot は、最も精度の高い予測モデルを開発するようにデータセットを自動的に分割、トレーニング、テストしますが、プロジェクトで使用する割合がすでにわかっている場合は、手動での調整も可能です。各モデルに対し、DataRobot のリーダーボードに、検定、交差検定、ホールドアウトの精度スコアが最適化指標(データセットのアップロード後にアプリケーションのホーム画面に表示されるとおり、デフォルトでは LogLoss に設定されています)に基づいて表示されます。 LogLoss これにより、どのモデルが最も精度が高いかを判断し、可能な限り最適なビジネス決定を下すことができます。DataRobot のデフォルトの検定およびテスト手法は、実際には、受賞歴のある弊社データサイエンティストが見つけ出した、20% のホールドアウトを含む 5 分割交差検定です。最も広範な状況にわたって精度の高いモデルを構築できます。 tvh 3 ただし、DataRobot の分割選択が状況に適さない場合は、必要な方法でデータを分割できます。DataRobot は、トップクラスのデータサイエンティストの専門知識と、目的に応じてプロジェクトを厳密に実行できる柔軟性の両方を備えています。こうしたガードレールが設けられている点が安心ではありませんか。