トレーニングセット、検定セット、ホールドアウトセット

トレーニング、検定、ホールドアウトとは

データのパーティショニング

機械学習モデルを開発するにあたっての最初のステップは、トレーニングと検定です。モデルをトレーニングして検定するには、まずデータセットを分割する必要があります。この分割では、トレーニング、検定、およびホールドアウトセットに使用するデータの割合を選択します。以下の例は、64% のトレーニングデータ、16% の検定データ、20% のホールドアウトデータを含むデータセットを示しています。

機械学習でのトレーニングセット、検定セット、ホールドアウトセット

トレーニングセットとは

A training set is the subsection of a dataset from which the machine learning algorithm uncovers, or "learns," relationships between the features and the target variable. In supervised machine learning, training data is labeled with known outcomes.

検定セットとは

A validation set is another subset of the input data to which we apply the machine learning algorithm to see how accurately it identifies relationships between the known outcomes for the target variable and the dataset’s other features.

ホールドアウトセットとは

Sometimes referred to as “testing” data, a holdout subset provides a final estimate of the machine learning model’s performance after it has been trained and validated. Holdout sets should never be used to make decisions about which algorithms to use or for improving or tuning algorithms.

Why are Training, Validation, and Holdout Sets Important?

データをトレーニング、検定、およびホールドアウトセットへと分割することにより、精度が高く、モデルのトレーニングの基になったデータだけでなく、将来収集するデータと関連性のあるモデルを開発できます。データをトレーニング、検定し、ホールドアウトセットでテストすることにより、モデルの結果の精度がどのぐらいになるかを知ることができ、意思決定およびモデル精度の信頼性の向上につながります。

トレーニングセット、検定セット、ホールドアウトセット + DataRobot

Determining the best way to partition, train, validate, and test data can be difficult, especially to those new to automated machine learning and data science in general. The DataRobot platform automatically partitions, trains, and tests data in order to develop the most accurate machine learning models, and it also allows for manual adjustments if users already know the percentages they want to use.

For each model, the DataRobot Leaderboard displays the validation, cross-validation, and holdout accuracy scores based on an optimization metric (which defaults to LogLoss, as you can see on the application’s home screen after you upload your dataset).

予測モデリングの開始

This helps users determine which model is the most accurate, allowing you to make the best business decisions possible.

DataRobot’s default method for validation and testing is five-fold cross-validation with 20% holdout, which our award-winning data scientists have found results in highly accurate models in the widest range of situations.

機械学習での交差検定

{“@context”:”https://schema.org”,”@type”:”FAQPage”,”mainEntity”:[{“@type”:”Question”,”name”:”What is a training set?”,”acceptedAnswer”:{“@type”:”Answer”,”text”:”A training set is the subsection of a dataset from which the machine learning algorithm uncovers, or “learns,” relationships between the features and the target variable.”}},{“@type”:”Question”,”name”:”What is a validation set?”,”acceptedAnswer”:{“@type”:”Answer”,”text”:”With a validation set, we apply the machine learning algorithm to see how accurately it identifies relationships between the known outcomes for the target variable and the dataset’s other features.”}},{“@type”:”Question”,”name”:”What is a holdout set?”,”acceptedAnswer”:{“@type”:”Answer”,”text”:”Sometimes referred to as a test set, holdout sets provide a final estimate of the machine learning model’s performance after it has been trained and validated.”}}]}