ターゲット変数

機械学習でのターゲット変数とは

データセットのターゲット変数は、より深く理解する必要のあるデータセットの特徴量です。教師あり機械学習アルゴリズムは、履歴データを使用してパターンを学習し、データセットの他の特徴量とターゲットとの関係を見つけ出します。

ターゲット変数は、ビジネス目標および利用可能なデータによって異なります。たとえば、感情分析を使用して、会社のブランドに関するツイートが肯定的か否定的かを分類するとします。特徴量として役に立つ可能性があるツイートの要素には、単語トークン、会話の各部分、顔文字などがあります。どのツイートが肯定的で、どのツイートが否定的かという例を最初に与えられなければ(ターゲット)、モデルはこれらの特徴量がどのように感情に関連するのかを学習できません。ターゲットは、ほとんどがデータセットで手動でラベリングされますが、このプロセスを自動化する方法があります(半教師あり機械学習を参照してください)。

ターゲット変数が重要である理由

ラベル付きターゲットがなければ、教師あり機械学習アルゴリズムは、利用可能なデータを結果にマッピングすることができません。少なくとも数回聞かなければ、猫を「猫」と呼ぶことを子供が理解できないのと同じです。アルゴリズムが実行するのは入力データとターゲットの関係をマッピングする機能を学習することだけなので、ターゲットを適切に定義することが重要です。ターゲットが意味をなさなければ、モデルの結果は意味のないものとなります。

ターゲット変数 + DataRobot

DataRobot なら、容易にターゲットを選択し、教師ありモデルの構築を開始できます。ユーザーがデータセットをアップロードし、どの特徴量を理解したいかを指定すれば、データサイエンスの残りの難しい部分は DataRobot が実行します。

ターゲット

ユーザーがターゲットを選択し、[開始]をクリックすると、DataRobot は、特徴量がターゲットにどのように関連するか、各トレーニング済みモデルがターゲットからどのぐらい学習したかを示すインサイトを自動的に見つけ出します。これにより、本稼働環境のアプリケーションにデプロイする最適なモデルを容易に選択し、ターゲット(データ)漏えいなどの気付きにくいことで有名な問題を特定することができます。