半教師あり機械学習

半教師あり機械学習とは

半教師あり機械学習とは、教師あり機械学習手法と教師なし機械学習手法を組み合わせたものです。

より一般的な教師あり機械学習手法では、各レコードに結果情報が含まれている「ラベル付き」データセットに基づいて機械学習アルゴリズムトレーニングします。これにより、アルゴリズムは、すでに持っている情報に基づいてパターンを推測し、ターゲット変数とデータベースの残り部分との関係を特定できます。一方、教師なし機械学習アルゴリズムは、結果変数のないデータセットから学習します。半教師あり機械学習では、アルゴリズムはラベル付きデータとラベルなしデータの両方を含むデータセットから学習します(通常、大半はラベルなしデータです)。

半教師あり機械学習が重要である理由

正確なモデルを予測するための十分なラベル付きデータがなく、より多くのデータを取得するための能力またはリソースがない場合は、半教師あり手法を使用してトレーニングデータの規模を大きくすることができます。たとえば、大手銀行向けに詐欺を検知するためのモデルを開発しているとします。一部の詐欺については既知ですが、その他の詐欺は知らないうちにすり抜けます。詐欺を含むデータセットにラベルを付けることができますが、残りのデータはラベルなしのままとなります。

半教師あり学習 1

半教師あり学習アルゴリズムを使用してデータにラベルを付け、新しくラベルが付けられたデータセットでモデルを再トレーニングします。

半教師あり学習 2

次に、再トレーニングされたモデルを新しいデータに適用して、教師あり機械学習手法を使用して詐欺をより正確に特定します。ただし、アルゴリズムが 100% 正確なラベルを生成したことを確認する方法はなく、結果の信頼性は従来の教師あり手法よりも劣ります。

半教師あり機械学習 + DataRobot

トレーニングデータセットに既知の結果を含むレコードが数千行あり、結果を含まないレコードがさらに数千行ある場合、DataRobot の自動機械学習プラットフォームを使用することで、より多くのデータにラベルを付けることができます。ラベル付きデータに基づいて迅速にモデルが作成され、ラベルなしデータに適用されます。そして、そのデータを使用して、より多くのモデルがトレーニングされます。これによって、アナリストやデータサイエンティストがデータセットに手動でラベルを付けるための時間が大幅に短縮され、効率性と生産性が向上します。