半教師あり機械学習

半教師あり機械学習とは

より一般的な教師あり機械学習では、「ラベル付き」と呼ばれるデータセットに基づいて機械学習アルゴリズムトレーニングします。このデータセットには結果に関する情報が含まれているので、アルゴリズムは、すでに持っている情報に基づいてターゲット変数を予測するパターンを推測できます。対照的に、教師なし機械学習では、結果の変数を含まないデータセットを提供し、アルゴリズムが何かに依存することなく予測モデルを生成することを期待します。半教師あり機械学習は、その名が示唆するとおり、これらの 2 つの手法を組み合わせたものです。半教師あり機械学習を使用する場合は、ラベル付きデータとラベルなしデータの両方を含むデータセットをアルゴリズムに提供します(通常、大半はラベルなしデータです)。たとえば、大手銀行で詐欺を検知するためのモデルを開発しているとします。一部の詐欺については既知ですが、その他の詐欺は知らないうちにすり抜けます。詐欺を含むデータセットにラベルを付けることができますが、残りのデータはラベルなしのままとなります。

半教師あり学習 1

次に、半教師あり学習を使用してデータにラベルを付け、新しくラベルを付けたデータセットを含むモデルを維持します。 半教師あり学習 2 その後、再トレーニングされたモデルを使用して、新しいデータに基づいて予測を行います。教師あり機械学習手法を使用して、より正確に詐欺が識別されます。このアプローチの欠点は、ラベルなしデータに基づいてモデルが行った予測の精度が 100% であることを確認する方法がないことです。つまり、教師あり学習手法を使用する場合よりも将来の予測の精度が低くなる可能性があります。

半教師あり機械学習が重要である理由

正確なモデルを予測するための十分なラベル付きデータがなく、より多くのデータを取得するための能力またはリソースがない場合は、半教師あり手法を使用してトレーニングデータの規模を大きくすることができます。追加のデータを使用して、半教師あり手法は、基になるデータ分布の形を把握します。これにより、モデルは新しいデータサンプルへとより適切に一般化されます。完全にラベル付きのデータを使用する場合よりも精度がはるかに高くなることもあります。

半教師あり機械学習 + DataRobot

DataRobot を使用すると、シンプルなヒューリスティックを使用して、より多くのデータにラベルを付けることができます。トレーニングデータセットに、既知の結果を含むレコードが数千行あり、結果を含まないレコードがさらに数千行あるとします。ラベル付きデータに基づいて迅速にモデルが構築され、ラベルなしデータに適用されます。そして、そのデータを使用して、より多くのモデルがトレーニングされます。これによって、データアナリストやデータサイエンティストがデータセットに手動でラベルを付けるための時間が大幅に短縮され、効率性と生産性が向上します。