分類

分類とは

植物、動物やその他の生物をさまざまな種類に分類する慣行を学んだ生物の授業を覚えていますか。それは分類の 1 つの形です。データサイエンス機械学習の主な用途の 1 つは、特定の観測結果が属する可能性が最も高いカテゴリを予測することです。最初に、機械学習テクノロジによって分類アルゴリズムが適用され、何を予測したいかに応じて、特定のクラスに共通する特性が識別されます。次に、それらの特性が分類対象のデータと比較されます。最後に、その情報を使用して、観測結果が特定のクラスに属する確率が推定されます。

分類が重要である理由

機械学習での分類には、ビジネス上の実践的な用途が無限にあります。たとえば、誰かが債務不履行に陥るかどうかを予測したい場合、類似する特性を持つ 2 つのクラス、つまり債務不履行者クラスと非債務不履行者クラスのどちらかにその人が属するかどうかを判別する必要があります。これによって、その人が債務不履行に陥る確率がわかり、それに従ってリスク評価を調整できます。分類の問題はバイナリクラスに限定されません。分類できるクラスが 3 つ以上あるマルチクラス問題に拡大する場合があります。たとえば、顧客行動の履歴に基づいて 5 つ(またはそれ以上)のマーケティングチャネルのうち投資収益が最大になるものはどれかを予測し、最も効果的なチャネルに重点を置いてマーケティング予算の配分を最適化するということができます。

分類 + DataRobot

DataRobot の自動機械学習プラットフォームでは、多数の分類アルゴリズムが使用され、ターゲット変数(予測したい変数)が分類に適したカテゴリ変数なのか、回帰の方に適した連続変数なのかが自動的に識別されます。さらに、DataRobot の各種ツールにより、 バイナリクラスとマルチクラスの両方の問題で分類モデルのパフォーマンスを調べることができます。分類どのような分類アルゴリズムにも存在する主な欠点は、「ブラックボックス」になる傾向があることです – つまり、観測結果がカテゴリに分類されても、どの特性がどのような理由でその分類につながったのかがよくわからないということです。DataRobot のリーズンコード特徴量は、正確にどの要素が観測結果の分類につながったのかについてのインサイトを提供します。その結果、モデルによる判別の理由について理解が深まり、経営陣や規制当局に対してその正当性をアピールしやすくなります。結局のところ、魔法のブラックボックスが指示したという理由で盲目的に融資を拒否することは望ましくないからです。