スコアリング

スコアリングとは

データサイエンスの領域において、スコアリングという言葉は一般的に2つの意味を持ちます。モデル・スコアリングとデータに対するスコアリングです。この記事は後者について述べています。

 

機械学習人工知能(AI)での「スコアリング」は、通常のコンテキストとは少し違う意味を持っています。データサイエンスでのスコアリングは、予測を開始するために、過去のデータセットから構築した予測モデルを新しいデータセットに適用するプロセスです。予測モデリングは一般に 2 つの段階で構成されるプロセスです。第 1 段階はトレーニングです。結果がわかっているデータにアルゴリズムを適用して、ターゲット変数を予測するパターンを学習できるようにします。第 2 段階はスコアリングです。トレーニングされたモデルを使用して、新しいデータに基づいて予測を行います。たとえば、融資する貸し手が、融資申し込み情報を使用して借り手がその融資で債権不履行になる確率を予測するモデルをトレーニングするとします。本稼働環境でスコアリングつまり新規融資申し込みのデータに基づくモデルを実装することにより、リスクの高い申し込みが識別され、損失が防止されます。モデルをスコアリングする方法はいくつかあります。

  1. バッチ。モデルの使用対象となる決定を直ちに実装する必要がない場合に使用します。たとえば、マーケティング担当者は、購入したリードの全リストに基づいてモデルをスコアリングし、商品を購入する可能性が最も高いリードを判断することができます。
  2. リアルタイム。モデルから価値を実現するにあたって時間が最重要である場合に使用します。たとえば、銀行が詐欺の可能性があるトランザクションを迅速に拒否するには、クレジットカードトランザクションが数ミリ秒以内でスコアリングされる詐欺モデルが必要になります。

スコアリングを使用して、既存のモデルを評価または監視することもできます。ターゲット変数の値がわかっている新しいデータセットに対してスコアリングします。予測された値を新しいデータの実際の値と比較することで、トレーニングの基にしなかったデータに適用した場合のパフォーマンスを判断できます。

スコアリングが重要である理由

予測を行うためにモデルを使用しないのであれば、何のためにわざわざ苦労して構築したのでしょうか。予測モデルを本稼働環境にデプロイする主な理由がスコアリングです。スコアリングによって、モデルを実用化してビジネス価値を生み出します。そのぐらい単純な話です。

スコアリング + DataRobot

DataRobot は、モデルをスコアリングするための方法を複数提供して、データの保管場所に関係なく、モデルを本稼働環境へ容易にデプロイできるようにします。応用ごとに適した手法があります。

  • ドラッグアンドドロップユーザーインターフェース新しいファイルによってモデルを手動でスコアリングできます。
  • REST APIバッチスコアリングとリアルタイムスコアリングの両方に使用できます。
  • コードエクスポートオプション。DataRobot に接続されていない環境にモデルをデプロイできます。
  • Hadoop へのデプロイ。Spark を使用して、Hadoop に保存されているデータに基づいてモデルをスコアリングできます。

スコアリング