ターゲット漏えい

ターゲット漏えいとは

注: この項目を読む前に、ターゲットデータ収集トレーニング、検定、ホールドアウトに関する項目について理解しておいてください。ターゲット漏えい(データ漏えいと呼ばれることもあります)は、機械学習モデルを開発するときに発生する非常に厄介な問題の 1 つです。予測の時点では利用できない情報を含むデータセットに基づいて予測アルゴリズムをトレーニングし、そのモデルを将来収集するデータに適用する場合に発生します。実際の結果をすでに知っているので、モデルはトレーニングデータに基づいて非現実的なほど良好な予測を行います。試験に解答シートを持ち込むようなものです(この詳細については、オーバーフィットを参照してください)。 「モデルを使用して予測を行う時点で値を実際に利用できないその他の特徴量はすべて、モデルに漏えいをもたらす可能性がある特徴量です。」– Data Skeptic ターゲット漏えいを回避するには、予測の時点で不明なデータを除外します。以下のタイムラインは、患者が心臓疾患と診断されるかどうかなど(「ターゲット確認(target observed)」として記載)、診療結果を予測するときにターゲット漏えいを回避するプロセスを示しています。トレーニングデータセットを構築するとき、「ターゲット確認」の時点よりも前のタイムラインで発生するデータ(外来診療データ、検査法データ、診断テストデータなど)を含めることができます(含めるべきです)。ただし、最初の心臓疾患診断よりもに発生したテストや外来診療からのデータを含めてはいけません。これらのデータは、診断を考慮したうえで収集されたものであり、将来のデータにモデルを適用して予測を行うときには不明なものだからです。 ターゲット漏えい

ターゲット漏えいが重要である理由

ターゲット漏えいは、機械学習とデータサイエンスに共通して蔓延している問題です。モデルが一般化誤差を過剰に提示するため、実際の応用ではモデルが役に立たなくなります。ターゲット漏えいの蔓延は、機械学習および人工知能(AI)イニシアチブにとって深い専門知識が必須であることの証明です。ビジネスにとって本当の価値を実現するモデルを開発するには、問題の特定からデータ収集、デプロイまでのデータサイエンスプロジェクトのあらゆる側面で、機械学習モデルの実用的応用に関する知識を持つビジネスアナリストなどが関与する必要があります。意図的なものと意図的でないものの両方が考えられ、識別が難しいため、ターゲット漏えいは特に悪質です。たとえば、Kaggle の競技者は、精度の高いモデルを開発し、データサイエンス競技の競争力を手に入れるために、ターゲット漏えいとなるサンプリング誤差を意図的に含めていました

ターゲット漏えい + DataRobot

ターゲット漏えいを識別し、修正するには、予測モデルを適用しようとするビジネスコンテキストに関する深い専門知識と理解が必要になります。何かをターゲット漏えいだと 100% の精度で識別する方法はありません。したがって、見つけるための最善の方法は、データおよびモデルの出力の批判的な分析です。疑わしいものがあれば、さらに調査します。DataRobot には、データセットにターゲット漏えいが含まれているかどうかを判断するのに役立つ機能が複数あります。

  • 精度に関するリーダーボード。DataRobot のリーダーボードで各モデルにパーフェクトまたはパーフェクトに近い精度スコアが表示される場合、それは危険信号であり、さらなる調査が必要です。
  • 特定の変数での単変量の高い重要性。
  • 特徴量のインパクトDataRobot は、各変数が各モデルの結果に与えるインパクトを自動的に計算します。ターゲット漏えいを含む確率が高いものは、注意が必要なほど高いスコアになります。

ターゲット漏えいを明らかにして根絶するための特効薬はありません。検出するにはデータに対する深い理解が必要になります。DataRobot ではターゲット漏えいがどこで発生している可能性があるかを容易に識別できるので、可能な限り最も精度が高く実用的な予測モデルを開発できます。