ラーニング /  Wiki / ターゲット漏えい

ターゲット漏えい

ターゲット漏えいとは

この項目を読む前に、ターゲットデータ収集トレーニング検定ホールドアウトに関する項目について理解しておいてください。

ターゲット漏えい(データ漏えいと呼ばれることもあります)は、​​機械学習モデル​を開発するときの最も困難な問題の 1 つです。予測の時点では利用できない​情報を含むデータセットに基づいて​アルゴリズム​​をトレーニングし、そのモデルを将来収集するデータに適用する場合に発生します。

「モデルを使用して予測を行う時点で値を実際に利用できないその他の特徴量はすべて、モデルに漏えいをもたらす可能性がある特徴量です。」– Data Skeptic

ターゲット漏えいを回避するには、ターゲットの成果の時点で不明なデータを除外します。以下のタイムラインは、患者が心臓疾患と診断されるかどうかなど(「ターゲット確認(target observed)」として記載)、診療結果を予測するときにターゲット漏えいを回避するプロセスを示しています。トレーニングデータセットを構築するとき、「ターゲット確認」の時点よりも前のタイムラインで発生するデータ(外来データ、検査法データ、診断テストデータなど)を含める必要があります。ただし、最初の心臓疾患診断よりも​後に発生したテストや外来診療からのデータを含めては​いけません。これらのデータは、診断を考慮したうえで収集されたものであり、将来のデータにモデルを適用して予測を行うときには不明なものだからです。

ターゲット漏えい

ターゲット漏えいが重要である理由

ターゲット漏えいは、機械学習とデータサイエンスに共通して蔓延している問題です。 ターゲット漏えいの蔓延は、機械学習および人工知能(AI)イニシアチブにとって深い専門知識が必須であることの証明です。 ビジネスにとって本当の価値を実現するモデルを開発するには、問題の特定からデータ収集、​​デプロイまでのデータサイエンスプロジェクトのあらゆる側面で、機械学習モデルの実用的応用に関する知識を持つビジネス分析の専門家などが関与する必要があります。

意図的なものと意図的でないものの両方が考えられ、識別が難しいため、ターゲット漏えいは特に悪質です。たとえば、Kaggle の競技者は、精度の高いモデルを開発し、データサイエンス競技の競争力を手に入れるために、ターゲット漏えいとなるサンプリング誤差を意図的に含めていました。

ターゲット漏えい + DataRobot

ターゲット漏えいを識別し、修正するには、予測モデルを適用しようとするビジネスコンテキストに関する深い専門知識と理解が必要になります。ターゲット漏えいを 100% の精度で識別する方法はありません。したがって、データを深く理解し、モデルの出力を批判的に分析し、疑わしいものがあれば、さらに調査する必要があります

。DataRobot には、ターゲット漏えいの可能性があるかどうかを判断するのに役立つ機能が複数あります。

  • 精度に関するリーダーボード。モデルにパーフェクトまたはパーフェクトに近い精度スコアが表示される場合、それは危険信号であり、さらなる調査が必要です。
  • 特徴量のインパクト。DataRobot は、各変数が各モデルの結果に与えるインパクトを自動的に計算します。ターゲット漏えいを含む確率が高いものは、注意が必要なほど高いスコアになります。