Data Quality 1 1024x533 1

信頼できる AI の条件 — データの品質

どの機械学習モデルにおいても、パフォーマンスは、モデルのトレーニングに使用されたデータと直接結び付いています。
使用するデータの信頼性を評価するために、どのようなアプローチを取るべきかをご紹介します。

Thank you

ご回答までしばらくお待ちください

Thank You!

We’re almost there! These are the next steps:

  • Look out for an email from DataRobot with a subject line: Your Subscription Confirmation.
  • Click the confirmation link to approve your consent.
  • Done! You have now opted to receive communications about DataRobot’s products and services.

Didn’t receive the email? Please make sure to check your spam or junk folders.

閉じる

データの信頼性の評価

信頼できる AI を設計したいのであれば、モデルを構築する前に、基礎となるデータを準備します。データの品質は、AI に対する信頼構築に必要な第一の要素であり、ベースとなるものです。「ゴミを入れればゴミが出てくる」という表現の通りです。やや問題を単純化しすぎた言い方ですが、間違いではありません。どのような機械学習モデルのパフォーマンスも、トレーニングおよび検定時に使用されたデータと密接に結び付いているのです。

データの出所および整合性は、モデルを理解するために必須の要素です。最終的には、ユースケースに応じて、以下のデータの組み合わせになります。

  • 社内向けの非公開データ
  • オープンソースの公開データ
  • サードパーティーのデータ

どのようなデータソースを使用し、いつアクセスし、どのように検証したかなど、データの出所を追跡可能な形で記録しておくことは非常に重要です。 

サードパーティーまたはオープンソースのデータを使用する場合は、そのデータがどのように収集されたのか、最新の取得日も含めてできるだけ多くの情報を見つける必要があります。これにより、そのデータが最終的にユースケースに適しているかどうかを知ることができます。これらの点はすべて、社内データにも当てはまります。社内データは透明性が高い傾向があり、データ収集の際にサンプリングバイアスが発生していないかどうかを簡単に確認することができます。

モデリングに取り掛かる前に実行する次のステップは、データ品質の評価を含む、探索的データ分析です。データについて理解し、どのような関係がそこに存在する可能性があるか自分で調べてみることが重要です。これには、以下の基本的作業が含まれます。

  • 各特徴量についてサマリー統計を計算する
  • 特徴量間の関連性を測定する
  • 特徴量の分布、およびそれらと予測ターゲットとの相関を観測する
  • 外れ値を識別する

また、データ品質の評価では、欠損値、偽装欠損値、重複行、モデルに何の情報ももたらさない一意の識別子、ターゲットリーケージの検出なども行います。欠損値の処理方法、たとえば、特定の行や特徴量をモデリングから排除するかどうか、値を補完すべきかどうかを決定する前に、欠損値と相関するシステム動作があったかどうかを把握していなければなりません。たとえば、小売チェーンの特定の場所で、特定の情報の報告をいつも怠っていないでしょうか。その場合、追加のデータを求め、こうした欠損値をあらかじめ埋めておくことができるかもしれません。

ターゲットリーケージとは、機械学習に特有のデータ品質の問題で、予測時に利用できないはずの情報がモデルに開示される状況を指します。モデルはいわば「カンニング」をして、一見すると本番環境よりも優れたパフォーマンスを発揮することができます。たとえば、ローンの遅延損害金の徴収など、過去の記録から得られたデータは、ローン申請時に申請者が期日通りに返済するかどうかを予測する際には利用できません。ターゲットとの単変量相関が高い特徴量は疑ってかかるべきですが、合成特徴量の中に隠れているかもしれない、より微妙な種類のターゲットリーケージを特定するには、各分野の専門知識が不可欠です。

データクリーニングには、重複する行や列の削除に加えて、欠損値や外れ値、インライアの処理も含まれます。欠損値や外れ値があまりに多いため、行または特徴量全体をデータから削除したほうが良い場合もあります。欠損値の取り扱い方法として、データの補完が適切な場合もあります。ただし、使用するモデリング手法によって補完のタイプは異なります。

Paxata Prep loan data for DataRobot ML 1024x567 1
Paxata Prep loan data for DataRobot ML 1024×567 1

業界によっては、遺伝子発現データのように、特定の補完手法が推奨されている場合があります。検定データについての統計情報がトレーニングデータ内でエンコードされないよう、補完は必ずデータのパーティショニング後に実行することも重要です。DataRobot では、一連のデータ品質チェックの実行後、モデリングの前に、自動的に欠損値を処理します。

一般に、特徴量エンジニアリングは、データの準備においてきわめて重要なステップです。未加工のデータについて根本から理解していれば、堅牢で信頼できる新しい特徴量を導き出すことができます。データプレパレーションツールである DataRobot Data Prep を使えば、バージョン管理を実行してデータのスナップショットを追跡できるので、モデルのトレーニングに使用されたデータや、最初に実施された特徴量エンジニアリングまたはデータクリーニングの手順を常に把握できます。

信頼できる倫理的な AI を今すぐ実現しましょう