特徴量のインパクト

特徴量のインパクトとは

変えようとしている何かに対して、同程度に困難な 2 つのタスクによる影響が大きく異なるとすれば、どちらのタスクを重視しますか。影響の小さい方でしょうか、大きい方でしょうか。まず間違いなく、大きい方でしょう – しかしその前に、どちらがどちらなのかを見極める必要があります。それこそが、機械学習アプリケーションで特徴量のインパクトによって行われることです。つまり、データセット内のどの特徴量(「列」または「入力」とも呼ばれます)が予測モデルの精度に最大の影響を与えるかを明らかにするということです。特徴量のインパクトを特定するには、機械学習の予測アルゴリズムでビジネス上の特定の問題に関して正確な予測を行うために最も重要な情報を見分ける必要があります。さまざまな機械学習アルゴリズムでは、そのプロパティに基づいて、データセット内の異なる特徴量が重視されます。たとえば、強い線形トレンドを持つ(つまり一定の率で増減する) 特徴量は、回帰などの線形ベースの手法に大きく影響しますが、線形ベースでない手法ではデータ内のより複雑な関係が活用されます。データサイエンスのエキスパートは、予測分析の精度と適応性の向上に対して意味を持つ特徴量を調査するために、さまざまなテクニックを適用します。

特徴量のインパクトが重要である理由

ビッグデータの時代の到来により、現代のデータセットのサイズと次元数は非常に大きくなっています。分析でどの情報が最も重要かを評価すれば、それらの要素に注意を集中することができるため、貴重な時間とリソースを節約できます。さらに、予測モデルの基本的な要素を識別することで、データソースの品質を確認できます。たとえば、組織が予測分析のイニシアチブでサードバーティのデータに高額の使用料を支払っていて、そのうちどのデータも有用でないことが特徴量のインパクト分析によって示された場合、実質的にドブに捨てていた数千ドルを節約できます。従来、特徴量のインパクトに使用できるのは特定の機械学習アルゴリズムのみであり、その他は「ブラックボックス」すぎます。つまり、どの特徴量が重要かの結論に何故どのように到達したかがわからないため、一部の特徴量を含めなかった理由を正当化することが困難になります。これは、特に保険や医療などの規制の厳しい業界で問題です。心不全を予測するためのモデルに体重が含まれていない理由を説明できなければ、規制当局がそれを見逃す可能性はごくわずか、あるいはまったくありません。また、特徴量のインパクトは、モデルの精度を高める最善の方法の 1 つである特徴量の選択と、非常に精度の低いモデルを回避する最善の方法の 1 つであるターゲット漏えいの特定の両方で使用されるテクニックです。1 つの特徴量が予測モデルにきわめて大きな影響を与えている場合、それはデータセットにターゲット漏えいがあるという優れた兆候であり、調査が必要です。

特徴量のインパクト + DataRobot

幸い、DataRobot の自動機械学習プラットフォームでは、プラットフォーム内で構築されたすべての機械学習アルゴリズムからどの特徴量が重要かが明らかになるため、ブラックボックスの問題が一切なくなります。DataRobot のモデルでは、特徴量のインパクトの計算はボタンをクリックするだけの手軽さです。このプラットフォームでは、特徴量のインパクトを推定するために順列の重要度が使用されます。このテクニックの優れた点は、モデルに依存しない、つまりどの手法を使用する場合でも、その複雑度にかかわりなく計算できるということです。そのため、非常に高度な機械学習アルゴリズムを活用すると同時に、実際のビジネス上の価値の獲得を犠牲にすることなく、人間が容易に解釈可能性モデルにすることができます。

特徴量のインパクト