モデルの精度の評価

機械学習の精度には多面性があります。精度はモデルパフォーマンス指標の一部であり、モデルの集計誤差をさまざまな方法で測定します。どの誤差指標で最適化するかを決める必要があるとはいえ、1 つのスコアだけに固執することは、すぐに実用可能な AI システムを構築する面では近視眼的な考え方です。複数のツールおよび可視化機能を、必要に応じて説明可能性機能やバイアスと公平性のテストと併用することで、精度を最適に評価できます。

予測ターゲットの特性は、モデルの最適化に使用する最善の誤差指標を決定するのに役立ちます。典型的な例として、二値分類問題のナイーブ予測の精度を考えてみます。これは、モデルがまたはのクラスを正しく予測する確率です。トレーニングサンプルの 97% がであるなど、ターゲット分布が極端に不均衡な場合、毎回を予測するモデルのナイーブ精度スコアは 97% になります。理論上は優れていますが、これは、滅多にないを見つけ出せるモデルをトレーニングするという目標には明らかに不向きです。

binary code insurance
二値分類と LogLoss

二値分類モデルは、通常、LogLoss と呼ばれる誤差指標を使って最適化されます。二値分類では、混同行列とそこから導き出された一連の指標および可視化機能を使用して、サンプルのクラス割り当ての精度までドリルダウンすることが一般的です。混同行列では、分類しきい値と、モデルの感度、特異度、適合率、F1 値などの計算値に基づいて、真陽性、偽陽性、真陰性、偽陰性の数を利用できます。

この動作は、ROC 曲線や Precision-Recall 曲線を用いて可視化することもできます。また、ROC曲線は、AUC(Area Under the Curve)という 1 つの指標に集約することも可能です。これらの指標のどれを優先するかは、ユースケースによって異なります。収益曲線などのツールも、最適な分類しきい値の特定に有用です。

連続値分析と RMSE・MAE
連続値分析と RMSE・MAE

連続値分析では、RMSE、MAE などの指標で予測値と実測値の相違を測定します。RMSE は、予測値が実測値から離れているほど、より大きなペナルティーを課します。一方、MAE は直線的にスケーリングします。リフトチャートでは、サンプルを下位から上位へ正しくランク付けするモデルの能力をシンプルに可視化できます。残差の分布を調べることは、モデルのパフォーマンスを評価するもう 1 つの方法です。これにより、モデルの予測が常に上または下に外れるかどうかの手がかりを得ることができます。また、基礎となる分布によっては、Poisson Deviance や Tweedie Deviance などの指標のほうがモデルの最適化に適しているかどうかもわかります。

モデルの精度をレポートする場合、上で説明したような可視化は、技術系、非技術系どちらの読み手に対しても効果的な伝達手段となります。他のモデリング手法との比較も重要です。たとえば、Majority Classifierのようなナイーブモデルやベースラインモデルを作成し、それに対して選択した手法の予測効果をより明確に確認することは常に可能です。理想を言えば、複数の競合するモデリング手法を試して比較すると良いでしょう。DataRobot のリーダーボードには、特定のデータセットに対して構築されたエンドツーエンドのモデリング手法の情報がすべて表示されるので、多様な手法を直接比較できます。パフォーマンスと信頼の他の要素も検討の対象になるため、純粋に精度が最も高いモデルが最終的に選ばれるとは限りません。どのような場合でも、総合的に理解することが非常に重要です。

精度はパズルの 1 ピースにすぎません

精度は、生成される予測モデルの信頼性に直接寄与しますが、モデルパフォーマンスに必要な要素の 1 つにすぎません。その他の要素には次のようなものがあります。

信頼できる倫理的な AI を今すぐ実現しましょう