機械学習のライフサイクル

機械学習のライフサイクルとは

機械学習のライフサイクルとは、データサイエンスプロジェクトが従う循環的なプロセスです。ライフサイクルには、予測分析を利用して実用的なビジネス上の価値を実現するために組織が従うべきステップが 1 つずつ定義されています。機械学習のライフサイクルには 5 つの主なステップがあります。そのすべてが等しく重要で、特定の順序に従う必要があります。ステップを飛ばしてはいけません。卵は鶏より先に存在するのです。 機械学習のライフサイクル このようなチェックリストを確認するのは重要ですが、仕組みについて説明するには、例を使うのが一番です。この例では、ある病院が機械学習をどのように進めると、患者の転帰が改善し、ROI が向上するのかを説明します。

  1. プロジェクト目標の定義: データサイエンスプロジェクトから真の価値を引き出すには、運用効率の明白な改善や顧客満足度の向上、価値の創出などの機会を特定する必要があります(SMART 目標について聞いたことはありますか?これらの目標は、他の分野と同じように機械学習の導入において重要です)。医療産業では、退院した患者の健康状態が悪化し、再入院を余儀なくされることがあります。このような再入院は、患者にとって危険で面倒なものですが、病院にとっても、同じ患者を再び治療するために時間とリソースをさらに費やすことになります。それに加え、患者が退院後 30 日以内に再入院した場合、病院に罰金が科されます。このような罰金を回避することはもちろん、さらに重要なことに、患者が病床に臥せる時間が長期化したり、生命を危険に晒しかねない再発に苦しむことがないように、病院は現在の患者データから将来的な合併症の可能性を予測して先制的な行動をとりたいと考えています。
  2. データの取得と探索: 目標の定義が完了したので、次にデータ分析で使用する関連データをすべて収集し、準備します。病院にとって、これは医療分野の専門家から助言を受けて、再入院率の予測に関連する可能性があるデータを判断し、このデータを患者の履歴レコードから収集し、分析に適した形式(通常は .csv などのフラットファイル形式)に変換するということです。
  3. モデリング: データを使用して予測するためには、何を予測したいのか、つまりターゲット変数を決める必要があります。この例では、予測したいものは「再入院」であり、これをデータ収集中に履歴データセット特徴量として含めました。次に、データセットに対して機械学習アルゴリズムを実行します。アルゴリズムによってモデルが構築され、収集したデータからの例から学習します。最後に、将来のデータに対してトレーニング済みモデルを実行し、新しい患者が再入院する可能性があるかを予測することで、患者の治療についてより適切な判断を下せるようになります。
  4. 解釈と伝達: 機械学習プロジェクトで最も難しいタスクの 1 つは、データサイエンスの背景知識を持たない人にモデルの予測について説明することです。医療のような規制の厳しい業界では特に困難です。これまで、機械学習は「ブラックボックス」と考えられてきました。インサイトについて解釈し、その価値をステークホルダと規制当局の両方に伝えるのが難しいためです。モデルの解釈可能性が高ければ高いほど、規制要件を満たし、企業の経営陣や意思決定者にモデルの価値を伝えるのが容易になります。
  5. 実装、ドキュメント作成、メンテナンス: 最後です!ここまでで、予測モデルから得たインサイトを実装し、再入院する可能性が高い患者を特定する準備ができています。いよいよ、望んできた夢が叶う待望の瞬間がやってきました。後は、このデータサイエンスプロジェクトを実装し、ドキュメントを作成し、メンテナンスするだけで、モデルを継続的に活用して、リソースを解放し、患者の命を救えるようになります。でも、待ってください。言うほど簡単なことではありません。予測モデルの実装は大きな課題を伴います。コーディングとデータサイエンスの経験が必要とされることと、従来のデータサイエンス手法を使用する場合にはサイクルの最初から実装までの時間が法外に長くなることが原因です。でも、これは自動機械学習が発明されるまでのことです。

機械学習のライフサイクルが重要である理由

機械学習のライフサイクルは、ビジネス部門からエンジニアリング部門まで、社内の各人がデータサイエンスのイニシアチブでどのような役割を果たすのかを描写します。1 つ 1 つのプロジェクトを開始から終了まで導き、データサイエンスプロジェクト全体をどのように構成すればリアルで実用的なビジネス上の価値が実現するのかについて、高レベルな観点をもたらします。これらのステップのどれかを正確に行わないと、実用的な価値のない予測に終わるか、誤解を招くインサイトをもたらすモデルが完成してしまいます。

機械学習のライフサイクル + DataRobot

DataRobot は、最も複雑で時間のかかるステップを自動化によって簡素化することにより、機械学習のライフサイクルを効率化します。データの探索とモデルの構築が遥かに簡単で利用しやすくなるため、ビジネスサイエンスプロジェクトの背後に潜むビジネス上の問題を理解する人が数十種類のモデルを迅速に構築し、テストできるようになり、従来の手法を使う場合と比べて時間が大幅に短縮されます。さらに、DataRobot には独自のモデルが組み込まれているため、かつてないレベルのモデル解釈可能性とインサイトの伝達が、特別な作業の必要なく実現します。これにより、機械学習のもたらす価値を、組織内やその外部のユーザーに対してより簡単に伝達できるようになります。それに加え、DataRobot はあなたやあなたの組織が機械学習のライフサイクルについての理解を深めるためのリソースを提供しています。DataRobot University に参加することで、機械学習プロジェクトの構築・作成方法やデータの価値を最大限に引き出す方法をゼロから学ぶことができます。