Eureqa モデルとは

Eureqa モデルは、DataRobot Automated Time Series の強力な機能の 1 つです。データに含まれるパターンの説明となる、人間が解読可能な数式を見つけ出し、精度と透明性の高い実用的なモデルを構築できるため、現実世界の問題を他の手法よりもはるかに短時間で解決することができます。

Eureqa Models

物理法則を応用して現実世界の問題を解決する AI

Eureqa のアルゴリズムは、DataRobot のチーフサイエンティストである Michael Schmidt(マイケル・シュミット)が 2007 年に設計しました。 

Eureqa のアルゴリズム

学習済みのデータにさまざまな分析表現を当てはめ、最適な数式を機械学習モデルとして返す遺伝的アルゴリズムが開発されました。これは、ツリーベース、連続値、ディープラーニングなど従来の教師あり機械学習モデルとは根本的に異なるアプローチです。このアプローチがメディア等で専門家に取り上げられた件数は 800 を超えており、金融から神経科学まで幅広い分野で利用されています。

基本的に、Eureqa モデルのトレーニングは、他の教師あり機械学習アルゴリズムと変わりません。過去の情報を表すラベル付きのトレーニングデータをアルゴリズムに入力すると、アルゴリズムはそのトレーニングデータに分析表現を当てはめていきます。

Eureqa は、データの中から関係性についての数式を発見する点において世界で最も成功している有名なアルゴリズムであり、何千件もの研究発表の中で引用されています。DataRobot には Eureqa を利用したブループリントがいくつも含まれており、時系列、連続値、分類の各問題向けに予測モデルを構築できます。
Michael Schmidt avatar
Michael Schmidt

Chief Technology Officer, DataRobot

高い透明性と拡張性

Eureqa モデルがお客様に支持されている理由の 1 つは、アルゴリズムから返される分析表現を人間が読み取って解釈できる点にあります。各分野の専門家はその内容をすぐに検討できます。

使い慣れれば、自分の専門知識を簡単に取り入れることもできます。たとえば、モデリングするシステムでベースとなる関係性について把握しているとします。その場合、Eureqa に与えるヒントとして、ある地域での住宅価格の推移を熱伝導に見立てた数式などを入力できます。専門知識を持つユーザーが、既知の関係性を基本要素または学習の出発点として指定すると、Eureqa はこの修正を取り入れたうえで動作します。

Eureqa 2 JP

複雑さが軽減。結果が向上

Eureqa は特に特徴量の選択に優れています。これは、モデル構築プロセスで複雑さを軽減する仕様になっているためです。たとえば、ターゲット特徴量の予測に使用される列がデータに 20 個あっても、単純な式が求められている場合、最も強い予測因子のみを使用する式になります。

これは小規模なデータセットにも非常に有効です。そのため、Eureqa モデルは、大量のデータが得られない物理実験からデータを収集する科学研究者に人気があります。

Eureqa 1 1

スマートな特徴量の選択

Eureqa は、独自の特殊な特徴量エンジニアリングを行います。複雑さについて制約がある Eureqa のブループリントは、可能な限りシンプルなモデルになるように最適化されているため、モデルが使用できる特徴量の数に制限があります。Eureqa は、最初から最も関連性の強い特徴量だけを特定できる点において極めて優秀です。

LASSO と同様に、特徴量の選択がアルゴリズムの目標プロセスに組み込まれています。

Eureqa は、複雑さが制限されている(または複雑さにペナルティーが科される)さまざまな数式を使用して特徴量の何百万もの組み合わせをテストします。これは、最終的なモデルで使用される特徴量の数を減らすのに非常に効果的です。

Eureqa 3 JP
Eureqa 2 JP
Eureqa 1 1
Eureqa 3 JP

Eureqa はすでに、金融時系列モデリング、予知保全、需要予測、売上予測などさまざまなユースケースで企業を支援しています。

cta module 1920px

Automated Time Series の詳細については、こちらへお問い合わせください。