胎動する生成AIデータサイエンス革命

本ブログはグローバルで公開された「The brewing GenAI data science revolution」の抄訳版です。

企業でデータサイエンスチームや定量調査ユニットを率いているなら、今、二つの並行世界に住んでいるような感覚を覚えていることでしょう。

一方の世界には「生成AI(GenAI)」の爆発的進化があります。チャットボットがコードを書き、アートを創造し、取締役会は大規模言語モデル(LLM)がいかに世界を変えるかに熱中しています。そしてもう一方の世界には、あなたの本来の仕事が存在します。つまり構造化されたテーブルデータを使用して、解約予測、需要予測、不正検知を行うといった「堅実な」業務が存在します。

長年、これら二つの世界は完全に切り離されているように感じられてきました。生成AIという熱狂(ハイプ)のロケットは、あなたのビジネスの核となるべきデータをそこに置き去りにしたまま飛び去ってしまったと感じているかもしれません。

しかし、その隔たりは錯覚であり、急速に消滅しつつあります。

チャットボットから予測へ:生成AIは構造化データと時系列モデリングにまで到達した

あなたが懐疑派であれ信奉者であれ、メールの草案を作成するためにトランスフォーマーモデルを使ったり、画像を生成するために拡散モデルを使ったりしたことは間違いなくあるでしょう。しかし、世界がテキストやピクセルに注目している間に、同じ基盤アーキテクチャは別の言語を静かに学習してきました。それは、数値、時間、そしてテーブルデータパターンの言語です。

例えば、SAP-RPT-1LaTableを例に挙げてみましょう。前者はトランスフォーマー・アーキテクチャを、後者は拡散モデルを採用しており、どちらもテーブルデータの予測に使用されます。

私たちは今、「データサイエンス基盤モデル」の出現を目撃しているのです。

これらは、皆さんが知っている予測モデルの単なる漸進的な改善ではありません。パラダイムシフトそのものです。LLMが、明示的に訓練されていない翻訳タスクを「ゼロショット」で処理できるのと同様に、これらの新しいモデルは、例えば売上数値やサーバーログといった一連のデータを参照するだけで、従来の手間のかかる訓練パイプラインを経ることなく予測を生成することができます。

この分野の革新のスピードは驚異的です。私たちの集計によれば、2025年の初めだけでも、テーブルデータや時系列データのために特別に設計された基盤モデルが、少なくとも14の主要なリリースとして登場しました。これには、Chronos-2TiRexMoirai-2TabPFN-2.5TempoPFN(データ生成にSDEを使用)といった最先端モデルの開発チームによる注目すべき成果が含まれています。

モデルは「モデル製造工場」へと進化した

従来、機械学習モデルは「静的な成果物」として扱われてきました。つまり、過去のデータで一度訓練され、予測を行うためにデプロイされるものです。

従来の機械学習:データで訓練し予測モデルを構築
図1:従来の機械学習:データで訓練し予測モデルを構築

その枠組みはもはや通用しません。現代のモデルは「予測器」というよりも「モデル生成システム」のように振る舞うようになっており、要求に応じて状況に応じた新しい表現を生成できるようになっています。

図2: 基盤モデルは蓄積経験に基づき即座にデータ解釈を行う
図2: 基盤モデルは蓄積経験に基づき即座にデータ解釈を行う

私たちは、モデルに対して単一の点予測を求めるだけの未来から、基盤モデルに対して手元の特定の状況に合わせて調整されたオーダーメイドの統計的表現(bespoke statistical representation:実質的にはミニモデル)の生成を依頼する未来へと移行しつつあります。

この革命は近づいているのではなく、既に研究機関で胎動しているのです。今、問われるべきは「なぜそれがまだあなたの本番環境のパイプラインに組み込まれていないのか?」ということです。

現実での検証:ハルシネーションとトレンドライン

もしあなたがインターネット上で、弁護士が偽の判例を引用したりチャットボットが歴史的出来事を捏造したりといったグロテスクなLLMのハルシネーション(幻覚)のニュースの数々を目にしたことがあるなら、その混沌としたエネルギーを持つ脅威があなたの企業の純粋な予測業務に侵食することを考えるだけで、あなたは夜も眠れなくなるかもしれません。

もちろん、あなたのその懸念は当然に正当なものです。

現時点では、従来の機械学習が保守的な選択肢

データサイエンス基盤モデル(テーブルデータや時系列基盤モデルの総称)の新しい波は有望ですが、まだ非常に初期の段階にあります。

確かに、モデルプロバイダーは現在、学術的なベンチマークでトップの座を主張することができます。時系列予測のリーダーボードであるGIFT-Evalや、テーブルデータのリーダーボードであるTabArenaにおける現在のトップパフォーマンスモデルは、すべて基盤モデル、あるいは基盤モデルのエージェント的なラッパーです。しかし実務においてはどうでしょうか? 現実は、これら「最先端」モデルの一部が、生のデータにおける最も基本的なトレンドラインの特定にさえ苦戦しているのが現状です。

それらは複雑な処理は可能ですが、単純な回帰モデルなら難なくこなすような基本事項でつまずくことがあります。例えば、TabPFN v2論文にある誠実なアブレーション研究(構成要素の評価)を参照してみてください。

私たちが確信を持ち続ける理由:基盤モデルの可能性

これらのモデルにはまだ初期の限界がありますが、その長期的な可能性を信じるべき説得力のある理由があります。エージェント型AIの時代に動作するあらゆるシステムに不可欠な要件であるユーザーの入力への即時反応能力については、既に議論した通りです。より根本的には、これらのモデルは実質的に無限の事前情報リソースを活用できるのです。

考えてみてください。複雑な予測問題を解決できる可能性が高いのは、どちらでしょうか?

  • 選択肢A:あなたのデータを知っているが、あなたのデータ「のみ」を知っている古典的なモデル。毎回ゼロから訓練を開始し、世界の他の部分に対しては盲目的である。
  • 選択肢B:数十年、数多くの業界、そして多様な様態(モダリティ)にわたる、想像を絶するほど膨大な関連問題(多くの場合は大量の合成データで強化される)で訓練され、その後あなたの特定状況に適用される基盤モデル。

古典的な機械学習モデル(XGBoostやARIMAなど)は、初期段階の生成AIのような「ハルシネーション」に悩まされることはありませんが、「助けとなる事前知識」も持っていません。異なる領域間で知恵を転移させることもできないのです。

私たちが可能性を感じていること、そして業界が向かっている方向は、最終的には「世界の経験(事前知識)」を持つモデルが、個別に孤立して学習しているモデルを凌駕するだろうということです。

欠けている視点:リーダーボードではなく現実を解決すること

データサイエンス基盤モデルは、AIにおける次の巨大な転換点になる可能性があります。しかし、それを実現するためには、ゴールポストを動かす、つまり目標を再定義する必要があります。現在、研究者が構築しているものと、ビジネスが実際に必要としているものとの間には、依然として乖離があります。

主要なテック企業や学術研究室は現在、数値精度をめぐる軍拡競争に陥っており、次の主要なAIカンファレンスに間に合うよう予測リーダーボードのトップに立つことにレーザーのように焦点を当てています。その一方で、複雑な現実世界の課題の解決には、比較的関心が向けられていません。皮肉なことに、それこそが最も困難な科学的挑戦であるにもかかわらずです。

盲点:相互に関連し合う複雑性

問題の核心はここにあります。現在のトップクラスの基盤モデルのどれも、複数の依存するターゲットの「同時確率分布(joint probability distributions)」を予測するように設計されていません。

これは専門的な響きに聞こえますが、ビジネス上の意味合いは甚大です。現実の世界では、変数が単独で動くことはほとんどないからです。

  • 都市計画:5番街の交通流がメインストリートの交通流に与える影響(および受ける影響)を理解せずに、メインストリートの交通流を予測することはできない。
  • サプライチェーン:製品Aの需要は、しばしば製品Bの需要を食いつぶす(カニバリゼーション)。
  • 金融:ポートフォリオ・リスクを例にとると、真の市場エクスポージャーを理解するために、ポートフォリオ・マネージャーは個々の銘柄の最悪シナリオを単独で計算するわけではない。代わりに、共同シミュレーションを実行する。個別のリスクを単に合算するだけでは不十分であり、資産がいかに「共に」動くかを理解するモデルが必要である。

世界は、依存関係が絡み合った、乱雑なウェブのようなものです。現在の基盤モデルは、それを一連の孤立した教科書的な問題のように扱う傾向があります。これらのモデルがその複雑さを把握し、変数がいかに「共にダンスを踊るか」を捉えたモデルを出力できるようになるまで、既存のソリューションに取って代わることはないでしょう。

したがって、現時点ではあなた自ら構築したワークフローは安全です。しかし、この一時的なギャップを永続的なセーフティネットと見誤ることは、将来重大な過ちになる可能性があります。

今日のディープラーニングの限界は、明日の解決済み技術課題である

複雑な同時分布のモデリングといった欠けているピースは、不可能な物理法則ではありません。それらは単に、ロードマップ上の次の技術上のハードルに過ぎません。

2025年の技術革新のスピードが教えてくれたのは、「不可能」とされた技術的ハードルが一夜にして消え去る習性があるということです。これらの特定課題が解決された瞬間、能力曲線は単に緩やかに上昇するだけではありません。「急上昇(スパイク)」することになるでしょう。

結論:転換点は想像するよりも近い

現時点ではまだギャップはありますが、その軌跡は明確であり、刻一刻と時間は過ぎています。「予測型」と「生成型」AIの間の壁は、今まさに崩れつつあります。

私たちは、過去のデータでモデルを訓練するだけの未来から、何千もの業界の「事前知識」を備えた基盤モデルに相談する未来へと急速に移行しています。私たちは、出力が単なる数値ではなく、その場で生成される高度でオーダーメイドなモデルとなる、統合されたデータサイエンスの景観へと向かっているのです。

この革命は完璧を待ってはいません。猛烈なスピードで完成に向かって反復を繰り返しています。この変化を認識し、完璧なモデルが市場に出回る前に生成AIを構造化データのための真剣なツールとして扱い始めるリーダーこそが、データサイエンスの次の10年を定義する存在となるでしょう。そして残された者たちは、すでにルールが変わってしまったゲームで後れを取り戻すことに追われることになるでしょう。

私たちDataRobotは、生成能力と予測精度の間のギャップを埋めるべく、これらの先端分野を積極的に研究しています。これは議論の始まりに過ぎません。近いうちに私たちの洞察と進捗をお伝えできることを楽しみにしています。続報をお待ちください。

それまでの間、DataRobotについてさらに詳しく学び、フリートライアルでプラットフォームを体験していただくことができます。

AI で迅速にビジネス価値向上を実現。今すぐ始めましょう。