精度、コスト、および実世界でのパフォーマンスのバランスを、NVIDIA Nemotron モデルで最適化する

Speaker session 3 speakers Japanese 1200 630

本ブログは「Balancing accuracy, cost, and real‑world performance with NVIDIA Nemotron models」の抄訳版です。

毎週のように新しいモデルが数十ものベンチマークとともにリリースされています。しかし、この状況は、実際にどのモデルを使うべきか判断を迫られる実務者にとって、何を意味するのでしょうか？新しいモデルの品質をどうやって評価すればいいのでしょう？そして、ベンチマークで示される「推論能力」のような指標は、実際の業務において、どのように実用的な価値へと結びつくのでしょうか？

このブログでは、新しく発表されたNVIDIA Llama Nemotron Super 49B 1.5モデルを詳しく見ていきます。DataRobotが開発した生成AIの探索・評価フレームワークであるsyftrを使って、実際のビジネス課題に基づいた分析を行い、複数の目標を同時に考慮する際に生じるトレードオフを探求します。

1,000以上のワークフローを検証した結果、このモデルが特に力を発揮する具体的なユースケースについて、実行可能なガイダンス（actionable guidance）をお伝えします。

パラメーター数は重要だが、それがすべてではない

LLM（大規模言語モデル）の運用コストの多くが、パラメーター数によって決まるのは当然のことです。モデルの重みをメモリに読み込み、キーバリュー（KV）行列をキャッシュする必要があるからです。

一般的に、モデルが大きければ大きいほど性能は向上します。最先端のモデルがほぼ例外なく巨大なのはこのためです。GPUの進化は、こうした巨大なモデルの実現を可能にし、AIの台頭を支える基盤となりました。

単に規模が大きければパフォーマンスが良いとは限りません。

新しい世代のモデルは、パラメーター数が同じでも、前世代の大型モデルを上回る性能を発揮することがよくあります。NVIDIAのNemotronモデルがその良い例です。これらのモデルは、既存のオープンモデルをベースに、不要なパラメーターを削減（プルーニング）し、知識蒸留（Knowledge Distillation）によって新たな機能を抽出して作られています。

つまり、より小さなNemotronモデルでも、推論速度の向上、メモリ使用量の削減、より強力な推論能力といった点で、大型の先行モデルよりも優れた結果を出せるのです。

私たちは、このトレードオフを定量的に評価したいと考えました。特に、現行世代の最大規模モデルと比較して、Nemotronがどれだけ精度が高く、どれだけ効率的であるかを検証するため、モデルをクラスターに読み込んで分析を行いました。

精度とコストの評価方法

ステップ1：課題の設定

モデルの準備が整ったところで、次に必要となったのは実世界に即した課題です。それは、エージェント型AIのフローの中で、モデルの推論能力、理解力、そしてパフォーマンスを試すことができるものである必要があります。ものです。

一人の新人財務アナリストが、ある企業について急いで調べようとしている場面を想像してみてください。このアナリストは、「ボーイング社の2022年度の売上総利益率は改善していますか？」のような質問に答えられる必要があります。

それだけでなく、その指標の重要性も説明できなければなりません。「もし売上総利益率が有用な指標でないなら、その理由を説明してください」といった指標そのものへの妥当性にも答えられる必要があります。

そこで、モデルをテストするために、エージェント型AIフローを通じて提供されたデータを統合的に分析させ、いかに効率的かつ正確に答えを導き出せるか、その能力を測定することにしました。

この両方の種類の質問に正しく答えるためには、モデルは以下のことを行う必要があります。

複数の財務書類（年次報告書や四半期報告書など）からデータを取得する
複数の期間にわたる数値を比較・解釈する
文脈に基づいた説明を統合する

まさにこの種の課題を解決するために作られたのが、FinanceBenchというベンチマークです。これは、企業の財務書類と、専門家が検証した質問と回答を組み合わせたものです。このため、現実の企業ワークフローを非常にうまく模倣しており、私たちはこのベンチマークをテスト環境として使用しました。

ステップ2：モデルをワークフローへ

このような状況でテストを行うには、単にプロンプトを工夫するだけでなく、ワークフロー全体を構築し、理解する必要があります。モデルに適切なコンテキスト（文脈情報）を渡せるようにするためです。

そして、新しいモデルとワークフローの組み合わせを評価するたびに、この作業を繰り返さなければなりません。

そこで私たちは、syftrを使って、数百もの異なるモデルとワークフローを実行し、そのトレードオフを素早く見つけることにしました。その結果、以下に示すような、最適な性能とコストのバランスを持つワークフロー（パレート最適フロー）を見つけ出すことができたのです。

グラフの左下に見られるのは、別のモデルを統合用として使ったシンプルな処理の流れです。これらは実行コストは抑えられるのですが、精度は劣ります。

一方、右上は最も精度が高いグループです。ただ、これらはコストも高くなります。なぜなら、質問を複数のタスクに分解し、何度もLLMを呼び出し、それぞれを個別に分析するエージェント型の手法に頼っているからです。推論を行うには、コストを抑えるために、効率的なコンピューティングと最適化が必要となるのはこのためです。

Nemotronは、このグループに強力に食い込んでおり、パレートフロンティア（性能とコストの最適バランスを示す曲線）の残りの部分でも優位性を示しています。