“Judging judges” 判断をさらに評価する：信頼できるLLM評価方法の構築とは

Event promo AI Experience 2025 Tokyo Japanese 970 250

本ブログはグローバルで発表された「Judging judges: Building trustworthy LLM evaluations」の抄訳版です。

LLMの回答をLLMで判断する”LLM-as-a-Judge”という仕組みは、もっともらしいが間違っている回答にだまされる可能性があり、チームは誤って判断されたモデルを使用してしまうことがあります。。そこで私たちは人間がラベル付けしたデータセットを作成し、オープンソースのフレームワーク「syftr」を使って、判断基準の設定を系統的にテストしました。その結果については、本ブログで詳しく説明しています。

しかし、最も重要なポイントは、判断結果をただ信用するのではなく、必ずテストを行うということです。

私たちのAIエージェントの検索拡張生成（RAG）フレームワークに、自社でホスティングしたオープンソースモデルを導入した際、はじめに得られた結果には非常に手応えを感じました。FinanceBenchのような難しいベンチマークでも、私たちのシステムは画期的な精度を達成しているように見えたのです。

しかし、その高揚感が続いたのは、LLM-as-a-Judgeがどのように回答を評価しているかを詳しく調べ、衝撃の真実が明らかになるまででした。

実は、新たな判断役はだまされていたのです。

例えば、RAGシステムが財務指標を計算するためのデータを見つけられなかった場合、単に「情報が見つかりません」と説明するだけです。

ところが、判断役のLLMはこのもっともらしい説明に対して満点を与え、「システムはデータの不在を正しく認識した」と結論づけていたのです。このたった一つの欠陥が、結果を10～20%も歪めていました。これは、平凡なシステムを最先端技術に見せかけるには十分な差です。

このことから、重要な疑問が浮かび上がりました。「判断役を信用できなければ、どうやって結果を信用できるのか？」

あなたが使っている判断役のLLMは、あなたをだましているかもしれません。そして、厳密にテストしなければ、そのことに気づくことはないでしょう。最高の判断役は、必ずしも最大かつ最も高価なモデルとは限りません。

しかし、適切なデータとツールを使えば、GPT-4o-miniよりも安価で、より正確で、より信頼性の高い判定を構築できます。この詳細な調査で、その方法を紹介します。

LLMによる判断が失敗する理由

私たちが発見した課題は、単純なバグをはるかに超えたものでした。生成されたコンテンツの評価は本質的に複雑なニュアンスを含むため、LLMによる判断は些細ながらも重大な失敗を犯しやすいのです。

私たちが最初に直面した問題は、判断が自信に満ちたもっともらしい推論に惑わされるという典型的なケースでした。たとえば、ある家系図に関する回答の評価で、判断役のLLMは次のように結論付けていました。

「生成された回答は適切であり、ある従兄弟を特定するのに十分な情報がないことを正しく認識しています… 参照回答は名前を挙げていますが、生成された回答の結論は、質問に必要なデータが不足しているという推論と一致しています。」

しかし、実際には情報は見つけられる状態にありました。単にRAGシステムがそれを取得できなかっただけです。判断役のLLMは、RAGシステムの回答の権威的な口調にだまされていました。

さらに詳しく調査を進めると、別の課題も見つかりました。

数値の曖昧さ: 3.9%という答えは、3.8%と比べて「十分に正しい」と言えるでしょうか？判断役のLLMには、その判断を下すための文脈情報が欠けていることがよくあります。
意味の同等性: 「APAC」は、「アジア太平洋地域：インド、日本、マレーシア、フィリピン、オーストラリア」の代用表現として許容できるものでしょうか？
誤った参照: 時には、「正解（ground truth）」そのものが間違っていることがあり、判断が矛盾した状況に陥ることがあります。

これらの失敗は、重要な教訓を浮き彫りにしています。単に強力なLLMを選んで採点を依頼するだけでは不十分だということです。より厳密なアプローチがなければ、人間であろうと機械であろうと、各判断の完全な合致は決して得られません。

信頼できる評価のためのフレームワークを構築する

これらの課題に対処するため、私たちは評価者を評価する方法を必要としていました。そのためには、以下の2つが必要でした。

人間の手でラベル付けされた、高品質な評価データセット
様々な設定の判断役LLMを準備し、それらを系統的にテストする仕組み

まず、私たちは独自のデータセットを作成しました。これは現在HuggingFaceで公開されています。様々なRAGシステムを使って、数百の質問、回答、LLMの応答のトリプレットを生成しました。

次に、私たちのチームが807件の全サンプルを手作業でラベル付けしました。

あらゆる特殊なケースについて議論を重ね、明確で一貫した採点ルールを確立しました。

このプロセス自体が、評価がいかに主観的になりうるかを痛感させるものとなりました。最終的には、私たちのラベル付きデータセットは、不合格の回答が37.6%、合格が62.4%という内訳になったのです。

判断をさらに評価するデータセット — この評価データセットは、syftrの研究を利用して作成されました。syftrは、レイテンシーと精度のパレートフロンティア上で、多様なエージェント型RAGフローを生成します。これらのフローは、多くの質問と正解のペアに対してLLMの応答を生成し、その後、人間の評価者がそれらの応答を参照回答と照らし合わせ、高品質な評価ラベルを付与しました。

次に、実験のためのソリューションが必要でした。そこで、私たちのオープンソースフレームワークsyftrが役立ちました。

私たちはsyftrを拡張し、新しいJudgeFlowクラスと、LLMの種類、温度（Temperature）、プロンプトの設計を変更できる、設定可能な探索空間を追加しました。これにより、人間の判断と最も一致する評価の設定を系統的に探索し、特定することが可能になりました。

判断役LLMのテストを開始

フレームワークが整ったところで、私たちは実験を始めました。

最初のテストでは、Master-RMというモデルに焦点を当てました。このモデルは、理にかなった表現よりも内容そのものを優先することで、「報酬ハッキング（reward hacking）」を回避するように特別に調整されています。

私たちは、このモデルをベースモデルと比較するため、以下の4つのプロンプトを使用しました。

1から5段階での評価を指示する、LlamaIndexの「CorrectnessEvaluator」のデフォルトプロンプト。
同じCorrectnessEvaluatorプロンプトで、1から10段階での評価を指示するもの。
より詳細な基準を明示した、CorrectnessEvaluatorプロンプトの拡張版。
「生成された回答が参照回答に対して正しければYES、そうでなければNOと返してください」というシンプルなプロンプト。

syftrによる最適化の結果を、コスト対精度のグラフで以下に示します。精度は、ジャッジと人間の評価者との単純な一致率です。コストは、Together.aiのホスティングサービスのトークンごとの料金に基づいて算出されています。

これは、異なる入力プロンプトと判断役のLLMによる精度対コストの比較です。各点は、特定のパラメーターを用いた試行のパフォーマンスを表しています。「詳細な（detailed）」プロンプトは、人による評価に最も近いパフォーマンスが得られますが、Together.aiのトークンごとのホスティング料金で計算すると、そのコストはかなり高くなります。 — これは、異なる入力プロンプトと判断役LLMによる精度対コストの比較です。各点は、特定のパラメーターを用いた試行のパフォーマンスを表しています。「詳細な（detailed）」プロンプトは、人による評価に最も近いパフォーマンスが得られますが、Together.aiのトークンごとのホスティング料金で計算すると、そのコストはかなり高くなります。

結果は驚くべきものでした。

Master-RMは、ベースモデルよりも精度が高くなく、特別にトレーニングされているために、「シンプルな」プロンプト形式以外の回答を生成するのが苦手でした。

このモデルの特別なトレーニングは、特定の理にかなった表現による影響を防ぐには効果的でした。しかし、私たちのデータセットにおける人間の判断との全体的な整合性は向上しませんでした。

また、明らかなトレードオフも見られました。「詳細な（detailed）」プロンプトは最も正確でしたが、トークン数がほぼ4倍になり、コストが大幅に高くなりました。

次に、私たちは規模を拡大し、Qwen、DeepSeek、Google、NVIDIAの大型オープンウェイトモデルのクラスターを評価し、判断役のLLMを構築する新たな戦略をテストしました。

ランダム（random）: 評価ごとに、プールの中からランダムに判断役のLLMを選びます。
コンセンサス（consensus）: 3つまたは5つのモデルに投票させ、多数決で判断します。

より大規模な研究から得られた最適化結果を、判断役LLMの種類とプロンプト別に分けています。このグラフは明確なパレートフロンティアを示しており、コストと精度の間でデータに基づいた選択が可能になります。

ここでは結果が収束しました。コンセンサスに基づく判断は、単一またはランダムな判断と比較して、精度面で優位性を示しませんでした。

3つの方法すべてが、人間のラベルとの一致率で約96%を上限としていました。全体的に、最も性能が良かった設定は「詳細な（detailed）」プロンプトを使用するものでした。

しかし、重要な例外がありました。シンプル（simple）なプロンプトをQwen/Qwen2.5-72B-Instructのような強力なオープンウェイトモデルと組み合わせると、詳細な（detailed）プロンプトよりもコストが20倍近く安価になり、精度はわずか数パーセントポイントしか低下しませんでした。

このソリューションが他と違う理由

長い間、私たちの経験則は「とにかくGPT-4o-miniを使え」というものでした。これは、信頼性の高い、既製の判断を求めるチームにとって一般的な近道です。そして、GPT-4o-miniは確かに優れたパフォーマンスを発揮しました（デフォルトのプロンプトで約93%の精度）。しかし、私たちの実験は、その限界を明らかにしました。それは、より広範なトレードオフ曲線上の一つの点に過ぎなかったのです。

系統的なアプローチを取ることで、単一のデフォルトの選択肢だけでなく、最適化された複数の選択肢を得ることができます。

コストを気にせず最高の精度を追求する：Qwen3-32B、DeepSeek-R1-Distill、Nemotron-Super-49Bなどのモデルと詳細なプロンプトを組み合わせたコンセンサスフローは、人間との一致率96%を達成しました。
手頃な価格で迅速なテストを行う：シンプルなプロンプトと単一のモデルを組み合わせることで、GPT-4o-miniをベースラインとした場合の5分の1のコストで、約93%の精度を実現しました。

精度、コスト、応答速度（レイテンシー）を最適化することで、一つの万能な判断にすべてを賭けるのではなく、各プロジェクトのニーズに合わせた情報に基づいた選択ができるようになります。

信頼できる判断を構築するための重要なポイント

私たちのフレームワークを使うかどうかにかかわらず、今回の調査結果は、より信頼性の高い評価システムを構築するのに役立ちます。

プロンプトが最大の鍵 人間との一致率を最も高くするには、評価基準を明確に記した詳細なプロンプトを使用してください。「良い回答」が何を意味するかをモデルが理解していると仮定してはいけません。
速度が重要ならシンプルなプロンプトが有効 コストや応答速度が最優先の場合、「生成された回答が参照回答に対して正しければYES、そうでなければNOと返してください」のようなシンプルなプロンプトを、有能なモデルと組み合わせることで、わずかな精度のトレードオフで、優れた価値を生み出します。
「委員会」は安定性をもたらす 精度が絶対に譲れない重要な評価では、3〜5個の多様で強力なモデルに投票させ、多数決で判断することで、偏りやノイズを減らせます。私たちの研究では、Qwen/Qwen3-32B、DeepSeek-R1-Distill-Llama-70B、そしてNVIDIAのNemotron-Super-49Bを組み合わせたコンセンサスフローが最高の精度を達成しました。
大規模で賢いモデルが役立つ より大規模なLLMは、一貫して小さなモデルを上回る性能を発揮しました。例えば、詳細なプロンプトを持つmicrosoft/Phi-4-multimodal-instruct（5.5B）を、シンプルなプロンプトを持つgemma3-27B-itにアップグレードすると、コストの差はごくわずかなのに、精度は8%向上しました。