新しいGPT-OSSモデルはどれくらい優れているのか？テストしてみました。

Event promo AI Experience 2025 Tokyo Japanese 970 250

本ブログがグローバルで公開された「Are the New GPT-OSS Models Any Good? We put them to the test.」の抄訳版です。

OpenAIは2019年のGPT-2以来、オープンウェイトの言語モデルをリリースしていませんでした。しかし6年後、彼らは2つのモデルで我々を驚かせました。gpt-oss-120bと、より小さいgpt-oss-20bです。

当然、我々は疑問に思いました — これらのモデルは実際にどれほどの性能なのでしょうか？

それを知るために、我々は両方のモデルをオープンソースのワークフロー最適化フレームワークであるsyftrでテストしました。syftrは、速度とコスト、精度の高低など、さまざまな設定でモデルを評価し、OpenAIの新しい「思考努力（thinking effort）」設定にも対応しています。

理論上は、思考努力が多ければ多いほど、より良い答えが得られるはずです。しかし、実際にはどうでしょうか？

我々はsyftrを使って、「LLM-as-a-Judgeは実際に機能しているのか？」や「多くのデータセットで優れたパフォーマンスを発揮するワークフローは何か？」といった問いも探求しています。

GPT-OSSに関する我々の最初の結果は、あなたを驚かせるかもしれません。最高のパフォーマーは、最大のモデルでも、最も深く思考するモデルでもありませんでした。

代わりに、低い思考努力の20bモデルが、パレートフロンティア上で一貫して最良の結果を示し、FinanceBench、HotpotQA、MultihopRAGのようなベンチマークでは120bの中程度の思考努力設定にさえ匹敵しました。一方で、高い思考努力が重要になることはほとんどありませんでした。

実験のセットアップ方法

我々はGPT-OSSを単独で評価したわけではありません。他の強力なオープンウェイトモデルと比較して、その実力を確認したいと考えました。そこで、gpt-oss-20bとgpt-oss-120bを以下のモデルと比較しました。

qwen3-235b-a22b
glm-4.5-air
nemotron-super-49b
qwen3-30b-a3b
gemma3-27b-it
phi-4-multimodal-instruct

OpenAIの新しい「思考努力」機能をテストするために、我々は各GPT-OSSモデルを低、中、高の3つのモードで実行しました。これにより、合計6つの設定で評価を行いました。

gpt-oss-120b-low / -medium / -high
gpt-oss-20b-low / -medium / -high

評価には、5つのRAGおよびエージェントモード、16の埋め込みモデル、そしてさまざまなフロー設定オプションという幅広い網をかけました。モデルの応答を判定するために、我々はGPT-4o-miniを使用し、既知の正解と比較しました。

最後に、4つのデータセットでテストを実施しました。

FinanceBench（金融分野の推論）
HotpotQA（マルチホップQA）
MultihopRAG（検索拡張推論）
PhantomWiki（合成Q&Aペア）

我々は、ワークフローを精度とレイテンシー、そして精度とコストの2つの側面で最適化しました。これにより、実際の業務で最も重要となるトレードオフを捉えることができます。

レイテンシー、コスト、精度の最適化

GPT-OSSモデルを最適化した際、我々は精度 vs レイテンシーと精度 vs コストという2つのトレードオフに着目しました。その結果は、予想以上に驚くべきものでした。

GPT-OSS 20b（低い思考努力）:
高速で安価、そして一貫して高精度。この設定はパレートフロンティア上に繰り返し現れ、ほとんどの非科学的なタスクにおいて最良のデフォルト選択肢となりました。これは、より高い思考努力の設定と比較して、応答が速く、コストが低いことを意味します。
GPT-OSS 120b（中程度の思考努力）:
金融ベンチマークのような、より深い推論を必要とするタスクに最適です。複雑な問題に対する精度がコストよりも重要な場合に使用します。
GPT-OSS 120b（高い思考努力）:
高価で、ほとんどの場合不要です。他のモデルが対応できないエッジケースのためにとっておくべきでしょう。我々のベンチマークでは、付加価値はありませんでした。

結果をより注意深く読み解く

一見すると、結果は単純明快に見えます。しかし、重要なニュアンスがあります。LLMの最高精度スコアは、モデル自体だけでなく、オプティマイザーが他のモデルとの組み合わせの中でどのように重み付けするかに依存します。これを説明するために、FinanceBenchを見てみましょう。

まず、レイテンシー（応答速度）を優先して最適化した場合です。このシナリオでは、「高い思考努力」設定を除き、どのGPT-OSSモデルも似たようなパレートフロンティアを描きました。20bの「低い思考努力」設定の最高精度は51%と他と大差なかったため、オプティマイザーから見れば、これを積極的に選択するだけの決め手に欠けていたのです。

FinanceBenchにおけるレイテンシー最適化のためのPer LLMパレートフロンティア

ところが、コストを最適化の軸に据えると、様相は一変します。先ほどの20b「低い思考努力」設定の精度は57%まで跳ね上がりました。対照的に、120b「中程度の思考努力」設定の精度は22%も低下するという逆転現象が起きたのです。この理由は明快です。20bモデルがはるかに安価なため、コストという評価軸においてオプティマイザーがより大きな重みを置いた、というわけです。

FinanceBenchにおけるコスト最適化のためのPer LLMパレートフロンティア

ここから得られる教訓は、パフォーマンスはコンテキストに依存するということです。レイテンシー、コスト、精度のいずれを優先するかによって、オプティマイザーは異なるモデルを選択します。そして、考えられる設定の膨大な検索スペースを考えると、我々がテストしたものを超える、さらに優れた設定が存在する可能性があります。

あなたの環境でうまく機能するエージェントワークフローを見つける

新しいGPT-OSSモデルは、我々のテストで強力なパフォーマンスを示しました。特に、低い思考努力の20bモデルは、より高価な競合をしばしば上回りました。ここから得られるより大きな教訓は、モデルのサイズや思考努力が常に精度向上につながるわけではないということです。時には、より多くのお金を払うことで、得られるものが少なくなることさえあります。

これこそが、我々がsyftrを構築し、オープンソースにした理由です。すべてのユースケースは異なり、あなたにとって最適なワークフローは、あなたが最も重視するトレードオフに依存します。より低いコストを求めますか？より速い応答を求めますか？それとも最高の精度を求めますか？

ぜひご自身で実験を行い、あなたの環境における優先事項のバランスをとるパレートのスイートスポットを見つけてください。

See other posts in AIエージェント

ブログ

“Judging judges” 判断をさらに評価する：信頼できるLLM評価方法の構築とは

続きはこちら

2025年9月29日

| 推定読書時間 4 分