オープンウェイトとクローズドソースLLMのギャップ

オープンとクローズドLLMの性能ギャップ

オープンウェイトLLMとクローズドソースの最先端モデルとのギャップは、全体的な能力において一貫した遅れが見られますが、コーディングなど特定の領域では急速に収束しつつあります。単一指標の分析だけを見ると2026年末までに完全に収束すると示唆されますが、複数のベンチマークを横断的に見ると、オープンウェイトモデルは概ねクローズドソースの最先端より約5か月遅れで推移しています。

ベンチマークに基づく予測の相違

LLMの品質測定は難しく、ベンチマークごとにオープンウェイトモデルの今後の軌跡に対する予測が大きく異なります。

急速収束のケース

Artificial Analysis Intelligence Index（全体的な能力を評価するヘッドライン指標）を用いると、オープンウェイトとクローズドソースモデルのギャップは2024年夏に縮小し始めたことがデータで示されています。この傾向を線形予測すると、ギャップは2026年12月3日までにゼロになると見込まれます。

一定遅れのケース

18種類のベンチマークに拡張して分析すると、状況は変わります。これら多様な指標における月次オープンフロンティア遅延の箱ひげ図は、ほぼ水平な最適直線を示しており、測定期間中に約5か月未満の一定遅れが続いていることが分かります。

ドメイン別の進捗：コーディング例外

すべての能力が同じ速度で進化しているわけではありません。オープンウェイトモデルで最も顕著な改善が見られたのはコーディングベンチマークで、ギャップは15か月から1〜2か月にまで縮小しました。対照的に、他の多くのデータセットではギャップがやや拡大したり、遅れが停滞したりしており、コーディングがオープンウェイトモデルが最も効果的に追いついている領域であることが示唆されます。

技術的・地政学的考慮事項

オープンウェイトとクローズドソースの分断に関するコミュニティ議論は、これらの性能軌道に影響を与えるいくつかの体系的要因を浮き彫りにしています。

データ調達と合成データ

一部のアナリストは、米国ベースのクローズドソースモデルが、インタラクティブトラフィックに対応できないほど巨大な「教師モデル」から生成される高品質な合成データの作成によってリードを維持していると主張しています。この見方では、特に中国の研究所からのオープンウェイトモデルは、既存モデルの最適化や最先端モデルからのデータ収集によって進歩しており、独自のデータシステムを発明しているわけではありません。

クローズドモデルの体系的優位性

クローズドソースの「モデル」はしばしばウェイトだけでなく、バックエンド全体のシステムを指します。これにより、クローズドソース提供者は外部システムを組み合わせてベンチマークで高得点を取ることが可能ですが、オープンウェイトモデルはウェイト単体で評価されます。

オープンウェイトの持続可能性

オープンウェイトモデルは現在、コミュニティ所有のインフラではなく民間組織によって生産されているため、長期的な存続可能性に懸念があります。

"水道の蛇口はいつでも止められる。'コミュニティ所有のハードウェア'ができるまで、オープンウェイトモデルは常に中止のリスクにさらされている。"

地政学的影響

オープンウェイトモデルの役割はしばしば非対称戦略として見られます。一部の貢献者は、中国の研究所がオープンソースを利用して競争し、計算リソースの負担を分散させていると指摘し、米国政府が非米国人への最先端モデルへのアクセスを制限することが、結果的に競争的なオープンウェイト代替への依存と開発を加速させている可能性があると述べています。

要約: Artificial Analysis Intelligence Index の分析によれば、オープンウェイトLLMはコーディングなど特定領域で急速にギャップを縮小しているものの、クローズドソースの最先端モデルに対する全体的な性能遅れは約5か月と比較的一定のままです。

タイトル: オープンウェイトとクローズドソースLLMのギャップ

オープンウェイトとクローズドソースLLMのギャップ

オープンウェイトとクローズドソースLLMのギャップ

オープンとクローズドLLMの性能ギャップ

ベンチマークに基づく予測の相違

急速収束のケース

一定遅れのケース

ドメイン別の進捗：コーディング例外

技術的・地政学的考慮事項

データ調達と合成データ

クローズドモデルの体系的優位性

オープンウェイトの持続可能性

地政学的影響

Sources