開源權重與閉源 LLM 之間的差距

開源與閉源 LLM 之間的性能差距

開源權重 LLM 與閉源前沿模型之間的差距，其特徵在於通用能力的持續落後，儘管在編碼等特定領域正經歷快速收斂。雖然單一指標分析可能顯示到 2026 年底將實現完全收斂，但透過多個基準測試進行更廣泛的觀察顯示，開源權重模型通常落後於閉源前沿模型約五個月。

衡量 LLM 的品質很困難，因為不同的基準測試對於開源權重模型的發展軌跡會產生截然不同的預測。

使用 Artificial Analysis Intelligence Index——一個旨在評估整體能力的指標性指數——數據顯示，開源權重與閉源模型之間的差距在 2024 年夏季開始縮小。對此趨勢進行線性投影，顯示該差距將在 2026 年 12 月 3 日達到零。

當分析擴展到 18 種不同的基準測試時，情況發生了變化。在這些多樣化指標中，每月開源前沿落後程度的箱線圖顯示，最佳擬合線幾乎完全是平的，這表明在測量期間內，存在著持續低於五個月的落後程度。

並非所有能力都在以相同的速率演進。開源權重模型最顯著的進步發生在編碼基準測試中，差距已從 15 個月縮小到僅一或兩個月。相比之下，大多數其他數據集顯示差距有所適度增加或落後程度停滯不前，這表明編碼是開源權重模型追趕得最有效的領域。

關於開源權重與閉源分歧的社群討論突顯了影響這些性能軌跡的幾個系統性因素：

一些分析師認為，總部位於美國的閉源模型透過由巨大的「教師模型」生成的、過大而無法用於處理互動流量的高品質合成數據來維持其領先地位。在這種觀點下，開源權重模型——特別是來自中國實驗室的模型——通常透過優化現有模型或從這些前沿模型中獲取數據來取得進展，而非發明新的數據系統。

閉源「模型」通常不僅僅是權重，而是整個後端系統。這使得閉源提供商能夠透過外部系統來增強模型，從而在基準測試中獲得更高的分數，而開源權重模型則是根據權重本身進行評估。

對於開源權重模型的長期可行性存在疑慮，因為它們目前是由私人組織而非社群擁有的基礎設施所產出的。

"對於任何時候都可以關閉水龍頭。在出現某種『社群擁有的硬體』之前，開源權重模型始終面臨被停止供應的風險。"

開源權重模型的作用通常被視為一種不對稱策略。一些貢獻者建議，中國實驗室使用開源來競爭並分擔計算負擔，而美國政府對非美國人訪問前沿模型的限制，可能會在無意中加速對競爭性開源權重替代方案的依賴與開發。