LongCat-2.0 MoE Model Analysis
LongCat-2.0 MoE Model Analysis
LongCat-2.0 是一個大規模混合專家 (MoE) 模型,總參數達 1.6 兆,其中 480 億為活躍參數。該模型代表了使用非 Nvidia 硬體擴展 AI 訓練與部署的重要嘗試,特別是利用 AI ASIC superpods 來處理超過 35 兆個 token 的預訓練。
Hardware Infrastructure and ASIC Scaling
LongCat-2.0 是在大型 AI ASIC superpods 集群上進行訓練與部署,而非使用標準的 Nvidia GPU 生態系統。這種架構選擇需要開發穩定、安全且具擴展性的基礎設施,以彌補與 GPU 相比較不成熟的軟體社群。
社群分析顯示,所使用的硬體可能是 Huawei Ascend 910C 晶片。一些估計指出使用了 1,024 個 Huawei Ascend superpods,這相當於大約 50,000 個 910C 晶片。這種向 ASIC 進行訓練與推理的轉向,被一些人視為規避 GPU 限制並降低運算成本的戰略舉措。
Architectural Influence and Technical Innovations
雖然 LongCat-2.0 是建立在現有研究的基礎之上——部分使用者注意到它與 DeepSeek V4 架構的相似性——但它在簡單的訓練後處理之外,引入了特定的技術貢獻。
N-gram Embedding
LongCat-2.0 最受討論的技術特性之一是其使用的 N-gram embedding。這種方法被視為未來模型的潛在協同效應,特別是當與低位元 (ternary 或 1-bit) 量化方法結合時,能進一步優化模型效率。
Performance and Community Feedback
早期的使用者測試與社群討論顯示,對於該模型的能力與可取得性,反應褒貶不一。
Reasoning and Accuracy
在涉及複雜核物理問題的對比測試中(特別是比較 U-235 與 Pu-241 燃料),據報導 LongCat-2.0 提供了一個推理充分但錯誤的答案。在相同的測試中,Qwen 3.7 Plus 與 Gemini Flash 提供了正確的答案,其中 Gemini Flash 以更高的信心度與速度而著稱。
Accessibility and Transparency
對於模型的可用性存在重大疑慮。使用者回報開發者提供的 Hugging Face 與 GitHub 連結均返回 404 錯誤,導致一些人質疑發布的透明度,以及模型權重是否會公開。
Operational Observations
使用者在互動過程中注意到了一些特定的行為特徵,例如即使應用程式語言設定為英文且啟用了 "Search" 功能,模型仍會以中文回傳結果。
Organizational Background
LongCat-2.0 與 Meituan(美團)有關聯,這是一家中國大型外送平台公司。該專案由 Meituan 的共同創辦人兼 CEO Wang Xing 領導,他在中國科技領域有著領導地位。