LongCat-2.0 MoE Model Analysis

LongCat-2.0 是一個大規模混合專家 (MoE) 模型，總參數達 1.6 兆，其中 480 億為活躍參數。該模型代表了使用非 Nvidia 硬體擴展 AI 訓練與部署的重要嘗試，特別是利用 AI ASIC superpods 來處理超過 35 兆個 token 的預訓練。

Hardware Infrastructure and ASIC Scaling

LongCat-2.0 是在大型 AI ASIC superpods 集群上進行訓練與部署，而非使用標準的 Nvidia GPU 生態系統。這種架構選擇需要開發穩定、安全且具擴展性的基礎設施，以彌補與 GPU 相比較不成熟的軟體社群。

社群分析顯示，所使用的硬體可能是 Huawei Ascend 910C 晶片。一些估計指出使用了 1,024 個 Huawei Ascend superpods，這相當於大約 50,000 個 910C 晶片。這種向 ASIC 進行訓練與推理的轉向，被一些人視為規避 GPU 限制並降低運算成本的戰略舉措。

Architectural Influence and Technical Innovations

雖然 LongCat-2.0 是建立在現有研究的基礎之上——部分使用者注意到它與 DeepSeek V4 架構的相似性——但它在簡單的訓練後處理之外，引入了特定的技術貢獻。

N-gram Embedding

LongCat-2.0 最受討論的技術特性之一是其使用的 N-gram embedding。這種方法被視為未來模型的潛在協同效應，特別是當與低位元 (ternary 或 1-bit) 量化方法結合時，能進一步優化模型效率。

Performance and Community Feedback

早期的使用者測試與社群討論顯示，對於該模型的能力與可取得性，反應褒貶不一。

Reasoning and Accuracy

在涉及複雜核物理問題的對比測試中（特別是比較 U-235 與 Pu-241 燃料），據報導 LongCat-2.0 提供了一個推理充分但錯誤的答案。在相同的測試中，Qwen 3.7 Plus 與 Gemini Flash 提供了正確的答案，其中 Gemini Flash 以更高的信心度與速度而著稱。

Accessibility and Transparency

對於模型的可用性存在重大疑慮。使用者回報開發者提供的 Hugging Face 與 GitHub 連結均返回 404 錯誤，導致一些人質疑發布的透明度，以及模型權重是否會公開。

Operational Observations

使用者在互動過程中注意到了一些特定的行為特徵，例如即使應用程式語言設定為英文且啟用了 "Search" 功能，模型仍會以中文回傳結果。

Organizational Background

LongCat-2.0 與 Meituan（美團）有關聯，這是一家中國大型外送平台公司。該專案由 Meituan 的共同創辦人兼 CEO Wang Xing 領導，他在中國科技領域有著領導地位。

LongCat-2.0 MoE Model Analysis

LongCat-2.0 MoE Model Analysis

Hardware Infrastructure and ASIC Scaling

Architectural Influence and Technical Innovations

N-gram Embedding

Performance and Community Feedback

Reasoning and Accuracy

Accessibility and Transparency

Operational Observations

Organizational Background

Sources