Chinese-CLIP：大型中文視覺語言模型，用於跨模態檢索與零樣本圖像分類

解決的問題

Chinese-CLIP 提供了 CLIP（Contrastive Language-Image Pre‑training）模型的中文版本。它解決了缺乏針對中文語言優化的高性能、大規模視覺語言模型的問題，從而支持跨模態檢索、零樣本圖像分類以及圖文相似度計算等任務。

工作原理

基於 open_clip 專案構建，Chinese-CLIP 在約 2 億條中文圖文對的大規模數據集上進行了訓練。它採用雙編碼器架構（視覺編碼器與文本編碼器），將兩種模態映射到共享的嵌入空間。該專案提供多種模型規模（從 RN50 到 ViT‑H‑14），並支援 FlashAttention、梯度累積以及 FLIP 訓練策略等先進的訓練優化，以提升效率與效能。

目標使用者

本專案面向從事中文多模態 AI 的開發者與研究者，特別是需要實現圖文檢索、自動圖像標註或中文零樣本分類的場景。

重點特色

大規模訓練：在約 2 億條中文圖文對上進行訓練。
多種模型尺寸：提供五種不同規模，包括 ResNet50 以及多種 Vision Transformer（ViT）配置。
部署就緒：支援 ONNX、TensorRT 與 CoreML，實現更快的推理與部署。
彈性訓練：支援知識蒸餾微調、分散式訓練與梯度檢查點，以提升記憶體效率。

Chinese-CLIP：大型中文視覺語言模型，用於跨模態檢索與零樣本圖像分類

Chinese-CLIP：大型中文視覺語言模型，用於跨模態檢索與零樣本圖像分類

解決的問題

工作原理

目標使用者

重點特色

Sources