Chinese-CLIP:大型中文視覺語言模型,用於跨模態檢索與零樣本圖像分類
Chinese-CLIP:大型中文視覺語言模型,用於跨模態檢索與零樣本圖像分類
解決的問題
Chinese-CLIP 提供了 CLIP(Contrastive Language-Image Pre‑training)模型的中文版本。它解決了缺乏針對中文語言優化的高性能、大規模視覺語言模型的問題,從而支持跨模態檢索、零樣本圖像分類以及圖文相似度計算等任務。
工作原理
基於 open_clip 專案構建,Chinese-CLIP 在約 2 億條中文圖文對的大規模數據集上進行了訓練。它採用雙編碼器架構(視覺編碼器與文本編碼器),將兩種模態映射到共享的嵌入空間。該專案提供多種模型規模(從 RN50 到 ViT‑H‑14),並支援 FlashAttention、梯度累積以及 FLIP 訓練策略等先進的訓練優化,以提升效率與效能。
目標使用者
本專案面向從事中文多模態 AI 的開發者與研究者,特別是需要實現圖文檢索、自動圖像標註或中文零樣本分類的場景。
重點特色
- 大規模訓練:在約 2 億條中文圖文對上進行訓練。
- 多種模型尺寸:提供五種不同規模,包括 ResNet50 以及多種 Vision Transformer(ViT)配置。
- 部署就緒:支援 ONNX、TensorRT 與 CoreML,實現更快的推理與部署。
- 彈性訓練:支援知識蒸餾微調、分散式訓練與梯度檢查點,以提升記憶體效率。
Sources
- undefinedOFA-Sys/Chinese-CLIP