Chinese-CLIP: クロスモーダル検索とゼロショット画像分類のための大規模中国語ビジョン・ランゲージ・モデル

Chinese-CLIP: クロスモーダル検索とゼロショット画像分類のための大規模中国語ビジョン・ランゲージ・モデル

何を解決するか

Chinese-CLIPは、CLIP (Contrastive Language-Image Pre-training) モデルの中国語版を提供します。これは、中国語に特化して最適化された高性能かつ大規模なビジョン・ランゲージ・モデルの不足という課題に対処し、クロスモーダル検索、ゼロショット画像分類、画像とテキストの類似度計算などのタスクを可能にします。

仕組み

open_clip プロジェクトに基づいて構築された Chinese-CLIPは、約2億組の中国語の画像・テキストペアを含む大規模なデータセットで学習されています。ビジョン用とテキスト用のデュアルエンコーダー・アーキテクチャ(それぞれ1つずつ)を使用して、両方のモダリティを共有の埋め込み空間にマッピングします。このプロジェクトは、さまざまなモデルスケール(RN50からViT-H-14まで)を提供し、FlashAttention、勾配累積、FLIP学習戦略などの高度な学習最適化を技術的にサポートしています。

対象者

このプロジェクトは、中国語のマルチモーダルAIに取り組む開発者や研究者、特に中国語での画像・テキスト検索、自動画像タグ付け、またはゼロショット分類を実装する必要がある方を対象としています。

ハイライト

  • 大規模学習: 約2億組の中国語の画像・テキストペアで学習。
  • 複数のモデルサイズ: ResNet50やさまざまなVision Transformer (ViT) 構成を含む、5つの異なるスケールを提供。
  • デプロイメント準備完了: 高速な推論とデプロイのために、ONNX、TensorRT、および CoreML のサポートを含みます。
  • 柔軟な学習: 知識蒸留によるファインチューニング、分散学習、およびメモリ効率を高めるための勾配チェックポインティングをサポート。

Sources