Chinese-CLIP: 교차 모달 검색 및 제로샷 이미지 분류를 위한 대규모 중국어 시각-언어 모델

해결하는 문제

Chinese-CLIP은 CLIP (Contrastive Language-Image Pre-training) 모델의 중국어 버전입니다. 중국어에 특화되어 최적화된 고성능 대규모 시각-언어 모델의 부족 문제를 해결하며, 교차 모달 검색, 제로샷 이미지 분류, 이미지-텍스트 유사도 계산과 같은 작업을 가능하게 합니다.

작동 방식

open_clip 프로젝트를 기반으로 구축된 Chinese-CLIP은 약 2억 개의 중국어 이미지-텍스트 쌍으로 구성된 대규모 데이터셋으로 학습되었습니다. 이 모델은 이중 인코더 아키텍처(시각용 하나, 텍스트용 하나)를 사용하여 두 모달리티를 공유된 임베딩 공간으로 매핑합니다. 이 프로젝트는 다양한 모델 규모(RN50부터 ViT-H-14까지)를 제공하며, 효율성과 성능을 향상시키기 위해 FlashAttention, gradient accumulation, FLIP 학습 전략과 같은 고급 학습 최적화 기술을 지원합니다.

대상 사용자

이 프로젝트는 중국어 멀티모달 AI를 다루는 개발자와 연구자, 특히 중국어로 이미지-텍스트 검색, 자동 이미지 태깅 또는 제로샷 분류를 구현해야 하는 분들을 위해 설계되었습니다.

주요 특징

대규모 학습: 약 2억 개의 중국어 이미지-텍스트 쌍으로 학습되었습니다.
다양한 모델 크기: ResNet50 및 다양한 Vision Transformer (ViT) 구성을 포함하여 다섯 가지의 서로 다른 규모를 제공합니다.
배포 준비 완료: 더 빠른 추론 및 배포를 위해 ONNX, TensorRT, CoreML 지원을 포함합니다.
유연한 학습: 지식 증류(knowledge distillation) 미세 조정, 분산 학습, 메모리 효율성을 위한 gradient checkpointing을 지원합니다.

Chinese-CLIP: 교차 모달 검색 및 제로샷 이미지 분류를 위한 대규모 중국어 시각-언어 모델

Chinese-CLIP: 교차 모달 검색 및 제로샷 이미지 분류를 위한 대규모 중국어 시각-언어 모델

해결하는 문제

작동 방식

대상 사용자

주요 특징

Sources