clearml: 실험 추적, 오케스트레이션 및 데이터 버전 관리를 위한 올인원 MLOps 스위트
clearml: 실험 추적, 오케스트레이션 및 데이터 버전 관리를 위한 올인원 MLOps 스위트
해결하고자 하는 문제
ClearML은 프로덕션 수준의 딥러닝 모델을 학습하는 "복잡한 프로세스"를 다루도록 설계되었습니다. 실험 추적, MLOps 오케스트레이션, 데이터 관리를 하나의 플랫폼에 통합하여 AI 워크플로우를 간소화하고, 연구 결과를 보존하고 모델을 프로덕션에 배포하는 데 필요한 노력을 크게 줄여줍니다.
작동 방식
ClearML은 세 가지 주요 런타임 구성 요소를 통해 동작합니다:
- ClearML Python Package: 기존 스크립트에 최소한의 코드 변경(대개 두 줄)만으로 통합되는 SDK로, 파라미터, 메트릭, 환경 정보를 자동으로 로깅합니다.
- ClearML Server: 실험, 모델, 워크플로우 데이터를 저장하는 중앙 허브이며, 관리와 자동화를 위한 웹 UI를 제공합니다.
- ClearML Agent: 원격 실행, 확장성, 실험 및 워크플로우 재현성을 가능하게 하는 오케스트레이션 도구입니다.
대상 사용자
PyTorch, TensorFlow, Keras, Scikit‑Learn와 같은 머신러닝·딥러닝 프레임워크를 사용하는 연구자와 개발자를 위해 설계되었으며, 협업, 실험 추적, 학습 파이프라인 자동화가 필요합니다.
주요 특징
- 자동 실험 추적: 소스 컨트롤 정보, 하이퍼파라미터, stdout/stderr, 리소스 모니터링(CPU/GPU), 모델 스냅샷을 자동으로 캡처합니다.
- MLOps/LLMOps 오케스트레이션: Kubernetes, 클라우드, 베어메탈에서 작업을 원격 실행할 수 있으며, EC2 인스턴스를 위한 AWS Auto‑Scaler를 포함합니다.
- 차별화된 데이터 관리: S3, GS, Azure, NAS와 같은 객체 스토리지에 저장된 데이터셋을 위한 버전 관리 솔루션입니다.
- 모델 서빙: Nvidia‑Triton을 통한 GPU 지원 모델 엔드포인트 배포와 내장 모니터링을 제공하는 확장 가능한 솔루션입니다.
- 하이퍼파라미터 최적화: 블랙박스 코드 최적화를 위한 베이지안 최적화 알고리즘이 통합되어 있습니다.
- 분할 GPU: 컨테이너 기반 드라이버 수준 GPU 메모리 제한을 통해 자원 활용도를 높입니다.
Sources
- undefinedclearml/clearml