ODS: GPU 감지 및 서비스 오케스트레이션을 자동화하는 원-커맨드 로컬 AI 서버 스택
ODS: GPU 감지 및 서비스 오케스트레이션을 자동화하는 원-커맨드 로컬 AI 서버 스택
해결하는 문제
ODS (Osmantic Deployment System)는 프라이빗한 로컬 AI 서버를 구축하는 과정을 단순화합니다. 추론, 채팅 인터페이스 및 자동화를 위해 여러 개의 별도 도구를 수동으로 구성하는 대신, ODS는 단일 명령어로 설치를 진행하여 사용자의 하드웨어에 완전한 AI 스택을 연결하며, 데이터와 프롬프트의 프라이버시를 보장합니다.
작동 방식
ODS는 모듈형 설치 프로그램을 사용하여 GPU (NVIDIA, AMD, Intel Arc, 또는 Apple Silicon)를 감지하고, 사용 가능한 VRAM 또는 RAM을 기반으로 가장 적합한 LLM을 자동으로 선택합니다. Docker 및 네이티브 바이너리 (macOS Metal 가속을 위한 llama-server 등)를 사용하여 사전 구성된 서비스 세트를 배포합니다.
대기 시간을 최소화하기 위해, 전체 크기의 모델이 백그라운드에서 다운로드되는 동안 즉시 채팅을 시작할 수 있도록 아주 작은 모델을 먼저 다운로드하는 "bootstrap mode"를 채택하고 있습니다.
대상 사용자
컴퓨터 공학 학위나 CUDA 드라이버 및 Docker 구성에 대한 광범위한 경험 없이도 프라이빗한 AI 홈랩 또는 워크스테이션을 구축하고자 하는 개인을 위해 설계되었습니다.
주요 특징
- One-Command Setup: Linux, macOS, 및 Windows를 위한 자동화된 GPU 감지 및 서비스 오케스트레이션.
- Full-Service Stack: 채팅을 위한 Open WebUI, 추론을 위한 llama-server, 워크플로우를 위한 n8n, RAG를 위한 Qdrant, 그리고 이미지 생성을 위한 ComfyUI를 포함합니다.
- Hardware-Aware: 성능 최적화를 위해 하드웨어 티어를 특정 GGUF 모델에 자동으로 매핑합니다.
- Extensible Architecture: 서비스는 확장 기능으로 취급되어, 사용자가 매니페스트 시스템을 통해 새로운 도구를 쉽게 추가하거나 활성화/비활성화할 수 있습니다.
- Privacy-First: 기본적으로 완전히 로컬에서 실행되지만, LiteLLM을 통해 선택적인 클라우드/하이브리드 모드를 사용할 수 있습니다.
Sources
- undefinedLight-Heart-Labs/ODS