Generative-Media-Skills: 스키마 기반 아키텍처를 통해 AI 에이전트가 전문 수준 미디어를 생성·편집할 수 있는 멀티모달 툴셋

해결하는 문제

이 프로젝트는 AI 에이전트(예: Claude Code, Cursor, Gemini CLI)가 전문 수준의 이미지, 비디오, 오디오를 생성·편집할 수 있도록 포괄적인 툴셋을 제공합니다. 다양한 AI 모델을 활용해 고품질 멀티모달 미디어를 만들기 위해 필요한 고수준 창작 의도와 기술적인 API 호출 사이의 격차를 메워줍니다.

작동 방식

시스템은 muapi-cli 로 구동되는 Core/Library 아키텍처를 기반으로 합니다:

Core Primitives: 원시 API 접근, 파일 업로드, 기본 편집, 인증 등을 담당하는 CLI 래퍼.
Expert Library: 영화 감독, UI 디자이너, 로고 제작자 등 도메인별 스킬로, 창작 목표를 기술 지시로 변환합니다.
Recipe Pack: 사진을 3D 액션 피규어로 변환하거나 시네마틱 제품 광고를 만드는 등 40개가 넘는 LLM 오케스트레이션 워크플로 레시피를 제공해 에이전트가 단계별 지침을 따를 수 있게 합니다.
MCP Server: Model Context Protocol 서버로, 19개의 구조화된 도구를 호환 에이전트에 직접 노출해 쉘 스크립트가 필요 없게 합니다.

대상 사용자

전문 멀티모달 생성 기능을 에이전트 워크플로에 통합하고자 하는 개발자와 AI 에이전트 사용자, 특히 Claude Desktop이나 Cursor와 같은 MCP 호환 도구를 사용하는 사람들을 위한 것입니다.

주요 특징

Agent-Native Design: 구조화된 JSON 출력과 의미론적 종료 코드를 사용해 파이프라인에 원활히 통합됩니다.
광범위한 모델 지원: Midjourney v7, Flux, Kling 3.0, Veo3 등 100개 이상의 모델에 접근할 수 있습니다.
직접 미디어 표시: --view 플래그를 통해 생성된 미디어를 시스템 뷰어에서 자동으로 열 수 있습니다.
전문화된 워크플로: AI 클리핑(긴 비디오를 세로 짧은 영상으로 변환), 패션 착용 시뮬레이션, 건축 렌더링 전용 파이프라인을 제공합니다.

Generative-Media-Skills: 스키마 기반 아키텍처를 통해 AI 에이전트가 전문 수준 미디어를 생성·편집할 수 있는 멀티모달 툴셋

Generative-Media-Skills: 스키마 기반 아키텍처를 통해 AI 에이전트가 전문 수준 미디어를 생성·편집할 수 있는 멀티모달 툴셋

해결하는 문제

작동 방식

대상 사용자

주요 특징

Sources