Generative-Media-Skills: スキーマ駆動アーキテクチャを通じて AI エージェントがプロフェッショナル品質のメディアを生成・編集できるマルチモーダルツールセット
Generative-Media-Skills: スキーマ駆動アーキテクチャを通じて AI エージェントがプロフェッショナル品質のメディアを生成・編集できるマルチモーダルツールセット
解決する課題
このプロジェクトは、Claude Code、Cursor、Gemini CLI などの AI エージェント向けに、プロフェッショナル品質の画像、動画、音声を生成・編集するための包括的なツールセットを提供します。高度なクリエイティブ意図と、高品質なマルチモーダルメディアを生成するために必要な技術的 API 呼び出しとの間のギャップを埋め、さまざまな AI モデルを活用できるようにします。
仕組み
システムは muapi-cli によって駆動される Core/Library アーキテクチャ上に構築されています。
- Core Primitives: 生の API アクセス、ファイルアップロード、基本的な編集、認証を扱う CLI の薄いラッパー。
- Expert Library: クリエイティブな目標を技術的指示に変換するドメイン固有スキル(例: シネマディレクター、UI デザイナー、ロゴクリエイター)。
- Recipe Pack: 40 以上の LLM オーケストレーションワークフローレシピ(例: 写真を 3D アクションフィギュアに変換、シネマティックな商品広告を作成)を提供し、エージェントはステップバイステップの指示として実行できます。
- MCP Server: Model Context Protocol サーバーで、19 個の構造化ツールを互換性のあるエージェントに直接公開し、シェルスクリプトの必要性を排除します。
対象ユーザー
プロフェッショナルなマルチモーダル生成機能をエージェントワークフローに統合したい開発者および AI エージェント利用者向けです。特に Claude Desktop や Cursor など、MCP 互換ツールを使用している方に適しています。
ハイライト
- Agent-Native Design: 構造化 JSON 出力とセマンティックな終了コードを使用し、パイプラインへのシームレスな統合を実現。
- Extensive Model Support: Midjourney v7、Flux、Kling 3.0、Veo3 など、100 以上のモデルにアクセス可能。
- Direct Media Display:
--viewフラグを付けるだけで、生成されたメディアをシステムビューアで自動的に開きます。 - Specialized Workflows: AI クリッピング(長尺動画を縦型ショートへ変換)、ファッション試着、建築レンダリングなど、専用パイプラインを提供。
Sources
- undefinedSamurAIGPT/Generative-Media-Skills