Generative-Media-Skills：一套多模態工具組，讓 AI 代理透過結構化架構產生與編輯專業等級的媒體

Generative-Media-Skills：一套多模態工具組，讓 AI 代理透過結構化架構產生與編輯專業等級的媒體

它解決了什麼問題

本專案提供完整的工具組，讓 AI 代理（如 Claude Code、Cursor、Gemini CLI）能產生與編輯專業等級的圖像、影片與音訊。它彌合了高層次創意意圖與產出高品質多模態媒體所需的技術 API 呼叫之間的鴻溝，支援各式 AI 模型。

它如何運作

系統採用由 muapi-cli 驅動的 Core/Library 架構：

核心原語：對 CLI 的薄層封裝，用於原始 API 存取、檔案上傳、基本編輯與驗證。
專家函式庫：領域特定技能（例如電影導演、UI 設計師、標誌創作者），將創意目標轉換為技術指令。
配方套件：超過 40 個由大型語言模型協調的工作流程配方（例如將照片轉換為 3D 動作人物或製作電影級產品廣告），代理可依步驟指示執行。
MCP 伺服器：Model Context Protocol 伺服器，直接向相容代理公開 19 個結構化工具，免除使用 shell script 的需求。

目標使用者

開發者與 AI 代理使用者，想將專業的多模態生成能力整合到其代理工作流程中，特別是使用 MCP 相容工具（如 Claude Desktop 或 Cursor）的使用者。

重點特色

代理原生設計：使用結構化 JSON 輸出與語意化退出代碼，實現無縫的管線整合。
廣泛模型支援：可存取 100 多種模型，包括 Midjourney v7、Flux、Kling 3.0 與 Veo3。
直接媒體顯示：提供 --view 旗標，可自動在系統檢視器中開啟產生的媒體。
專業工作流程：為 AI 剪輯（長影片轉垂直短片）、時尚試穿與建築渲染等提供專屬管線。

Sources

undefinedSamurAIGPT/Generative-Media-Skills