Generative-Media-Skills:一套多模態工具組,讓 AI 代理透過結構化架構產生與編輯專業等級的媒體
Generative-Media-Skills:一套多模態工具組,讓 AI 代理透過結構化架構產生與編輯專業等級的媒體
它解決了什麼問題
本專案提供完整的工具組,讓 AI 代理(如 Claude Code、Cursor、Gemini CLI)能產生與編輯專業等級的圖像、影片與音訊。它彌合了高層次創意意圖與產出高品質多模態媒體所需的技術 API 呼叫之間的鴻溝,支援各式 AI 模型。
它如何運作
系統採用由 muapi-cli 驅動的 Core/Library 架構:
- 核心原語:對 CLI 的薄層封裝,用於原始 API 存取、檔案上傳、基本編輯與驗證。
- 專家函式庫:領域特定技能(例如電影導演、UI 設計師、標誌創作者),將創意目標轉換為技術指令。
- 配方套件:超過 40 個由大型語言模型協調的工作流程配方(例如將照片轉換為 3D 動作人物或製作電影級產品廣告),代理可依步驟指示執行。
- MCP 伺服器:Model Context Protocol 伺服器,直接向相容代理公開 19 個結構化工具,免除使用 shell script 的需求。
目標使用者
開發者與 AI 代理使用者,想將專業的多模態生成能力整合到其代理工作流程中,特別是使用 MCP 相容工具(如 Claude Desktop 或 Cursor)的使用者。
重點特色
- 代理原生設計:使用結構化 JSON 輸出與語意化退出代碼,實現無縫的管線整合。
- 廣泛模型支援:可存取 100 多種模型,包括 Midjourney v7、Flux、Kling 3.0 與 Veo3。
- 直接媒體顯示:提供
--view旗標,可自動在系統檢視器中開啟產生的媒體。 - 專業工作流程:為 AI 剪輯(長影片轉垂直短片)、時尚試穿與建築渲染等提供專屬管線。
Sources
- undefinedSamurAIGPT/Generative-Media-Skills