Generative-Media-Skills：面向 AI 代理的多模态工具集，可通过基于模式的架构生成和编辑专业级媒体

Generative-Media-Skills：面向 AI 代理的多模态工具集，可通过基于模式的架构生成和编辑专业级媒体

解决的问题

本项目为 AI 代理（如 Claude Code、Cursor 和 Gemini CLI）提供了完整的工具集，用于生成和编辑专业级的图像、视频和音频。它弥合了高层创意意图与生成高质量多模态媒体所需的技术 API 调用之间的鸿沟，支持大量 AI 模型。

工作原理

系统基于 Core/Library 架构，由 muapi-cli 提供支持：

核心原语：围绕 CLI 的轻量包装，用于原始 API 访问、文件上传、基础编辑和身份验证。
专家库：领域特定技能（例如电影导演、UI 设计师、标志创作者），将创意目标转化为技术指令。
配方包：超过 40 条由大语言模型编排的工作流配方（例如将照片转换为 3D 动作人物或制作电影级产品广告），代理可按步骤执行。
MCP 服务器：模型上下文协议（Model Context Protocol）服务器，直接向兼容代理公开 19 种结构化工具，省去编写 shell 脚本的需求。

适用人群

希望在其代理工作流中集成专业多模态生成能力的开发者和 AI 代理用户，尤其是使用 MCP 兼容工具（如 Claude Desktop 或 Cursor）的人群。

亮点

代理原生设计：使用结构化 JSON 输出和语义退出码，实现流水线的无缝集成。
广泛的模型支持：可访问 100 多种模型，包括 Midjourney v7、Flux、Kling 3.0 和 Veo3。
直接媒体展示：提供 --view 参数，可自动在系统查看器中打开生成的媒体。
专用工作流：为 AI 剪辑（长视频转竖屏短片）、时尚试穿和建筑渲染等场景提供专门管线。

Sources

undefinedSamurAIGPT/Generative-Media-Skills