Generative-Media-Skills:面向 AI 代理的多模态工具集,可通过基于模式的架构生成和编辑专业级媒体
Generative-Media-Skills:面向 AI 代理的多模态工具集,可通过基于模式的架构生成和编辑专业级媒体
解决的问题
本项目为 AI 代理(如 Claude Code、Cursor 和 Gemini CLI)提供了完整的工具集,用于生成和编辑专业级的图像、视频和音频。它弥合了高层创意意图与生成高质量多模态媒体所需的技术 API 调用之间的鸿沟,支持大量 AI 模型。
工作原理
系统基于 Core/Library 架构,由 muapi-cli 提供支持:
- 核心原语:围绕 CLI 的轻量包装,用于原始 API 访问、文件上传、基础编辑和身份验证。
- 专家库:领域特定技能(例如电影导演、UI 设计师、标志创作者),将创意目标转化为技术指令。
- 配方包:超过 40 条由大语言模型编排的工作流配方(例如将照片转换为 3D 动作人物或制作电影级产品广告),代理可按步骤执行。
- MCP 服务器:模型上下文协议(Model Context Protocol)服务器,直接向兼容代理公开 19 种结构化工具,省去编写 shell 脚本的需求。
适用人群
希望在其代理工作流中集成专业多模态生成能力的开发者和 AI 代理用户,尤其是使用 MCP 兼容工具(如 Claude Desktop 或 Cursor)的人群。
亮点
- 代理原生设计:使用结构化 JSON 输出和语义退出码,实现流水线的无缝集成。
- 广泛的模型支持:可访问 100 多种模型,包括 Midjourney v7、Flux、Kling 3.0 和 Veo3。
- 直接媒体展示:提供
--view参数,可自动在系统查看器中打开生成的媒体。 - 专用工作流:为 AI 剪辑(长视频转竖屏短片)、时尚试穿和建筑渲染等场景提供专门管线。
Sources
- undefinedSamurAIGPT/Generative-Media-Skills