Generative-Media-Skills:面向 AI 代理的多模态工具集,可通过基于模式的架构生成和编辑专业级媒体

Generative-Media-Skills:面向 AI 代理的多模态工具集,可通过基于模式的架构生成和编辑专业级媒体

解决的问题

本项目为 AI 代理(如 Claude Code、Cursor 和 Gemini CLI)提供了完整的工具集,用于生成和编辑专业级的图像、视频和音频。它弥合了高层创意意图与生成高质量多模态媒体所需的技术 API 调用之间的鸿沟,支持大量 AI 模型。

工作原理

系统基于 Core/Library 架构,由 muapi-cli 提供支持:

  • 核心原语:围绕 CLI 的轻量包装,用于原始 API 访问、文件上传、基础编辑和身份验证。
  • 专家库:领域特定技能(例如电影导演、UI 设计师、标志创作者),将创意目标转化为技术指令。
  • 配方包:超过 40 条由大语言模型编排的工作流配方(例如将照片转换为 3D 动作人物或制作电影级产品广告),代理可按步骤执行。
  • MCP 服务器:模型上下文协议(Model Context Protocol)服务器,直接向兼容代理公开 19 种结构化工具,省去编写 shell 脚本的需求。

适用人群

希望在其代理工作流中集成专业多模态生成能力的开发者和 AI 代理用户,尤其是使用 MCP 兼容工具(如 Claude Desktop 或 Cursor)的人群。

亮点

  • 代理原生设计:使用结构化 JSON 输出和语义退出码,实现流水线的无缝集成。
  • 广泛的模型支持:可访问 100 多种模型,包括 Midjourney v7、Flux、Kling 3.0 和 Veo3。
  • 直接媒体展示:提供 --view 参数,可自动在系统查看器中打开生成的媒体。
  • 专用工作流:为 AI 剪辑(长视频转竖屏短片)、时尚试穿和建筑渲染等场景提供专门管线。

Sources