Open-Generative-AI: ローカル推論とマルチモデル対応を備えた、制限のないAIビデオプラットフォームのオープンソース代替案

Open-Generative-AI: ローカル推論とマルチモデル対応を備えた、制限のないAIビデオプラットフォームのオープンソース代替案

解決する課題

Open Generative AIは、プロプライエタリなAIビデオおよび画像プラットフォームに代わる、オープンソースで制限のない代替案です。コンテンツフィルター、サブスクリプション料金、またはベンダーロックインなしで、200以上の最先端の生成モデルにアクセスできる統一されたインターフェースを提供し、完全な創造の自由を実現します。

仕組み

このプロジェクトは、デスクトップアプリケーション(macOS、Windows、およびLinux用)とホストされたウェブ版を提供します。主にMuAPIと統合して膨大なクラウドベースのモデルにアクセスしますが、デスクトップアプリは以下の2つのエンジンを介してローカル推論もサポートしています:

  • sd.cpp: SD 1.5、SDXL、およびZ-Imageのような画像モデルを、Metal GPU (Apple Silicon)、CUDA、Vulkan、またはROCm上でローカルに実行するための同梱C++エンジン。
  • Wan2GP: 重いビデオおよび画像モデル(FluxやWan 2.2など)を、別のGPU搭載マシンにオフロードするためのリモートGradioサーバークライアント。

対象ユーザー

デジタルアーティスト、映画制作者、およびAIクリエイター向けに設計されており、幅広いモデルとプロフェッショナルなカメラコントロールを使用して、画像、ビデオ、およびリップシンクコンテンツを生成するための制限のない環境を提供します。

ハイライト

  • マルチスタジオインターフェース: 画像、ビデオ、リップシンク、シネマ(プロカメラコントロール付き)、およびワークフロー専用のスタジオ。
  • 制限のない生成: コンテンツフィルターやプロンプトの拒否なし。
  • 膨大なモデルサポート: Flux、Midjourney、Kling、Sora、およびVeoを含む200以上のモデルにアクセス可能。
  • ローカル推論: データプライバシーを維持し、APIコストを回避するために、特定のモデルをローカルで実行する機能。
  • 高度な画像コントロール: 対応するimage-to-imageモデル向けに、最大14枚の参照画像に対応。
  • ビジュアルワークフロービルダー: 画像、ビデオ、およびオーディオモデルを自動化されたパイプラインに連結するためのノードベースのエディタ。

Sources