探索 Stable Audio 3:用於高保真音訊生成的快速潛在擴散模型

探索 Stable Audio 3:用於高保真音訊生成的快速潛在擴散模型

生成式 AI 的領域正迅速從文字和圖像擴展到高保真音訊領域。Stable Audio 3 代表了這一方向上的重大飛躍,提供了一系列專為高效生成和編輯音樂及音效而設計的潛在擴散模型。透過專注於速度、可變長度輸出和易用性,Stable Audio 3 旨在縮小專業音訊製作與 AI 輔助創意之間的差距。

Stable Audio 3 的架構

Stable Audio 3 的核心是一種新型的 semantic-acoustic autoencoder。這個組件至關重要,因為它將原始音訊投影到一個緊湊的潛在空間中。透過在該潛在空間而非原始波形上進行操作,模型可以更高效地生成音訊,同時保持高保真度,並確保音訊的語義結構——即聲音的「意義」或「感覺」——得以保留。

模型變體與效率

Stability AI 發布了三種尺寸的模型:Small, Medium, and Large。這種分層方法允許不同的部署場景,從高端伺服器環境到消費級硬體。

Stable Audio 3 最令人印象深刻的技術成就之一是其推理速度。研究人員報告稱,模型在 H200 GPU 上生成音訊的時間不到兩秒。值得注意的是,該模型也針對消費級硬體進行了優化,在 MacBook Pro M4 上的生成時間僅需幾秒鐘。這種易用性使該模型成為創意工作流中進行即時迭代的可行工具。

關鍵能力:生成與編輯

Stable Audio 3 不僅僅是從頭開始創建音訊;它還專為靈活的操作而設計。

可變長度生成

與許多受限於固定長度片段的先前音訊模型不同,Stable Audio 3 支持可變長度生成。這對於實際應用場景至關重要,因為它能防止在只需要短音效時生成全長軌道的非必要計算成本。

Inpainting 與續接

該模型支持 inpainting,這是一種借鑒自圖像生成的技術。在音訊語境下,這允許:

  • 目標音訊編輯: 在不影響軌道其餘部分的情況下,修改現有音訊片段的特定部分。
  • 續接 (Continuation): 能夠獲取一段短暫的錄音並將其延伸,讓 AI 智能地「填補」其餘的音樂或音景。

訓練與優化

為了實現其性能,Stable Audio 3 是使用授權數據和 Creative Commons 數據的組合進行訓練的。為了進一步精煉輸出,團隊採用了 adversarial post-training。這個過程主要有兩個目的:

  1. 加速推理: 減少在擴散過程中生成高品質樣本所需的步驟數。
  2. 提高保真度: 增強整體品質和對提示詞的遵循度,確保生成的音訊聽起來更接近用戶的意圖。

社群回饋與初步印象

雖然技術規格非常可觀,但來自社群的早期用戶回饋強調了其優點與模型目前的局限性。

速度 vs. 品質

用戶們注意到了模型的極速性能。一位用戶報告稱,在 RTX 3090 上生成 120 秒的音訊不到兩秒,將其性能描述為「瘋狂地快」。

然而,音質方面也存在疑問。一些用戶觀察到輸出音質可能聽起來類似於「general midi」,且可能更適合電子音樂而非有機音色。另一位用戶指出,缺乏最終專業產品應有的頻率範圍,這表明目前的輸出更適合作為進一步製作的原始素材,而非完成的歌曲。

開源權重與易用性

Stability AI 繼續其發布版權重(weights)的傳統,發布了 Small 和 Medium 模型,允許開發者和研究人員在消費級硬體上運行該模型。這種做法在社群內引發了關於開源權重模型的可持續性討論,部分用戶對公司維持如此高成本訓練週期的變現策略提出疑問。

結論

Stable Audio 3 標誌著 AI 音訊生成在效率和靈活性方面的重大進步。透過引入新型的 autoencoder 並支持 inpainting 和可變長度生成,它為創作者提供了強大的工具包。雖然目前的輸出品質可能仍在向專業級保真度演進,但開源權重版本的發度與易用性使其成為成為實驗性音訊製作的引人注目工具。

Sources