audiomentations: ディープラーニングのための高速で使いやすいオーディオデータ拡張ライブラリ

audiomentations: ディープラーニングのための高速で使いやすいオーディオデータ拡張ライブラリ

何を解決するか

制御された実験室環境だけでなく、実世界の環境においてオーディオディープラーニングモデルがより高いパフォーマンスを発揮できるように、オーディオデータ拡張を行う方法を提供します。

仕組み

これは、オーディオデータの摂動や変換を行うためのオーディオ変換パイプライン(Compose オブジェクトを使用)を作成できる Python ライブラリです。CPU上で動作し、モノラルおよびマルチチャネルのオーディオの両方をサポートしています。PyTorch や TensorFlow/Keras といった一般的なトレーニングパイプラインと統合できます。

対象者

トレーニングデータの多様性と堅牢性を高める必要がある、オーディオベースのAIモデルを構築している開発者や研究者。

ハイライト

  • ノイズ追加(Gaussian, color, background)、ピッチシフト、タイムストレッチ、ルームシミュレーションを含む、広範な変換リスト。
  • 使いやすさを追求し、albumentations にインスパイアされた API。
  • モノラルおよびマルチチャネルのオーディオをサポート。
  • PyTorch および TensorFlow/Keras トレーニングパイプラインと互換性があります。

Sources