audiomentations: ディープラーニングのための高速で使いやすいオーディオデータ拡張ライブラリ
audiomentations: ディープラーニングのための高速で使いやすいオーディオデータ拡張ライブラリ
何を解決するか
制御された実験室環境だけでなく、実世界の環境においてオーディオディープラーニングモデルがより高いパフォーマンスを発揮できるように、オーディオデータ拡張を行う方法を提供します。
仕組み
これは、オーディオデータの摂動や変換を行うためのオーディオ変換パイプライン(Compose オブジェクトを使用)を作成できる Python ライブラリです。CPU上で動作し、モノラルおよびマルチチャネルのオーディオの両方をサポートしています。PyTorch や TensorFlow/Keras といった一般的なトレーニングパイプラインと統合できます。
対象者
トレーニングデータの多様性と堅牢性を高める必要がある、オーディオベースのAIモデルを構築している開発者や研究者。
ハイライト
- ノイズ追加(Gaussian, color, background)、ピッチシフト、タイムストレッチ、ルームシミュレーションを含む、広範な変換リスト。
- 使いやすさを追求し、albumentations にインスパイアされた API。
- モノラルおよびマルチチャネルのオーディオをサポート。
- PyTorch および TensorFlow/Keras トレーニングパイプラインと互換性があります。
Sources
- undefinediver56/audiomentations