audiomentations: 一个用于深度学习的快速且易于使用的音频数据增强库

audiomentations: 一个用于深度学习的快速且易于使用的音频数据增强库

它解决了什么问题

它提供了一种进行音频数据增强的方法，以帮助音频深度学习模型在现实世界环境中，而不仅仅是在受控的实验室设置中，表现得更好。

它是如何工作的

它是一个 Python 库，允许用户通过创建一个音频转换流水线（使用 Compose 对象）来扰动或转换音频数据。它在 CPU 上运行，并支持单声道和多声道音频。它与 PyTorch 和 TensorFlow/Keras 等常用训练流水线集成。

适用人群

需要增加训练数据多样性和鲁棒性的、正在构建音频 AI 模型的开发人员和研究人员。

亮点

广泛的转换列表，包括噪声添加（Gaussian, color, background）、音高偏移、时间拉伸和房间模拟。
API 灵感来源于 albumentations，以便于使用。
支持单声道和多声道音频。
与 PyTorch 和 TensorFlow/Keras 训练流水线兼容。

Sources

undefinediver56/audiomentations