ComputeLibrary: 为 Arm 硬件优化的低层机器学习函数集合
ComputeLibrary: 为 Arm 硬件优化的低层机器学习函数集合
它解决了什么问题
Compute Library 提供了一系列专门针对 Arm 硬件优化的低层机器学习函数。其目标是通过利用微架构优化以及对 SVE2 等新 Arm 技术提供即时支持,从而提供优于其他开源替代方案的卓越性能。
工作原理
该库实现了超过 100 种 ML 原语,包括多种卷积算法(例如 GeMM、Winograd、FFT 和 Direct),并支持广泛的数据类型(FP32、FP16、INT8、UINT8、BFLOAT16)。它使用先进的优化技术,如 kernel fusion、fast math 和 texture utilization,并允许通过 OpenCL tuner 和 GeMM 优化启发式算法进行针对特定设备的调优。
面向对象
为基于 Arm 的系统构建 AI/ML 应用的开发者,包括那些在 Android、Linux 和 macOS 等各种操作系统上使用 Cortex-A、Neoverse 和 Mali GPU 的开发者。
亮点
- 根据 MIT 许可证提供的开源软件。
- 针对 Arm Cortex-A、Neoverse 和 Mali GPU 进行了优化。
- 支持多种精度数据类型,包括 BFLOAT16 和 INT8。
- 提供高度可配置的构建选项,以实现轻量级二进制文件。
Sources
- undefinedARM-software/ComputeLibrary