ComputeLibrary: 为 Arm 硬件优化的低层机器学习函数集合

ComputeLibrary: 为 Arm 硬件优化的低层机器学习函数集合

它解决了什么问题

Compute Library 提供了一系列专门针对 Arm 硬件优化的低层机器学习函数。其目标是通过利用微架构优化以及对 SVE2 等新 Arm 技术提供即时支持,从而提供优于其他开源替代方案的卓越性能。

工作原理

该库实现了超过 100 种 ML 原语,包括多种卷积算法(例如 GeMM、Winograd、FFT 和 Direct),并支持广泛的数据类型(FP32、FP16、INT8、UINT8、BFLOAT16)。它使用先进的优化技术,如 kernel fusion、fast math 和 texture utilization,并允许通过 OpenCL tuner 和 GeMM 优化启发式算法进行针对特定设备的调优。

面向对象

为基于 Arm 的系统构建 AI/ML 应用的开发者,包括那些在 Android、Linux 和 macOS 等各种操作系统上使用 Cortex-A、Neoverse 和 Mali GPU 的开发者。

亮点

  • 根据 MIT 许可证提供的开源软件。
  • 针对 Arm Cortex-A、Neoverse 和 Mali GPU 进行了优化。
  • 支持多种精度数据类型,包括 BFLOAT16 和 INT8。
  • 提供高度可配置的构建选项,以实现轻量级二进制文件。

Sources