ComputeLibrary:針對 Arm 硬體優化的低階機器學習函式集合

ComputeLibrary:針對 Arm 硬體優化的低階機器學習函式集合

它解決了什麼問題

Compute Library 提供一套專為 Arm 硬體優化的低階機器學習函式。透過微架構最佳化以及即時支援新興的 Arm 技術(如 SVE2),它旨在相較其他開源方案提供更卓越的效能。

它如何運作

此函式庫實作超過 100 種機器學習基元,包含多種卷積演算法(如 GeMM、Winograd、FFT 與 Direct),並支援廣泛的資料類型(FP32、FP16、INT8、UINT8、BFLOAT16)。它使用先進的最佳化技術,如 kernel fusion、fast math 與 texture 利用,並可透過 OpenCL 調校器與 GeMM 最佳化啟發式方法進行裝置特定的調校。

目標使用者

開發針對 Arm 系統的 AI/ML 應用程式的開發者,包含使用 Cortex‑A、Neoverse 與 Mali GPU 的平台,支援 Android、Linux、macOS 等多種作業系統。

重點特色

  • 依 MIT 授權的自有原始碼軟體。
  • 為 Arm Cortex‑A、Neoverse 與 Mali GPU 進行最佳化。
  • 支援多種精度的資料類型,包含 BFLOAT16 與 INT8。
  • 提供高度可配置的建置選項,以產生輕量化的二進位檔。

摘要

一套針對 Arm Cortex‑A、Neoverse 與 Mali GPU 架構優化的低階機器學習函式集合,旨在提供高效能的 ML 推論。

標題

ComputeLibrary:針對 Arm 硬體優化的低階機器學習函式集合

Sources