ComputeLibrary:針對 Arm 硬體優化的低階機器學習函式集合
ComputeLibrary:針對 Arm 硬體優化的低階機器學習函式集合
它解決了什麼問題
Compute Library 提供一套專為 Arm 硬體優化的低階機器學習函式。透過微架構最佳化以及即時支援新興的 Arm 技術(如 SVE2),它旨在相較其他開源方案提供更卓越的效能。
它如何運作
此函式庫實作超過 100 種機器學習基元,包含多種卷積演算法(如 GeMM、Winograd、FFT 與 Direct),並支援廣泛的資料類型(FP32、FP16、INT8、UINT8、BFLOAT16)。它使用先進的最佳化技術,如 kernel fusion、fast math 與 texture 利用,並可透過 OpenCL 調校器與 GeMM 最佳化啟發式方法進行裝置特定的調校。
目標使用者
開發針對 Arm 系統的 AI/ML 應用程式的開發者,包含使用 Cortex‑A、Neoverse 與 Mali GPU 的平台,支援 Android、Linux、macOS 等多種作業系統。
重點特色
- 依 MIT 授權的自有原始碼軟體。
- 為 Arm Cortex‑A、Neoverse 與 Mali GPU 進行最佳化。
- 支援多種精度的資料類型,包含 BFLOAT16 與 INT8。
- 提供高度可配置的建置選項,以產生輕量化的二進位檔。
摘要:
一套針對 Arm Cortex‑A、Neoverse 與 Mali GPU 架構優化的低階機器學習函式集合,旨在提供高效能的 ML 推論。
標題:
ComputeLibrary:針對 Arm 硬體優化的低階機器學習函式集合
Sources
- undefinedARM-software/ComputeLibrary