ComputeLibrary：針對 Arm 硬體優化的低階機器學習函式集合

它解決了什麼問題

Compute Library 提供一套專為 Arm 硬體優化的低階機器學習函式。透過微架構最佳化以及即時支援新興的 Arm 技術（如 SVE2），它旨在相較其他開源方案提供更卓越的效能。

它如何運作

此函式庫實作超過 100 種機器學習基元，包含多種卷積演算法（如 GeMM、Winograd、FFT 與 Direct），並支援廣泛的資料類型（FP32、FP16、INT8、UINT8、BFLOAT16）。它使用先進的最佳化技術，如 kernel fusion、fast math 與 texture 利用，並可透過 OpenCL 調校器與 GeMM 最佳化啟發式方法進行裝置特定的調校。

目標使用者

開發針對 Arm 系統的 AI/ML 應用程式的開發者，包含使用 Cortex‑A、Neoverse 與 Mali GPU 的平台，支援 Android、Linux、macOS 等多種作業系統。

重點特色

依 MIT 授權的自有原始碼軟體。
為 Arm Cortex‑A、Neoverse 與 Mali GPU 進行最佳化。
支援多種精度的資料類型，包含 BFLOAT16 與 INT8。
提供高度可配置的建置選項，以產生輕量化的二進位檔。

摘要：

一套針對 Arm Cortex‑A、Neoverse 與 Mali GPU 架構優化的低階機器學習函式集合，旨在提供高效能的 ML 推論。

標題：

ComputeLibrary：針對 Arm 硬體優化的低階機器學習函式集合

ComputeLibrary：針對 Arm 硬體優化的低階機器學習函式集合

ComputeLibrary：針對 Arm 硬體優化的低階機器學習函式集合

它解決了什麼問題

它如何運作

目標使用者

重點特色

Sources