ComputeLibrary: Arm 하드웨어에 최적화된 저수준 머신러닝 함수 모음

ComputeLibrary: Arm 하드웨어에 최적화된 저수준 머신러닝 함수 모음

해결하는 문제

Compute Library는 Arm 하드웨어에 특화되어 최적화된 저수준 머신러닝 함수 모음을 제공합니다. 마이크로 아키텍처 최적화와 SVE2와 같은 새로운 Arm 기술에 대한 즉각적인 지원을 활용하여 다른 오픈 소스 대안보다 우수한 성능을 제공하는 것을 목표로 합니다.

작동 방식

이 라이브러리는 GeMM, Winograd, FFT, Direct와 같은 여러 컨볼루션 알고리즘을 포함하여 100개 이상의 ML 프리미티브를 구현하며, FP32, FP16, INT8, UINT8, BFLOAT16과 같은 광범위한 데이터 타입을 지원합니다. 커널 퓨전(kernel fusion), fast math, 텍스처 활용과 같은 고급 최적화 기술을 사용하며, OpenCL tuner 및 GeMM 최적화 휴리스틱을 통해 디바이스별 튜닝이 가능합니다.

대상 사용자

Android, Linux, macOS와 같은 다양한 운영 체제에서 Cortex-A, Neoverse, Mali GPU를 사용하는 시스템을 포함하여 Arm 기반 시스템을 위한 AI/ML 애플리케이션을 구축하는 개발자.

주요 특징

  • MIT 라이선스 하의 자체 소스 소프트웨어.
  • Arm Cortex-A, Neoverse, Mali GPU에 최적화됨.
  • BFLOAT16 및 INT8을 포함한 다양한 정밀도 데이터 타입 지원.
  • 경량 바이너리를 위한 높은 구성 가능성을 가진 빌드 옵션 제공.

Sources