FluidAudio: Apple 기기에서 추론을 Apple Neural Engine으로 오프로드하는 로컬 오디오 AI용 Swift SDK
FluidAudio: Apple 기기에서 추론을 Apple Neural Engine으로 오프로드하는 로컬 오디오 AI용 Swift SDK
해결하는 문제
FluidAudio는 개발자가 macOS 및 iOS 애플리케이션에 고성능, 완전 로컬 오디오 AI 기능을 통합할 수 있도록 지원하는 Swift SDK입니다. 클라우드 기반 오디오 프로세싱의 필요성을 제거하여 사용자 프라이버시를 보장하고, 추론을 Apple Neural Engine (ANE)으로 오프로드하여 지연 시간을 줄입니다.
작동 방식
이 SDK는 다양한 오디오 작업을 위한 최적화된 CoreML 모델 세트를 제공합니다. ANE에서 직접 추론을 실행함으로써 CPU 및 GPU 사용량을 최소화하며, 백그라운드 프로세싱 및 상시 가동 워크로드에 이상적입니다. 다양한 오픈 소스 모델 (MIT/Apache 2.0)을 지원하며 React Native, Expo, 및 Rust/Tauri를 위한 공식 래퍼를 제공합니다.
대상 사용자
외부 서버에 의존하지 않고 전사(transcription), 텍스트 음성 변환(text-to-speech), 또는 화자 식별이 필요한 앱을 구축하는 Apple 플랫폼 개발자를 위해 설계되었습니다.
주요 특징
- Automatic Speech Recognition (ASR): 유럽 언어, 일본어, 중국어(Mandarin Chinese)를 포함한 여러 언어를 지원하며 배치 및 스트리밍 전사를 지원합니다.
- Text-to-Speech (TTS): SSML 및 발음 제어가 가능한 병렬 합성을 포함하며, 보이스 클로닝이 가능한 스트리밍 TTS를 제공합니다.
- Speaker Diarization: 화자 분리 및 식별을 위한 온라인(실시간) 및 오프라인(배치) 파이프라인을 모두 제공합니다.
- Voice Activity Detection (VAD): 효율적인 음성 감지를 위해 Silero 모델을 통합합니다.
- Apple Neural Engine Optimization: 성능을 극대화하고 전력 소비를 최소화하기 위해 ANE에 특화되어 튜닝되었습니다.
- Open-Source Models: HuggingFace의 공개 모델을 사용하여 온디바이스 사용에 최적화했습니다.
Sources
- undefinedFluidInference/FluidAudio