argmax-oss-swift: Apple 플랫폼을 위한 음성-텍스트 변환, 텍스트-음성 변환 및 화자 분할 기능을 제공하는 온디바이스 오디오 추론 프레임워크

해결하는 문제

Argmax Open-Source SDK는 Apple 플랫폼(macOS 및 iOS)에서 AI 오디오 모델을 완전히 온디바이스로 실행할 수 있는 일련의 즉시 사용 가능한 프레임워크를 제공합니다. 이를 통해 전사(transcription), 음성 합성(speech synthesis), 화자 식별(speaker identification)과 같은 일반적인 오디오 작업에 대한 클라우드 기반 API의 필요성을 제거하여, 더 낮은 지연 시간과 더 나은 개인정보 보호를 보장합니다.

작동 방식

이 SDK는 Apple silicon에서 최적화된 모델을 실행하기 위해 Core ML을 기반으로 구축된 세 가지 전문 "Kit"의 모음입니다:

WhisperKit: 음성-텍스트 변환 전사 및 번역을 위해 OpenAI의 Whisper를 구현합니다.
TTSKit: Qwen-TTS 모델을 사용하여 텍스트-음성 변환 생성을 수행하며, 실시간 스트리밍 재생 및 자연어 스타일 지침을 지원합니다.
SpeakerKit: 화자 분할(누가 언제 말했는지 식별)을 위해 Pyannote를 활용합니다.

테스트를 위한 Swift CLI와 OpenAI Audio API를 모방하는 로컬 서버가 포함되어 있어, 개발자가 기존의 OpenAI 호환 클라이언트를 사용하여 이러한 온디바이스 기능을 통합할 수 있습니다.

대상 사용자

외부 서버에 의존하지 않고 고품질의 음성-텍스트 변환, 텍스트-음성 변환 또는 화자 분할 기능을 통합하고자 하는 iOS 및 macOS용 앱을 구축하는 Apple 개발자.

주요 특징

온디바이스 추론: Core ML을 통해 Apple silicon에서 완전히 실행됩니다.
OpenAI API 호환성: 쉬운 통합을 위해 OpenAI Audio API를 구현하는 로컬 서버가 포함되어 있습니다.
실시간 스트리밍: TTSKit은 생성되는 동안 프레임 단위의 오디오 재생을 지원합니다.
다국어 지원: 전사와 음성 합성 모두에 대해 광범위한 언어를 지원합니다.
유연한 모델 선택: 속도와 정확도의 균형을 맞추기 위해 다양한 모델 크기(예: Tiny에서 Large까지)를 제공합니다.

argmax-oss-swift: Apple 플랫폼을 위한 음성-텍스트 변환, 텍스트-음성 변환 및 화자 분할 기능을 제공하는 온디바이스 오디오 추론 프레임워크

argmax-oss-swift: Apple 플랫폼을 위한 음성-텍스트 변환, 텍스트-음성 변환 및 화자 분할 기능을 제공하는 온디바이스 오디오 추론 프레임워크

해결하는 문제

작동 방식

대상 사용자

주요 특징

Sources