IBM Granite Speech 4.1 릴리스: 고처리량 ASR 모델
IBM Granite Speech 4.1 릴리스: 고처리량 ASR 모델
IBM은 엣지 배포를 위해 설계된 2B 파라미터 자동 음성 인식(ASR) 모델 3종을 포함하는 Granite Speech 4.1을 출시했습니다. 이 모델들은 원시 정확도, 화자 귀속 필요성, 혹은 극한 처리량 중 개발자가 직면한 성능 병목에 따라 변형을 선택할 수 있게 합니다.
Granite Speech 4.1 2B: 고정밀 워크호스
Granite Speech 4.1 2B는 기본 모델이며 현재 Hugging Face의 Open ASR 리더보드에서 5.33%의 단어 오류율(WER)로 1위를 차지하고 있습니다. 이 평균 WER은 LibriSpeech와 같은 벤치마크보다 실제 환경 성능을 더 신뢰할 수 있게 나타냅니다.
주요 성능 및 특징
- 처리 속도: 모델은 실시간 계수(RTFX) 약 231을 달성하여 1초의 연산으로 거의 4분 분량의 오디오를 처리할 수 있습니다. 이를 통해 1시간 분량의 오디오를 약 16초 만에 전사할 수 있습니다.
- 다국어 지원: 영어, 프랑스어, 독일어, 스페인어, 포르투갈어, 일본어 등 7개 언어의 전사를 지원합니다.
- 번역: 영어와 다른 지원 언어 간의 양방향 음성 번역을 제공합니다.
- 키워드 바이어싱: 프롬프트에 이름, 약어, 기술 용어 목록을 전달하여 도메인 특화 콘텐츠를 올바르게 인식하도록 모델에 가중치를 부여할 수 있습니다.
- 아키텍처: 표준 자동회귀(autoregressive) 아키텍처를 사용합니다.
Granite Speech 4.1 2B Plus: 화자 구분 및 타임스탬프
Plus 변형은 팟캐스트나 회의 녹음처럼 누가 언제 말했는지를 아는 것이 중요한 구조화된 전사에 최적화되었습니다.
특화 기능
- 화자 귀속 ASR(다이어리제이션): 모델은 "Speaker 1", "Speaker 2"와 같은 화자 라벨을 제공하여 텍스트를 특정 인물에 귀속시킬 수 있습니다.
- 단어 수준 타임스탬프: 모든 단어에 종료 시간이 태그됩니다. 보고된 타임스탬프 정확도는 Whisper의 특수 버전을 포함한 많은 기존 모델보다 뛰어나다고 주장됩니다.
- 증분 디코딩: 이전에 전사된 텍스트를 프리픽스로 전달할 수 있습니다. 이는 긴 오디오를 청크로 나누어 처리할 때 화자 번호와 연속성을 일관되게 유지하는 데 특히 유용합니다.
트레이드오프
이 기능들을 제공하기 위해 Plus 모델은 몇 가지 양보를 합니다:
- 언어 지원: 5개 언어로 축소(일본어 제외).
- 기능: 번역 기능이 제거되었습니다.
- 정확도: 단어 오류율이 기본 2B 모델보다 약간 높습니다.
Granite Speech 4.1 2B NAR: 극한 처리량
Granite Speech 4.1 2B NAR은 비자동회귀(NAR) 모델로, 최대 처리량을 목표로 하여 최소 시간에 대량의 오디오를 처리할 수 있게 설계되었습니다.
비자동회귀 LLM 기반 편집(NLE)
표준 자동회귀 모델이 토큰을 순차적으로 생성하는 것과 달리, NAR 모델은 비자동회귀 LLM 기반 편집(NLE)이라는 기술을 사용합니다. 과정은 두 단계로 이루어집니다:
- 초안 작성: 저비용 CTC 인코더가 오디오를 훑어 초안 전사를 생성합니다.
- 편집: 모델은 양방향 어텐션을 활용해 복사, 삽입, 삭제, 교체를 수행해 초안을 편집하며, 이는 전통적인 일회성 병렬 예측보다 정확도를 높입니다.
성능 및 트레이드오프
- 처리량: H100 GPU에서 배치를 사용할 경우 실시간 계수 1,820을 주장하며, 1시간 분량의 오디오를 약 2초 만에 전사할 수 있습니다.
- 제한 사항: NAR 모델은 번역, 키워드 바이어싱, 화자 귀속, 단어 수준 타임스탬프를 지원하지 않습니다.
배포 및 구현
모든 Granite Speech 4.1 모델은 다양한 GPU에서 실행될 수 있을 만큼 작지만, NAR 모델은 최적 성능을 위해 보통 Flash Attention이 필요합니다. 구현은 Hugging Face Transformers 라이브러리와 AutoProcessor를 사용해 진행됩니다.
파인튜닝 및 커스터마이징
IBM은 파인튜닝용 노트북을 제공하여 사용자가 기존 전사 데이터를 학습 데이터로 활용해 특정 음성, 억양, 혹은 법정 전사와 같은 고도로 특화된 도메인에 모델을 맞출 수 있게 합니다.
Sources
- undefinedGranite 4.1 - The Fastest ASR?