comic-translate: LLM과 inpainting을 활용하여 만화 패널 내의 텍스트를 번역하는 AI 기반 만화 번역기

comic-translate: LLM과 inpainting을 활용하여 만화 패널 내의 텍스트를 번역하는 AI 기반 만화 번역기

해결하는 문제

Comic Translate는 다양한 언어(영어, 한국어, 일본어, 프랑스어, 중국어 간체, 중국어 번체, 러시아어, 독일어, 네덜란드어, 스페인어, 이탈리아어 포함)를 다른 언어로 번역하도록 설계되어, 언어 간 거리가 먼 언어 쌍에서 종종 어려움을 겪는 기존 기계 번역기의 한계를 극복합니다.

작동 방식

이 프로젝트는 만화 페이지를 처리하기 위해 다단계 파이프라인을 사용합니다:

  1. 말풍선 탐지 (Speech Bubble Detection): 11k개의 만화 이미지를 학습시킨 커스텀 RT-DETR-v2 모델을 사용하여 말풍선을 탐지하고 텍스트를 분할합니다.
  2. OCR: 언어에 따라 다양한 OCR 엔진을 사용합니다(일본어의 경우 manga-ocr, 한국어의 경우 Pororo, 그 외의 경우 PPOCRv5). Gemini 2.0 Flash 및 Microsoft Azure Vision에 대한 선택적 지원도 제공합니다.
  3. Inpainting: Manga/Anime로 파인튜닝된 LaMa 체크포인트 또는 AOT-GAN 기반 모델을 사용하여 이미지에서 기존 텍스트를 제거하여 말풍선을 깨끗하게 만듭니다.
  4. 번역 (Translation): SOTA LLM(GPT-4, Claude, Gemini 등)을 활용하여 텍스트를 번역합니다. 모델에는 문맥 파악을 위해 페이지 전체의 텍스트가 제공되며, 선택적으로 이미지 자체도 제공됩니다.
  5. 텍스트 렌더링 (Text Rendering): 번역된 텍스트를 원래의 경계 상자(bounding boxes)에 다시 렌더링합니다.

대상 사용자

읽을 수 없는 외국어로 된 만화를 번역하고 싶은 만화 및 망가 독자, 그리고 LLM을 사용하여 전문가 수준의 번역 품질을 원하는 사용자들을 위한 도구입니다.

주요 특징

  • LLM 기반 번역: 기존 도구와 비교하여 더 높은 품질의 번역을 위해 최첨단 LLM을 사용합니다.
  • 포괄적인 언어 지원: 광범위한 글로벌 언어를 지원합니다.
  • 멀티모달 파이프라인: 탐지, OCR, inpainting을 결합하여 원활한 번역 경험을 제공합니다.
  • 유연한 배포: Windows 및 macOS용 데스크톱 앱, 그리고 Chromium 기반 브라우저용 브라우저 확장 프로그램으로 사용할 수 있습니다.

Sources