comic-translate:一款利用 LLM 與 inpainting 技術在漫畫格子內翻譯文字的 AI 漫畫翻譯器

comic-translate:一款利用 LLM 與 inpainting 技術在漫畫格子內翻譯文字的 AI 漫畫翻譯器

它解決了什麼問題

Comic Translate 旨在將各種語言(包括英文、韓文、日文、法文、簡體中文、繁體中文、俄文、德文、荷蘭文、西班牙文與義大利文)的漫畫翻譯成其他語言,克服傳統機器翻譯在遠距語言對間常出現的困難。

工作原理

此專案使用多階段管線來處理漫畫頁面:

  1. 對話框偵測:使用在 11k 漫畫圖像上訓練的自訂 RT‑DETR‑v2 模型偵測氣泡並分割文字。
  2. OCR:根據語言使用不同的 OCR 引擎(日文使用 manga‑ocr、韓文使用 Pororo,其他語言使用 PPOCRv5),亦可選擇支援 Gemini 2.0 Flash 與 Microsoft Azure Vision。
  3. Inpainting:利用 Manga/Anime 微調的 LaMa checkpoint 或基於 AOT‑GAN 的模型將圖像中的原始文字移除,清理對話框。
  4. 翻譯:利用最先進的 LLM(如 GPT‑4、Claude、Gemini)進行文字翻譯。模型會獲得整頁文字作為上下文,亦可選擇提供圖像本身。
  5. 文字渲染:將翻譯後的文字重新繪製回原始的邊界框內。

目標使用者

想要將外語漫畫翻譯成自己能閱讀語言的漫畫與漫畫讀者,同時也適合追求使用 LLM 取得專業等級翻譯品質的使用者。

重點特色

  • LLM 驅動的翻譯:使用最先進的 LLM,較傳統工具提供更高品質的翻譯。
  • 全面語言支援:支援多種全球語言。
  • 多模態管線:結合偵測、OCR 與 inpainting,提供流暢的翻譯體驗。
  • 彈性部署:提供 Windows 與 macOS 桌面應用程式,以及 Chromium 系列瀏覽器的擴充功能。

Sources