comic-translate:一款利用 LLM 和图像修复技术在漫画面板内翻译文字的 AI 漫画翻译器

comic-translate:一款利用 LLM 和图像修复技术在漫画面板内翻译文字的 AI 漫画翻译器

它解决了什么问题

Comic Translate 旨在将来自各种语言(包括英语、韩语、日语、法语、简体中文、繁体中文、俄语、德语、荷兰语、西班牙语和意大利语)的漫画翻译成其他语言,克服传统机器翻译在远距离语言对上常出现的局限。

工作原理

该项目使用多阶段流水线来处理漫画页面:

  1. 气泡检测:使用在 11k 漫画图像上训练的自定义 RT-DETR-v2 模型检测气泡并分割文字。
  2. OCR:根据语言使用不同的 OCR 引擎(日语使用 manga-ocr,韩语使用 Pororo,其他语言使用 PPOCRv5),并可选支持 Gemini 2.0 Flash 和 Microsoft Azure Vision。
  3. 图像修复:使用经过 Manga/Anime 微调的 LaMa 检查点或基于 AOT-GAN 的模型从图像中去除原有文字,清理气泡。
  4. 翻译:利用最先进的 LLM(如 GPT-4、Claude 和 Gemini)进行翻译。模型会获得整页文本作为上下文,亦可选提供图像本身。
  5. 文字渲染:将翻译后的文字重新渲染回原始边界框中。

适用人群

想要将外语漫画翻译成自己能阅读的语言的漫画和漫画爱好者,以及希望使用 LLM 获得专业级翻译质量的用户。

亮点

  • LLM 驱动的翻译:使用最先进的 LLM,提供比传统工具更高质量的翻译。
  • 全面的语言支持:支持多种全球语言。
  • 多模态流水线:结合检测、OCR 与图像修复,提供流畅的翻译体验。
  • 灵活部署:提供 Windows 与 macOS 桌面应用,以及基于 Chromium 的浏览器扩展。

摘要: 一款利用 LLM、OCR 与图像修复技术,将多语言漫画翻译并保留原始画面的 AI 漫画翻译器。

标题: comic-translate:一款利用 LLM 和图像修复技术在漫画面板内翻译文字的 AI 漫画翻译器

Sources