comic-translate: LLMとインペインティングを活用してコミックパネル内のテキストを翻訳するAI搭載コミック翻訳機
comic-translate: LLMとインペインティングを活用してコミックパネル内のテキストを翻訳するAI搭載コミック翻訳機
何を解決するか
Comic Translateは、英語、韓国語、日本語、フランス語、簡体字中国語、繁体字中国語、ロシア語、ドイツ語、オランダ語、スペイン語、イタリア語を含む様々な言語のコミックを他の言語に翻訳するように設計されており、言語ペアの距離によって困難が生じやすい従来の機械翻訳の限界を克服します。
仕組み
このプロジェクトは、コミックのページを処理するためにマルチステージのパイプラインを使用します:
- Speech Bubble Detection: 11k枚のコミック画像でトレーニングされたカスタムのRT-DETR-v2モデルを使用して、吹き出しを検出し、テキストをセグメント化します。
- OCR: 言語に応じて様々なOCRエンジンを採用します(日本語にはmanga-ocr、韓国語にはPororo、その他にはPPOCRv5)、Gemini 2.0 FlashおよびMicrosoft Azure Visionのオプションサポートも提供します。
- Inpainting: Manga/Anime用にファインチューニングされたLaMaチェックポイント、またはAOT-GANベースのモデルを使用して、画像から既存のテキストを削除し、吹き出しをきれいにします。
- Translation: SOTAのLLM(GPT-4、Claude、Geminiなど)を活用してテキストを翻訳します。モデルには文脈を提供するためにページ全体のテキストが提供され、オプションで画像自体も提供されます。
- Text Rendering: 翻訳されたテキストを元のバウンディングボックス内に再レンダリングします。
対象者
読めない外国語のコミックを翻訳したいコミック・マンガ読者、およびLLMを使用してプロフェッショナル級の翻訳品質を求める方々。
ハイライト
- LLM-Powered Translation: 従来のツールと比較して、より高品質な翻訳を実現するために、最先端のLLMを使用します。
- Comprehensive Language Support: 幅広いグローバル言語をサポートしています。
- Multi-modal Pipeline: 検出、OCR、インペインティングを組み合わせることで、シームレスな翻訳体験を提供します。
- Flexible Deployment: WindowsおよびmacOS用のデスクトップアプリ、およびChromiumベースのブラウザ用のブラウザ拡張機能として利用可能です。
Sources
- undefinedogkalu2/comic-translate