koharu: 一款具備自動修補與專業 PSD 匯出的本地優先 ML 漫畫翻譯工具

koharu: 一款具備自動修補與專業 PSD 匯出的本地優先 ML 漫畫翻譯工具

它解決了什麼問題

Koharu 是一款本地優先的漫畫翻譯工具,能將翻譯漫畫頁面的繁瑣過程自動化。它取代了偵測文字、移除原始文字以及將翻譯後的文字重新排版回頁面的手動工作流程。

運作原理

Koharu 使用分階段的機器學習模型流水線來處理頁面:

  1. 偵測:使用 YOLO 與其他視覺模型來識別文字區域與對話框。
  2. OCR:使用多語言 OCR 模型來辨識來源文字。
  3. 修補 (Inpainting):使用 FLUX.2 或 LaMa 等模型從圖像中移除原始文字,以建立乾淨的背景。
  4. 翻譯:使用本地 LLM(透過 llama.cpp)或遠端 API(OpenAI, Claude, Gemini, DeepSeek)來翻譯文字。
  5. 渲染:專用的文字渲染器處理複雜的漫畫文字,包括垂直 CJK 佈局與從右至左的文字。

對象是誰

它專為漫畫翻譯者與漢化組 (scanlators) 設計,他們需要一款高效能、注重隱私的桌面應用程式,且大部分的流水線可以在自己的硬體上本地運行。

重點特色

  • 本地優先隱私:在本地運行視覺模型與 LLM 以確保數據安全。
  • GPU 加速:支援 CUDA, Metal, Vulkan, 以及實驗性的 ZLUDA 以實現高速處理。
  • 專業匯出:匯出為分層 PSD 檔案,允許在 Photoshop 中手動微調翻譯後的文字圖層。
  • Agent 整合:內建 MCP server 與 headless mode,可透過本地 agent 進行自動化。
  • 進階排版:針對垂直 CJK 與 RTL 腳本提供專門的渲染,並支援 Google Fonts。

Sources