Krea 2 開源權重 12B 文字轉圖像模型發佈
Krea 2 開源權重 12B 文字轉圖像模型發佈
Krea 2 發佈開源權重 12B 文字轉圖像模型
Krea 已發佈兩個 120 億參數文字轉圖像模型的權重——Krea 2 Turbo 與 Krea 2 RAW——以及一份詳盡的技術報告,解釋了數據策劃、架構、訓練流程與基礎設施。此次發佈提供了一個罕見的開源視角,讓大眾得以窺見生產級擴散模型,並為個人與小型企業提供寬鬆的授權許可。
兩個檢查點針對不同的使用場景
- Krea 2 Turbo 是一個經過引導與時間步蒸餾(guidance- and timestep-distilled)的檢查點,旨在實現快速推理。它目前已提供 GGUF 格式,以便於高效的 CPU 執行。
- Krea 2 RAW 是未經蒸餾的檢查點,旨在用於研究、微調與進一步實驗。它同時發佈了訓練中(mid-training)與訓練後(post-training)兩個階段的版本,這種做法在圖像生成社群中並不常見。
"We are releasing two checkpoints at both the mid-training and post-training stage. This is rare in the image & multimedia community, so we can't help but feel proud of this release." – Diego Rodriguez, Co-founder & CTO of Krea
技術報告涵蓋端到端流程
隨附的報告 (https://www.krea.ai/blog/krea-2-technical-report) 詳細說明了:
- 數據策劃與標註 – 如何收集、過濾與標註數十億組圖像-文字對。
- 模型架構 – 基於 Qwen-3-VL 視覺語言編碼器與 VAE 解碼器的擴散骨幹網路。
- 訓練後與 RL 流程 – 基於強化學習的微調,以實現風格一致性與提示詞擴展。
- 基礎設施 – 分佈式訓練堆疊、存儲佈局以及實現大規模訓練 12B 模型所需的成本優化策略。
品質與領先的閉源模型相當
儘管完全開源,但 Artificial Analysis 的基準測試結果顯示,Krea 2 在文字轉圖像品質上與 Nano Banana 不相上下。
"We are on par with Nano Banana in terms of image quality as per Artificial Analysis text-to-image benchmarks." – Diego Rodriguez
授權與獲取方式
Krea 2 採用寬鬆的授權許可,允許個人與小型企業進行商業用途。模型託管於 Hugging Face (https://www.krea.ai/krea-2/huggingface) 並在 GitHub (https://www.krea.ai/krea-2/github) 提供程式碼庫。
社群反應與未來方向
廣泛的風格能力 – 評論者讚賞其「保持流形寬度」(keep the manifold wide)的哲學,旨在讓模型具備多種藝術風格,而非僅限於一組預設值。
圖像轉圖像的前沿領域 – 部分用戶指出,雖然 Krea 2 在文字轉圖像生成方面表現優異,但下一個重大挑戰是強大的圖像轉圖像(image-to-image)編輯能力,而像 Nano Banana 2 與 Images 2.0 等新模型已在該領域取得進展。
技術深度受到讚賞 – 關於訓練基礎設施的深入撰寫被視為社群的寶貴資源。
"Good to have more open weight models, and I really appreciate the in-depth write-up. I also like the ‘keep the manifold wide’ approach… the next frontier for image models lies in robust I2I."
如何開始使用
- 下載模型 – 從 Hugging Face 儲存庫選擇 Turbo 版本以進行快速推理,或選擇 RAW 版本進行研究。
- 閱讀報告 – 技術報告提供了關於數據流程、模型架構與訓練超參數的逐步細節。
- 進行實驗 – 使用提供的推理腳本或將模型整合至現有的擴散流程中。經 GGUF 轉換的 Turbo 檢查點可實現低資源 CPU 使用。
- 做出貢獻 – 開源授權鼓勵社群貢獻、微調與下游應用。
總結: Krea 2 提供具備兩款不同檢查點、詳盡技術報告與寬鬆授權的頂尖開源權重文字轉圖像生成模型,標誌著邁向民主化高品質擴散模型的重大一步。