Krea 2 开源权重 12B 文本生成图像模型发布
Krea 2 开源权重 12B 文本生成图像模型发布
Krea 2 发布开源权重 12B 文本生成图像模型
Krea 发布了两个 120 亿参数文本生成图像模型的权重——Krea 2 Turbo 和 Krea 2 RAW——以及一份详尽的技术报告,解释了数据策展、架构、训练流水线和基础设施。此次发布为生产级扩散模型提供了一个罕见的开源视角,并为个人和小型企业提供了宽松的许可协议。
两个检查点针对不同的使用场景
- Krea 2 Turbo 是一个经过引导和时间步蒸馏的检查点,旨在实现快速推理。它已经以 GGUF 格式提供,以便于在 CPU 上高效执行。
- Krea 2 RAW 是未经蒸馏的检查点,旨在用于研究、微调和进一步实验。它在训练中期和训练后阶段均有发布,这种做法在图像生成社区中并不常见。
"We are releasing two checkpoints at both the mid-training and post-training stage. This is rare in the image & multimedia community, so we can't help but feel proud of this release." – Diego Rodriguez, Co-founder & CTO of Krea
技术报告涵盖端到端流水线
随附的报告 (https://www.krea.ai/blog/krea-2-technical-report) 详细介绍了:
- 数据策展与标注 – 如何收集、过滤和标注数十亿个图像-文本对。
- 模型架构 – 基于 Qwen-3-VL 视觉语言编码器和 VAE 解码器的扩散骨干网络。
- 训练后与 RL 流水线 – 基于强化学习的微调,以实现风格一致性和提示词扩展。
- 基础设施 – 分布式训练栈、存储布局以及实现大规模训练 12B 模型的能力优化策略。
质量可与领先的闭源模型媲美
尽管是完全开源的,但 Artificial Analysis 基准测试结果显示 Krea 2 在文本生成图像质量方面与 Nano Banana 不相上下。
"We are on par with Nano Banana in terms of image quality as per Artificial Analysis text-to-image benchmarks." – Diego Rodriguez
许可与获取方式
Krea 2 根据宽松的许可协议发布,允许个人和小型企业进行商业使用。模型托管在 Hugging Face (https://www.krea.ai/krea-2/huggingface) 上,代码库可在 GitHub (https://www.krea.ai/krea-2/github) 上获取。
社区反应与未来方向
- 广泛的风格能力 – 评论者称赞了 "keep the manifold wide"(保持流形宽阔)的理念,该理念旨在使模型能够具备多种艺术风格,而不是仅限于一组预设的集合。
- 图像生成图像 (Image-to-image) 前沿 – 一些用户指出,虽然 Krea 2 在文本生成图像方面表现出色,但下一个重大挑战是强大的图像生成图像编辑能力,这是 Nano Banana 2 和 Images 2.0 等较新模型已经在推进的方向。
- 技术深度备受认可 – 关于训练基础设施的深入阐述被视为社区的宝贵资源。
"Good to have more open weight models, and I really appreciate the in-depth write-up. I also like the ‘keep the manifold wide’ approach… the next frontier for image models lies in robust I2I."
如何开始使用
- 下载模型 – 从 Hugging Face 仓库中选择 Turbo 用于快速推理,或选择 RAW 用于研究。
- 阅读报告 – 技术报告提供了关于数据流水线、模型架构和训练超参数的逐步详细信息。
- 进行实验 – 使用提供的推理脚本或将模型集成到现有的扩散流水线中。GGUF 转换后的 Turbo 检查点支持低资源 CPU 使用。
- 进行贡献 – 开源许可鼓励社区贡献、精调调优、下游应用开发。
总结: Krea 2 通过两个不同的检查点、一份详尽的技术报告和宽松的许可协议,提供了最先进的开源权重文本生成图像模型,标志着向普及高质量扩散模型迈出了重要一步。