kornia: 一个为 PyTorch 提供超过 500 个可微图像处理和几何视觉算子的可微计算机视觉库

kornia: 一个为 PyTorch 提供超过 500 个可微图像处理和几何视觉算子的可微计算机视觉库

它解决了什么问题

Kornia 提供了一个可微计算机视觉库，允许将图像处理和几何视觉算法直接集成到深度学习流水线中。它消除了在非可微库（如 OpenCV）和深度学习框架之间切换的需求，从而为视觉任务实现自动微分和 GPU 加速。

它是如何工作的

Kornia 构建在 PyTorch 之上，将视觉算子实现为可微模块。这使得梯度可以流经图像变换、滤波器和几何操作。它支持批处理变换并提供了一套全面的工具，包括：

图像处理：可微滤波器（Gaussian, Sobel）、颜色转换和形态学操作。
数据增强：用于数据增强（例如 RandAugment）的复杂流水线，且经过 GPU 加速。
几何学：用于相机标定、立体视觉和 3D 变换的工具。
AI 模型：集成用于人脸检测、特征匹配（LoFTR, LightGlue）和分割（SAM）的预训练模型。

它是为谁设计的

它专为从事计算机视觉研究的 AI 研究人员和开发人员设计，特别是那些使用 PyTorch 且需要在可微框架内进行复杂图像操作以进行训练或推理的用户。

亮点

可微算子：超过 500 个支持自动微分的算子。
GPU 加速：与 PyTorch 无缝集成，实现高性能处理。
多框架支持：通过 Ivy 与 TensorFlow, JAX, 和 NumPy 兼容。
半精度支持：支持 float16 和 bfloat16 以优化内存和速度。
端到端视觉：将重点转向集成视觉语言模型 (VLM) 和视觉语言智能体 (VLA)。

Sources

undefinedkornia/kornia