rf-detr: SOTAの物体検出、インスタンスセグメンテーション、およびキーポイント検出のためのリアルタイム・トランスフォーマー・アーキテクチャ

rf-detr: SOTAの物体検出、インスタンスセグメンテーション、およびキーポイント検出のためのリアルタイム・トランスフォーマー・アーキテクチャ

何を解決するか

RF-DETRは、コンピュータビジョン・タスクのための高性能でリアルタイムなトランスフォーマー・アーキテクチャを提供します。物体検出、インスタンスセグメンテーション、およびキーポイント検出において、高い精度(SOTA)と低レイテンシのバランスが必要とされる課題に対応します。

仕組み

RF-DETRは、DINOv2 vision transformerバックボーン上に構築されています。複数のビジョン・タスクに対して一貫したAPIを提供し、さまざまなモデルサイズ(Nanoから2XLargeまで)を用意することで、ユーザーがハードウェアや要件に基づいて速度と精度の最適なトレードオフを選択できるようにします。

対象ユーザー

物体の識別、その境界(セグメンテーション)、または画像内の特定のキーポイントを高い精度で特定する必要がある、リアルタイム・ビジョン・システムを実装する開発者やAI研究者を対象としています。

ハイライト

  • マルチタスク対応: 単一のAPIで、物体検出、インスタンスセグメンテーション、およびキーポイント検出(プレビュー)をサポートします。
  • SOTAのパフォーマンス: Microsoft COCOやRF100-VLなどのベンチマークにおいて、SOTAの精度とレイテンシのトレードオフを実現します。
  • モデルのスケーラビリティ: さまざまなデプロイ環境に適応できるよう、幅広いモデルサイズ(Nano, Small, Medium, Large, XL, 2XL)を提供します。
  • 簡単な統合: rfdetr Pythonパッケージ、またはRoboflow Inferenceライブラリを通じて使用できます。

Sources