scenic: 大規模なアテンションベースのコンピュータビジョンモデルをプロトタイプするためのJAXベースのリサーチライブラリ

scenic: 大規模なアテンションベースのコンピュータビジョンモデルをプロトタイプするためのJAXベースのリサーチライブラリ

何を解決するか

Scenicは、コンピュータビジョンのための大規模なアテンションベースのモデルを研究・プロトタイプするための、合理化されたフレームワークを提供します。共通のトレーニングタスク用の共有ライブラリ、最適化されたループ、および入力パイプラインを提供することで、複雑なビジョンモデルを構築するために必要な労力を軽減します。これらは特にマルチデバイスおよびマルチホスト環境向けに設計されています。

仕組み

JAXとFlaxを使用して構築されたScenicは、そのアーキテクチャを2つのレベルに分割しています:

  1. ライブラリレベルのコード: dataset_lib (スケーラブルなIOパイプライン)、model_lib (抽象的なモデルインターフェース、アテンション/transformerレイヤー、および二部マッチング)、train_lib (最適化されたトレーニングループ)、および common_lib (一般的なユーティリティ) を含む、最小限で十分にテストされた共有ライブラリ。
  2. プロジェクトレベルのコード: 特定のタスクのためのカスタマイズ可能な実装。 研究者は、既存のconfigを使用するか、ライブラリのコンポーネントをフォークして、ニーズに基づいてアーキテクチャ、損失関数、およびメトリクスを再定義できます。

対象者

コンピュータビジョンに取り組むAI研究者および開発者向けに設計されています。これには、分類、セグメンテーション、検出、および画像、ビデオ、オーディオを含むマルチモーダルタスクのモデルを開発している人々が含まれます。

ハイライト

  • 幅広いモダリティのサポート: 画像、ビデオ、オーディオ、およびマルチモーダルな組み合わせで正常に使用されています。
  • スケーラブルなインフラストラクチャ: 複数のデバイスおよびホストにわたる大規模なトレーニングのための組み込みサポート。
  • 広範なベースラインライブラリ: ViT、DETR、CLIP、およびSAMのようなSOTAモデルの実装を含みます。
  • ** فلسفه (Philosophy)**: 複雑な抽象化よりも、フォークやコピー&ペーストを優先することで、シンプルさと迅速なプロトタイピングを優先します。

Sources