xlstm: LSTM を拡張し、言語モデリングで Transformer と競合するリカレントニューラルネットワークアーキテクチャ

xlstm: LSTM を拡張し、言語モデリングで Transformer と競合するリカレントニューラルネットワークアーキテクチャ

解決する課題

xLSTM(Extended Long Short-Term Memory)は、元の LSTM アーキテクチャの制限を克服し、言語モデリングにおいて Transformer や State Space Models(SSM)と競合できるように設計されています。大規模言語モデルにおいて、トレーニングと推論の両方で効率的なリカレントニューラルネットワーク(RNN)代替手段を提供することを目指しています。

仕組み

このアーキテクチャは、元の LSTM に対して主に 2 つの強化を導入しています。

  1. 指数ゲーティング: 正規化と安定化手法を用いて、ネットワークの情報フロー管理を改善します。
  2. マトリックスメモリ: 新しいメモリ構造で、複雑なデータパターンをより効果的に扱えるようにします。

プロジェクトは主に 2 つのコンポーネントを提供します:xLSTMBlockStack(汎用アプリケーション向けのバックボーン)と xLSTMLMModel(トークンベースの言語モデリング用ラッパー)。さらに、トレーニングスループットと安定性を最適化した特殊な xLSTMLarge アーキテクチャも含まれており、これを用いて 7B パラメータモデルを 2.3 兆トークンで学習させました。

対象者

  • AI 研究者: シーケンスモデリングにおいて Transformer アーキテクチャの代替手段を探している方。
  • ML エンジニア: 高速かつ効率的な推論のためにリカレントモデルを実装したい開発者。
  • 開発者: 既存プロジェクトに Transformer ブロックの代わりに xLSTM バックボーンを組み込みたいユーザー。

ハイライト

  • 7B パラメータモデル: 2.3T トークンで学習した大規模リカレント LLM。
  • 最適化カーネル: mlstm_kernels パッケージを通じて Triton および CUDA カーネルをサポートし、NVIDIA と AMD GPU 上で高性能実行が可能。
  • 柔軟なアーキテクチャ: sLSTM と mLSTM ブロックの両方をサポートし、状態追跡と記憶能力のバランスを取るために組み合わせ可能。
  • ハードウェア互換性: Apple Metal(コミュニティが提供する MLX ポートを含む)などのプラットフォーム向けにネイティブ PyTorch 実装が利用可能。

要約: LSTM を拡張し、Transformer と State Space Models に匹敵する新しいリカレントニューラルネットワークアーキテクチャ。効率的な推論を実現する 7B パラメータの言語モデルを特徴とします。

タイトル: xlstm: LSTM を拡張し、言語モデリングで Transformer と競合するリカレントニューラルネットワークアーキテクチャ

Sources