LLMLingua: コストを削減しLLM推論を加速させるためにトークン使用量を最大20倍削減するプロンプト圧縮ツールキット

LLMLingua: コストを削減しLLM推論を加速させるためにトークン使用量を最大20倍削減するプロンプト圧縮ツールキット

解決する課題

LLMLinguaは、プロンプトの長さの制限や高いAPIコストに関する大規模言語モデル(LLM)の制限に対処します。特に、LLMが長いコンテキストの中間にある情報を処理するのに苦労するという「lost in the middle」問題に焦点を当て、パフォーマンスを犠牲にすることなく、より多くの情報をプロンプトに詰め込むことを支援します。

仕組み

このプロジェクトは、プロンプトから非必須のトークンを特定して削除する一連のプロンプト圧縮手法を提供します:

  • LLMLingua: コンパクトで十分に訓練された言語モデル(GPT2-smallやLLaMA-7Bなど)を使用して冗長なトークンを削除し、最大20倍の圧縮を実現します。
  • LongLLMLingua: 「lost in the middle」問題を軽減し、RAGのパフォーマンスを向上させるために、特に長いコンテキストのシナリオ向けに設計されています。
  • LLMLingua-2: BERTレベルのエンコーダーを使用してGPT-4からのデータ蒸留を通じて訓練された、より高速でタスクに依存しない圧縮器です。
  • SecurityLingua: ジェイルブレイク攻撃における悪意のある意図を明らかにするために、セキュリティを意識した圧縮を使用するセーフティガードレールです。

対象ユーザー

LLMベースのアプリケーションを構築している開発者や研究者、特にRetrieval-Augmented Generation(RAG)を使用している、長い文書を処理している、またはAPIコストと推論レイテンシを削減したいと考えている人々を対象としています。

ハイライト

  • 大幅な圧縮: パフォーマンスの損失を最小限に抑えながら、プロンプトの長さを最大20倍削減します。
  • コストと速度: トークン数とKV-cacheのサイズを削減することで、APIコストを低減し、推論を加速させます。
  • RAGの強化: トークンをわずかな一部しか使用せずに、RAGのパフォーマンスを最大21.4%向上させます。
  • 統合: LangChain、LlamaIndex、Prompt flowなどの人気のあるフレームワークに統合されています。
  • タスクに依存しない: LLMLingua-2は3倍から6倍の速度向上を提供し、ドメイン外のデータを効果的に処理します。

Sources