heretic: とは何なのか、どのような問題を解決し、なぜ注目を集めているのか

heretic: とは何なのか、どのような問題を解決し、なぜ注目を集めているのか

解決する問題

Hereticは、transformerベースの言語モデルから「安全性へのアライメント」(検閲)を取り除くために設計されています。高価なポストトレーニングやtransformerの内部構造に関する深い専門知識を必要とせずに、モデルが通常であれば拒否してしまうようなプロンプトに回答できるようにすることを目指しています。

仕組み

Hereticは、directional ablation(または「abliteration」)と呼ばれる手法を使用します。有害なプロンプトと無害なプロンプトの残差(residuals)を比較することで、モデルの隠れ状態(hidden states)における「拒否の方向性(refusal directions)」を特定します。次に、これらの方向性に対してモデルの重み行列(具体的にはattention out-projectionとMLP down-projection)を直交化することで、モデルの拒否能力を抑制します。

対象となるユーザー

  • LLM Users: 既存のモデルの検閲なしバージョンを、ファインチューニングを行うことなく利用したい人々。
  • AI Researchers: モデルの内部構造や解釈可能性を研究している人々。Hereticは、残差ベクトルをプロットしたり、残差の幾何学的構造(residual geometry)を分析したりするためのツールを提供します。

ハイライト

  • 完全自動: モデルの検閲を除去するために、手動の設定やtransformerの専門知識は必要ありません。
  • 幅広いサポート: ほとんどのdenseモデル、マルチモーダルモデル、および様々なMoEアーキテクチャに対応しています。
  • 知能の維持: 最適化手法を用いることで、モデルが元の能力を可能な限り保持できるようにします。
  • 解釈可能性ツール: レイヤー間で残差がどのように変化するかを可視化するために、PaCMAPプロジェクションや残差の幾何学的構造(residual geometry)テーブルを生成する研究用機能が含まれています。

Sources