heretic: 這是什麼、解決了什麼問題以及為什麼它正受到關注
heretic: 這是什麼、解決了什麼問題以及為什麼它正受到關注
解決了什麼問題
Heretic 的設計目的是從基於 transformer 的語言模型中移除「安全對齊」(censorship)。它的目標是在不需要昂貴的後訓練或對 transformer 內部結構有深厚專業知識的情況下實現這一點,從而讓模型能夠回答原本會拒絕的提示詞。
如何運作
Heretic 使用一種稱為方向性消融(directional ablation,或稱「abliteration」)的技術。它透過比較有害與無害提示詞的殘差(residuals)來識別模型隱藏狀態中的「拒絕方向」。接著,它會將模型的權重矩陣(特別是 attention out-projection 和 MLP down-projection)與這些方向進行正交化處理,以抑制模型拒絕的能力。
對象是誰
- LLM 使用者: 想要獲得現有模型之無審查版本,且不需要進行微調的人。
- AI 研究人員: 那些研究模型內部結構與可解釋性的人,因為 Heretic 提供了繪製殘差向量與分析殘差幾何結構的工具。
重點摘要
- 全自動化: 不需要手動配置或 transformer 專業知識即可對模型進行去審查。
- 廣泛支援: 適用於大多數 dense models、multimodal models 以及各種 MoE 架構。
- 保留智慧: 使用優化技術來確保模型盡可能保留其原始能力。
- 可解釋性工具: 包含研究功能,可生成 PaCMAP 投影與殘差幾何結構表,以視覺化殘差在層與層之間如何轉換。
Sources
- undefinedp-e-w/heretic