heretic: 這是什麼、解決了什麼問題以及為什麼它正受到關注

解決了什麼問題

Heretic 的設計目的是從基於 transformer 的語言模型中移除「安全對齊」（censorship）。它的目標是在不需要昂貴的後訓練或對 transformer 內部結構有深厚專業知識的情況下實現這一點，從而讓模型能夠回答原本會拒絕的提示詞。

如何運作

Heretic 使用一種稱為方向性消融（directional ablation，或稱「abliteration」）的技術。它透過比較有害與無害提示詞的殘差（residuals）來識別模型隱藏狀態中的「拒絕方向」。接著，它會將模型的權重矩陣（特別是 attention out-projection 和 MLP down-projection）與這些方向進行正交化處理，以抑制模型拒絕的能力。

對象是誰

LLM 使用者： 想要獲得現有模型之無審查版本，且不需要進行微調的人。
AI 研究人員： 那些研究模型內部結構與可解釋性的人，因為 Heretic 提供了繪製殘差向量與分析殘差幾何結構的工具。

重點摘要

全自動化： 不需要手動配置或 transformer 專業知識即可對模型進行去審查。
廣泛支援： 適用於大多數 dense models、multimodal models 以及各種 MoE 架構。
保留智慧： 使用優化技術來確保模型盡可能保留其原始能力。
可解釋性工具： 包含研究功能，可生成 PaCMAP 投影與殘差幾何結構表，以視覺化殘差在層與層之間如何轉換。

heretic: 這是什麼、解決了什麼問題以及為什麼它正受到關注

heretic: 這是什麼、解決了什麼問題以及為什麼它正受到關注

解決了什麼問題

如何運作

對象是誰

重點摘要

Sources