heretic: 它是什么，解决了什么问题，以及为什么它正受到关注

解决了什么问题

Heretic 旨在从基于 transformer 的语言模型中移除“安全对齐”（审查）。它的目标是在无需昂贵的事后训练或深入了解 transformer 内部机制的情况下实现这一点，从而允许模型回答它们原本会拒绝的提示词。

工作原理

Heretic 使用一种称为方向性消融（directional ablation，或称“abliteration”）的技术。它通过比较有害提示词和无害提示词的残差（residuals）来识别模型隐藏状态中的“拒绝方向”。然后，它针对这些方向将模型的权重矩阵（特别是 attention out-projection 和 MLP down-projection）进行正交化处理，以抑制模型的拒绝能力。

适合谁使用

LLM Users: 人们想要现有模型的无审查版本，而无需进行微调。
AI Researchers: 研究模型内部机制和可解释性的学者，因为 Heretic 提供了绘制残差向量并分析残差几何结构（residual geometry）的工具。

亮点

全自动: 无需手动配置或 transformer 专家知识即可对模型进行去审查。
广泛的支持: 适用于大多数稠密模型（dense models）、多模态模型以及各种 MoE 架构。
智能保留: 使用优化技术确保模型尽可能保留其原始能力。
可解释性工具: 包括研究功能，可以生成 PaCMAP 投影并创建残差几何结构表，以可视化残差如何在层与层之间进行转换。

heretic: 它是什么，解决了什么问题，以及为什么它正受到关注

heretic: 它是什么，解决了什么问题，以及为什么它正受到关注

解决了什么问题

工作原理

适合谁使用

亮点

Sources