heretic: 它是什么,解决了什么问题,以及为什么它正受到关注

heretic: 它是什么,解决了什么问题,以及为什么它正受到关注

解决了什么问题

Heretic 旨在从基于 transformer 的语言模型中移除“安全对齐”(审查)。它的目标是在无需昂贵的事后训练或深入了解 transformer 内部机制的情况下实现这一点,从而允许模型回答它们原本会拒绝的提示词。

工作原理

Heretic 使用一种称为方向性消融(directional ablation,或称“abliteration”)的技术。它通过比较有害提示词和无害提示词的残差(residuals)来识别模型隐藏状态中的“拒绝方向”。然后,它针对这些方向将模型的权重矩阵(特别是 attention out-projection 和 MLP down-projection)进行正交化处理,以抑制模型的拒绝能力。

适合谁使用

  • LLM Users: 人们想要现有模型的无审查版本,而无需进行微调。
  • AI Researchers: 研究模型内部机制和可解释性的学者,因为 Heretic 提供了绘制残差向量并分析残差几何结构(residual geometry)的工具。

亮点

  • 全自动: 无需手动配置或 transformer 专家知识即可对模型进行去审查。
  • 广泛的支持: 适用于大多数稠密模型(dense models)、多模态模型以及各种 MoE 架构。
  • 智能保留: 使用优化技术确保模型尽可能保留其原始能力。
  • 可解释性工具: 包括研究功能,可以生成 PaCMAP 投影并创建残差几何结构表,以可视化残差如何在层与层之间进行转换。

Sources