heretic: 무엇인지, 어떤 문제를 해결하는지 & 왜 인기를 얻고 있는지
heretic: 무엇인지, 어떤 문제를 해결하는지 & 왜 인기를 얻고 있는지
해결하는 문제
Heretic은 transformer-based 언어 모델에서 "safety alignment"(검열)를 제거하도록 설계되었습니다. 이는 비용이 많이 드는 사후 학습(post-training)이나 transformer 내부 구조에 대한 깊은 전문 지식 없이도 수행할 수 있도록 하여, 모델이 평소라면 거부했을 프롬프트를 답변할 수 있게 합니다.
작동 방식
Heretic은 directional ablation(또는 "abliteration")이라고 불리는 기술을 사용합니다. 유해한 프롬프트와 무해한 프롬프트의 잔차(residuals)를 비교하여 모델의 은닉 상태(hidden states)에서 "refusal directions"를 식별합니다. 그런 다음 모델의 가중치 행렬(특히 attention out-projection 및 MLP down-projection)을 이러한 방향에 대해 직교화(orthogonalize)하여 모델의 거부 능력을 억제합니다.
대상 사용자
- LLM Users: 기존 모델의 검열되지 않은 버전을 파인튜닝 없이 사용하고 싶은 사람들.
- AI Researchers: 모델 내부 구조와 해석 가능성(interpretability)을 연구하는 사람들. Heretic은 잔차 벡터(residual vectors)를 플롯하고 잔차 기하학(residual geometry)을 분석할 수 있는 도구를 제공합니다.
주요 특징
- Fully Automatic: 모델의 검열을 해제하기 위해 수동 설정이나 transformer 전문 지식이 필요하지 않습니다.
- Broad Support: 대부분의 dense models, multimodal models, 그리고 다양한 MoE 아키텍처와 호환됩니다.
- Intelligence Preservation: 최적화를 사용하여 모델이 원래의 능력을 최대한 유지하도록 보장합니다.
- Interpretability Tools: 잔차가 레이어 사이에서 어떻게 변환되는지 시각화하기 위해 PaCMAP projections 및 잔차 기하학 테이블을 생성하는 연구 기능을 포함합니다.
Sources
- undefinedp-e-w/heretic