LLaDA: autoregressive LLM에 필적하는 성능을 가진 대규모 마스크 확산 언어 모델

LLaDA: autoregressive LLM에 필적하는 성능을 가진 대규모 마스크 확산 언어 모델

해결하는 문제

LLaDA는 고성능 대규모 언어 모델(LLMs)이 거의 독점적으로 자기회귀(다음 토큰 예측) 방식이라는 한계를 다룹니다. 이 모델은 확산 기반의 언어 모델링 접근 방식이 LLaMA3와 같은 모델과 대등한 성능을 달성할 수 있는지 탐구하며, 동시에 "reversal curse"와 같은 문제를 극복하고 생성 텍스트에 대한 다른 이론적 토대를 제공할 수 있는지 확인합니다.

작동 방식

텍스트를 왼쪽에서 오른쪽으로 토큰 단위로 생성하는 표준 LLM과 달리, LLaDA는 마스크 확산 모델입니다. Transformer 아키텍처를 사용하지만, 마스크된 시퀀스에서 원래 토큰을 복구하는 법을 배우는 확률적 모델링 접근 방식을 채택합니다. 훈련 과정에서는 0과 1 사이에서 무작위로 변하는 마스킹 비율을 사용하여, 모델 분포의 음의 로그 가능도(negative log-likelihood)의 상한선을 목표로 합니다. 이를 통해 인컨텍스트 학습(in-context learning)과 지시사항 이행(instruction-following)이 가능한 생성 모델로서 기능할 수 있습니다.

대상 사용자

이 프로젝트는 비자기회귀 생성(non-autoregressive generation), 텍스트용 확산 모델, 그리고 언어 모델링 아키텍처의 이론적 상한선을 탐구하는 AI 연구자 및 개발자를 주요 대상으로 합니다.

주요 특징

  • Scale: 처음부터 훈련된 8B 파라미터 모델로, LLaMA3 8B에 필적하는 성능을 보여줍니다.
  • Architectural Flexibility: 시간 $t$를 입력으로 사용할 필요가 없는 표준 Transformer 아키텍처를 사용합니다.
  • Variants: 채팅을 위한 Instruct 버전, 시각-언어 버전(LLaDA-V), 그리고 추론 시 약 1B의 활성 파라미터만 사용하는 Mixture-of-Experts 버전(LLaDA-MoE)이 포함됩니다.
  • Efficiency Improvements: iLLaDA 버전은 벤치마크 성능과 생성 효율성을 모두 향상시킵니다.

Sources