maxtext: 확장 가능한 LLM 사전 학습 및 사후 학습을 위한 고성능 JAX 레퍼런스 구현체

maxtext: 확장 가능한 LLM 사전 학습 및 사후 학습을 위한 고성능 JAX 레퍼런스 구현체

해결하는 문제

MaxText는 대규모 언어 모델(LLM) 학습을 위한 고성능, 확장 가능한 레퍼런스 구현체를 제공하도록 설계되었습니다. 복잡한 수동 최적화 없이도 단일 호스트에서 수만 개의 칩에 이르는 하드웨어 클러스터 전반에서 높은 모델 FLOPs 활용도(MFU)와 처리량(tokens/second)을 달성해야 하는 과제를 해결합니다.

작동 방식

순수 Python과 JAX로 작성된 MaxText는 Google Cloud TPU와 GPU를 대상으로 합니다. Flax(신경망), Tunix(사후 학습), Orbax(체크포인팅), Optax(최적화), Grain(데이터 로딩)을 포함한 JAX AI 스택을 활용합니다. 이 라이브러리는 고성능 모델 아키텍처 세트(Gemma, Llama, DeepSeek, Qwen 등)를 제공하며, 처음부터 시작하는 사전 학습과 Supervised Fine-Tuning(SFT) 및 Reinforcement Learning(GRPO 및 GSPO)과 같은 기술을 사용한 확장 가능한 사후 학습을 모두 지원합니다.

대상 사용자

모델 설계를 실험하거나, 대규모 모델을 사전 학습하거나, 기존의 오픈 소스 또는 독점 모델을 사후 학습시키기 위해 확장 가능하고 "최적화가 필요 없는" 프레임워크가 필요한 야심 찬 LLM 프로젝트를 구축하는 AI 연구원 및 프로덕션 엔지니어들을 대상으로 합니다.

주요 특징

  • 광범위한 모델 지원: Gemma 4, Llama 4, DeepSeek V3, Qwen 3.5, Kimi K2 등을 포함한 레퍼런스 구현체를 포함합니다.
  • 높은 확장성: 수만 개의 칩에 걸친 사전 학습을 지원합니다.
  • 사후 학습 프레임워크: Tunix를 통한 SFT 및 RL(GRPO/GSPO) 통합 지원을 제공하며, RL 워크플로우의 샘플링에는 vLLM이 사용됩니다.
  • 하드웨어 최적화: XLA 컴파일러를 사용하여 Google Cloud TPU 및 GPU에 특화되어 최적화되었습니다.
  • 멀티모달 기능: Gemma 3, Gemma 4, Llama 4 VLM의 멀티모달 학습을 지원합니다.

Sources