로컬에서 SOTA LLM 실행하기: 하드웨어 및 구성 가이드

로컬에서 SOTA LLM 실행하기: 하드웨어 및 구성 가이드

로컬에서 최첨단(SOTA) 대형 언어 모델(LLM)을 실행하려면 VRAM 용량, 인터커넥트 대역폭, 시스템 안정성 사이의 전략적 균형이 필요합니다. 예산에 따라 사용자는 소비자용 하드웨어에서 27B 파라미터 모델을 효율적으로 구동하는 수준부터 전문 워크스테이션에서 594B 파라미터 모델을 구동하는 수준까지 다양한 지능 수준을 달성할 수 있습니다.

로컬 LLM을 위한 하드웨어 단계

로컬 LLM 성능은 주로 VRAM에 의해 제한됩니다. 다음 단계는 모델 지능 수준별 하드웨어 요구 사항을 정리한 것입니다.

엔트리 레벨: 약 $2,000 (48GB VRAM)

예산이 약 $2,000인 경우 권장 구성은 두 개의 RTX 3090 GPU이며, 총 48GB VRAM을 제공합니다. 이 구성은 Qwen3.6-27B와 같은 모델 및 whisper-large-v3와 같은 최신 음성‑텍스트(STT) 모델을 실행할 수 있습니다.

하이엔드: 약 $40,000+ (384GB VRAM)

Claude Opus 수준의 지능에 도달하려면 384GB VRAM이 필요합니다. 이는 각각 96GB VRAM을 제공하는 네 개의 NVIDIA RTX 6000 Pro(Blackwell) 워크스테이션 카드를 사용해 달성합니다.

고급 시스템 아키텍처: 384GB VRAM 구축

고용량 VRAM 시스템을 구축하려면 GPU뿐만 아니라, 과도한 PCIe 5.0 또는 DDR5 부품에 비용을 낭비하지 않으면서도 처리량과 전력 요구를 감당할 수 있는 베이스 시스템이 필요합니다.

베이스 시스템 사양

비용을 합리적으로 유지하기 위해 최신 세대가 아닌 EPYC 시스템을 권장합니다. 일반적인 구성은 다음과 같습니다:

  • Motherboard: ASRock Rack ROMED8-2T (SP3, 7× PCIe 4.0 x16).
  • CPU: AMD EPYC Milan 7313P (16코어).
  • RAM: 128GB DDR4 ECC RDIMM.
  • Power: 듀얼 Super Flower 1700W PSU.
  • Storage: 4TB 부팅 NVMe와 모델 가중치를 위한 8TB NVMe 2개(ZFS 복제).

피어‑투‑피어(P2P) 성능을 위한 PCIe 스위칭

텐서 병렬화에서 allreduce 단계 중 PCI 루트 복합체의 병목을 피하려면 PCIe 4.0 스위치(예: c-payne.com 제공)를 사용하는 것이 핵심입니다. 이를 통해 GPU가 직접 와이어 속도로 통신할 수 있습니다.

성능 결과: Gen4 스위치를 사용하면 시스템이 27.5 GB/s 단방향 및 50.4 GB/s 양방향 P2P 대역폭을 달성하고, 레이턴시는 0.37–0.45 µs(서브 마이크로초) 수준입니다.

핵심 구성 및 최적화

하드웨어만으로는 충분하지 않으며, 고속 P2P 통신을 활성화하고 시스템 정지를 방지하기 위해 특정 BIOS 및 커널 설정이 필요합니다.

BIOS 설정 (ROMED8-2T)

  • AMD PCIE Link Width: x16으로 설정(분할 비활성화)하여 업스트림 링크가 Gen4 x8/x8으로 트레인되도록 합니다.
  • PCIe Link Speed: Auto가 아닌 Gen4로 강제 지정해 Blackwell Gen5 장치가 트레인에 실패하고 Gen1으로 강등되는 것을 방지합니다.
  • ASPM: 비활성화하여 유휴 링크가 2.5GT/s로 떨어지는 것을 막고 재트레인 레이턴시를 방지합니다.
  • Re-Size BAR: 전체 VRAM BAR 노출 및 GPU P2P를 위해 활성화합니다.
  • SR-IOV: IOMMU 오버헤드를 피하기 위해 비활성화합니다.

커널 및 GRUB 파라미터

멀티 GPU P2P 작업 중 NCCL 정지를 방지하려면 다음 GRUB 파라미터가 필요합니다:

GRUB_CMDLINE_LINUX="iommu=off amd_iommu=off nomodeset"

또한 nvidia_uvm 모듈을 uvm_disable_hmm=1 옵션으로 설정해 P2P 문제를 해결합니다.

스위치 P2P를 위한 ACS 비활성화

Access Control Services(ACS)를 비활성화해야 스위치 패브릭 내부에서 P2P 트래픽이 유지됩니다. ACS가 활성화되면 트래픽이 CPU 루트 포트를 통해 돌아가 PCIe 스위치의 이점을 상실하게 됩니다. 일반적으로 부팅 시 setpci 스크립트를 systemd oneshot 서비스로 실행해 처리합니다.

전원 및 열 관리

표준 110V 회로에서 네 개의 고성능 GPU를 구동하려면 차단기 트립을 방지하기 위해 전원 제한이 필수입니다. nvidia-smi를 사용해 GPU당 전원 제한을 350W(기본 600W에서 감소)로 설정하면 전체 GPU 부하가 1,400W가 되어 PSU 예산 및 110V 회로 용량에 맞춥니다.

모델 배포 및 도구

서빙 인프라

모델은 Docker 컨테이너로 관리되며, 각 모델마다 별도의 docker-compose.yml 구성이 있습니다. 가중치는 중복을 방지하기 위해 읽기 전용 ZFS 마운트에 저장됩니다. 추론 시에는 주로 vLLM을 서빙 엔진으로 사용합니다.

AI 활용 스택

로컬 모델의 활용도를 극대화하려면 외부 도구와 통합해야 합니다. 권장 스택은 다음과 같습니다:

  • 웹 브라우징: Camofox, Kagi API, SearXNG.
  • 커뮤니케이션: 알림용 Telegram 봇.
  • 코드 협업: 로컬 전용 Gitea 인스턴스.
  • 격리: 보안을 위해 공유 파일시스템 마운트를 가진 샌드박스 VM에서 에이전트 실행.

커뮤니티 시각 및 트레이드‑오프

고급 로컬 구축은 강력하지만, 커뮤니티 논의에서는 몇 가지 중요한 트레이드‑오프가 강조됩니다:

"기사에 나온 대형 구축은 $40K 예산으로 시작해 GPU당 $12K인 4개의 GPU를 포함합니다. 실제로 이 구축을 하는 사람들은 50‑55K 정도가 들 것입니다."

양자화 및 품질 저하

사용자는 제한된 하드웨어에서 대형 모델을 실행하려면 양자화(예: 4‑bit) 또는 프루닝(예: REAP)이 필요하다고 경고합니다. 이는 장기 작업이나 복잡한 코딩에서 작은 오류가 누적되어 품질이 눈에 띄게 떨어질 수 있습니다.

경제적 타당성

일부는 진입 비용이 클라우드 제공업체 대비 과도하다고 주장합니다. $2,000 투자 대비 통합 메모리를 갖춘 MacBook Pro나 월 $20 정도의 클라우드 API 구독이 더 유연하고 높은 지능을 제공한다는 의견도 있습니다.

Sources