왜 무제한 GPU를 가진 AI 연구실도 실패하는가: Anjney Midha의 통찰

인프라 격차: 컴퓨팅 양이 곧 진보를 의미하지 않는 이유

많은 AI 연구실이 현재 충분한 자본과 컴퓨팅 파워를 보유하고 있지만, 의미 있는 돌파구를 내놓지 못하고 있다. 이러한 실패는 종종 인프라 관리가 부실하고 "출력 극대화"라는, 단순히 양을 늘리는 것이 아니라 가용 자원의 실제 효용을 최대화하는 규율이 부족하기 때문이다.

인프라 낭비 비용

고규모 환경에서는 낭비가 급격히 누적된다. Anjney Midha는 구글에서 노드 활용도가 95% 미만이면 종종 장애로 간주되었다고 언급한다. 반면 현재 많은 최전선 연구실은 반복적인 구축 없이 너무 빠르게 규모를 확장해 큰 비효율을 초래한다.

클러스터 건강을 측정하는 주요 지표는 두 가지이다:

노드 할당: 현재 데이터 센터에서 사용 중인 카드 비율. 이상적으로는 96% 이상이어야 한다.
모델 FLOPs 활용도 (MFU): 실제 컴퓨팅 효율성. 최고 수준의 MFU는 현재 60%~70% 수준이다.

책임 있는 인프라와 커뮤니티 정렬

AI 데이터 센터 확장은 전력망 및 환경 영향에 대한 지역 사회의 반발로 점점 더 제약을 받는다. Midha는 "책임 있는 인프라" 모델을 제안한다. 여기서는 한계 컴퓨팅 비용의 일부(예: 시간당 추가 $0.50)를 현지 커뮤니티에 현금으로 직접 지급하거나 지역 전기 요금을 낮추는 데 사용한다. 이렇게 하면 데이터 센터가 침입자가 아니라 지역 파트너가 되어 허가 실패 위험을 줄일 수 있다.

AMP Grid: 독립 시스템 운영자 모델

전체 스택을 통합하는 모델(한 기업이 칩, 데이터 센터, 모델을 모두 소유) 대신, AMP는 독립 시스템 운영자 (ISO) 로 설계된 컴퓨팅 그리드를 구축하고 있다.

풀링과 대체 가능성

전력망과 유사하게, AMP Grid는 "메가플롭을 메가와트처럼 흐르게" 하는 것을 목표로 한다. 클라우드와 실리콘 공급자를 아우르는 풀링 및 활용 레이어를 만들어 고립된 컴퓨팅 풀을 없애는 것이 목표다.

동적 우선순위와 중단 가능한 수요

Google의 Borg/GQM 스케줄러를 참고해 Midha는 중단 가능한 수요를 주장한다. 이 시스템은 동적 우선순위를 위한 입찰 또는 크레딧 메커니즘을 사용한다:

팀은 기본 용량을 보장받는다.
연구 피크는 크레딧 시스템으로 처리되며, 높은 우선순위 작업(크레딧 사용량에 따라 결정)이 낮은 우선순위 작업을 중단할 수 있다.

"출력 극대화" 철학

Midha는 "출력 극대화"를 GPU부터 인적 자본, 의료비까지 전체 스택의 낭비를 제거함으로써 최적의 결과를 추구하는 것으로 정의한다.

전체 스택 정렬

규모가 커질수록 API와 조직 추상화로 인한 "손실이 있는" 커뮤니케이션이 발생한다. Midna는 정렬을 잃지 않고 확장하려면 다음이 필요하다고 주장한다:

엄격한 표준화: 손실 없는 커뮤니케이션을 보장하기 위해 개방형 프로토콜과 API 사양을 채택한다.
전혀 새로운 역량: 실온 초전도체와 같은 돌파구를 발견해 이전 병목 현상을 무의미하게 만든다.

시스템 공동 설계와 신뢰 경계

NVIDIA가 아닌 칩 스타트업에게 주요 병목은 "신뢰 경계"다. 효과적인 시스템 공동 설계를 위해 칩 제조업체는 테이프아웃 수년 전부터 미래 모델 아키텍처에 대한 가시성을 가져야 한다. Midha는 성공적인 스타트업 중 일부가 모든 전투를 직접 싸우지 않고, 예를 들어 NVIDIA 레퍼런스 아키텍처를 물리적 풋프린트에 채택함으로써 논리 다이에 혁신을 집중하고 기존 데이터 센터 구축 계획과 호환성을 유지한다는 점을 강조한다.

문화가 궁극적인 방어벽

Midha는 문화가 신념 집합이 아니라 행동 집합이라고 주장한다. 많은 연구실이 정의된 "P0"(우선순위 0)과 고난 속에서 다져진 문화를 결여했기 때문에 실패한다.

성공에 있어 고난의 역할

Anthropic을 예로 들어 Midha는 초기 투자가에게 거절당하고 OpenAI보다 적은 자원을 가졌던 것이 결함이 아니라 특징이라고 말한다. 이러한 부족함이 그들을 더 효율적으로 만들었고, P0(코딩)를 명확히 정의하도록 만들었다.

"준비된 마음"과 운

Anthropic이 코딩을 "깨달은" 방법에 대한 질문에 Midha는 운에 의존한 주사위 굴림을 부정한다. 대신 그는 "운은 준비된 마음을 선호한다"는 원칙을 인용한다. Anthropic의 코딩 성공은 4년간의 엄격한 준비, 편집증, 효율성 덕분에 적절한 데이터와 상황이 나타났을 때 이를 활용할 수 있었기 때문이다.

AI 적용 사례: 말기 예측

최전선 모델 외에도 Midha는 의료 분야, 특히 말기 예측에 AI 적용을 강조한다.

미국 의료 시스템에서는 말기 진단의 불확실성이 종종 공격적이고 저품질의 말기 치료를 초래하며, 이는 Medicare/Medicaid 지출의 30%를 차지한다. Midha는 AI가 남은 기대 수명을 훨씬 더 정밀하게 예측할 수 있다고 주장한다. 이러한 정밀성은 환자들이 문화적·종교적 요인보다 과학적 근거에 기반해 최종 일정을 결정하도록 도와 세금 부담을 줄이고 삶의 질을 향상시킨다.

요약 Anjney Midha, AMP CEO는 AI 확장은 단순히 컴퓨팅 양이 아니라 엄격한 인프라 효율성, 사명에 맞는 문화, 전략적 공동 설계를 통한 '출력 극대화'가 필요하다고 주장한다.

제목 왜 무제한 GPU를 가진 AI 연구실도 실패하는가: Anjney Midha의 통찰

왜 무제한 GPU를 가진 AI 연구실도 실패하는가: Anjney Midha의 통찰

왜 무제한 GPU를 가진 AI 연구실도 실패하는가: Anjney Midha의 통찰

인프라 격차: 컴퓨팅 양이 곧 진보를 의미하지 않는 이유

인프라 낭비 비용

책임 있는 인프라와 커뮤니티 정렬

AMP Grid: 독립 시스템 운영자 모델

풀링과 대체 가능성

동적 우선순위와 중단 가능한 수요

"출력 극대화" 철학

전체 스택 정렬

시스템 공동 설계와 신뢰 경계

문화가 궁극적인 방어벽

성공에 있어 고난의 역할

"준비된 마음"과 운

AI 적용 사례: 말기 예측

Sources