데이터 블랙홀: AI에서 샘플 효율성 격차 이해하기

AI 진보는 샘플 효율성이 아니라 데이터 양에 의해 주도된다

현대 AI의 진보는 데이터 분포를 넓히고 개선하며 연산량을 확장함으로써 이루어지는 것이지, 모델이 데이터를 얼마나 효율적으로 학습하는지에 대한 근본적인 개선 때문은 아니다. 지능은 "샘플 효율성"—특정 분야에서 유창하게 작동하기 위해 필요한 데이터 양—으로 정의될 수 있다. AI 능력은 확대되었지만, 학습 과정의 근본적인 효율성은 크게 향상되지 않았다.

강화 학습(RL)은 합성 데이터 생성을 위한 메커니즘으로 작동한다. 검증자나 루브릭(종종 판단자 역할을 하는 LLM)에 연산을 적용함으로써 모델은 고품질 데이터를 식별하고 올바른 롤아웃을 예측하도록 훈련된다. 그러나 이 과정은 모델이 올바른 해답을 예상하는 사전 확률이 일정 수준 이상이어야 하며, 이를 위해서는 모든 목표 기술에 걸쳐 방대한 맞춤형 인간 전문가 데이터가 필요하다.

인간 전문가 데이터의 역할

특정 분야에서 역량을 갖추기 위해 AI 연구소는 수백 명의 전문가를 고용해 완성문을 생성하고, 루브릭을 작성하며, 사고 사슬을 설명한다. 이는 다음과 같은 매우 구체적인 작업을 전문으로 하는 수십억 달러 규모의 데이터 산업을 만들었다:

레거시 문서를 깔끔한 Word 파일로 변환하기.
현실적인 M&A 실사 보고서 또는 증권 신고서 작성하기.
템플릿 형태의 시장 조사 만들기.

샘플 효율성 격차: 인간 vs. AI

인간이 기술을 배우는 데 필요한 데이터 양과 최첨단 AI 모델이 필요로 하는 데이터 양 사이에는 거대한 차이가 있다. 이 격차는 AI의 눈에 보이는 능력을 지원하는 "데이터 블랙홀"로 특징지어진다.

정량적 비교

언어 습득: 인간 성인은 성인이 될 때까지 대략 2억 토큰 정도를 접했을 것으로 추정된다(시간당 2,000단어 가정). 반면 최첨단 모델은 수십에서 수백 트릴리언 토큰으로 훈련되며, 이는 백만 배 차이이다.
로보틱스: 인간은 몇 시간 안에 로봇 팔을 원격 조종하는 방법을 배울 수 있다. AI 모델은 수백만 시간의 시연이 필요하고 여전히 복잡하고 개방형 작업에 어려움을 겪는다.
운전: 청소년은 약 20시간의 연습으로 운전을 배울 수 있다. Waymo와 Tesla와 같은 기업의 자율주행 모델은 인간이 사용하는 데이터보다 3~~4 자릿수(천 배~~만 배) 더 많은 데이터를 사용한다.

흔한 반론에 대한 대응

진화적 사전학습: 일부는 수십억 년의 진화가 인간을 "사전학습"했다고 주장한다. 그러나 인간 게놈은 3GB에 불과하고, 그 중 1-2%만이 단백질 코딩 영역이다. 이는 사전학습된 네트워크의 파라미터를 저장하기에 충분하지 않다. 진화는 하이퍼파라미터와 손실 함수를 최적화했을 가능성이 있지만, 연결체(가중치와 파라미터)는 여전히 평생 동안 새로 구축된다.
다중모달 데이터: 인간이 시각과 청각을 통해 더 많은 데이터를 섭취한다는 주장은, 시각장애인이나 청각장애인도 일반적인 지능을 유지한다는 사실에 의해 반박된다. 이는 방대한 감각 토큰 스트림이 인간 지능의 주요 동인이 아니라는 것을 시사한다.
모델 스케일링: 스케일링 법칙은 더 큰 모델이 더 샘플 효율적이라고 제시하지만, 그 효과는 미미하다. Chinchilla 스케일링 법칙에 따르면, 파라미터를 무한대로 늘려도 동일한 손실을 유지하기 위해 필요한 데이터는 10배 정도만 감소한다. 이는 백만 배 차이를 메우기에 충분하지 않다.

자동화와 AI 연구에 대한 함의

샘플 효율성이 부족함에도 불구하고, AI는 방대한 데이터를 "화재호스"처럼 모델에 주입하는 비용을 수십억 사용자 세션에 걸쳐 상쇄할 수 있기 때문에 백오피스 업무 자동화에 경제적으로 여전히 타당하다.

백오피스 자동화

소프트웨어 엔지니어, 회계사, 분석가가 수행하는 일반적인 작업에 대해서는 데이터가 이미 훈련 분포에 쉽게 가져올 수 있다. AI는 인간보다 이러한 작업을 배우는 효율성은 낮지만, 수백만 건의 인스턴스에 걸쳐 출력을 확장할 수 있기 때문에 비효율성은 손익에 큰 영향을 미치지 않는다.

분포 기반 학습의 한계

일부 직무는 "분포 외" 사고를 요구한다—기존 훈련 데이터와 거리가 먼 문제를 다루는 능력. 소프트웨어 엔지니어링은 이러한 능력이 필요한 직업의 대표적인 예시이다. 따라서 2028년에는 현재보다 인간 소프트웨어 엔지니어에 대한 수요가 더 높아질 수 있다. AI는 완전한 대체가 아니라 보완 도구로 작용한다.

인간 수준 지능으로 가는 길

AI 연구소는 먼저 AI 연구 자체를 자동화하는 것을 목표로 한다. 자동화된 AI 연구자가 샘플 효율성 문제를 해결하도록 함으로써, 모델이 단순히 "조각난 예시들의 프랑켄슈타인 괴물"을 넘어 최소한의 데이터로 새로운 주변 기술을 학습하는 인간과 유사한 능력을 갖추게 된다.

요약: 현재 AI 진보는 샘플 효율성 향상이 아니라 방대한 데이터 스케일링에 의해 주도되고 있으며, 인간과 AI 사이에 백만 배에 달하는 학습 격차가 존재한다.

제목: 데이터 블랙홀: AI에서 샘플 효율성 격차 이해하기

데이터 블랙홀: AI에서 샘플 효율성 격차 이해하기

데이터 블랙홀: AI에서 샘플 효율성 격차 이해하기

AI 진보는 샘플 효율성이 아니라 데이터 양에 의해 주도된다

인간 전문가 데이터의 역할

샘플 효율성 격차: 인간 vs. AI

정량적 비교

흔한 반론에 대한 대응

자동화와 AI 연구에 대한 함의

백오피스 자동화

분포 기반 학습의 한계

인간 수준 지능으로 가는 길

Sources