기술 채용에서의 표준화된 시험의 귀환

기술 채용에서의 SAT 점수의 재부상

일부 기술 스타트업들은 AI의 도움을 받지 않은 순수한 인지 능력을 검증하기 위한 수단으로 채용 과정에서 SAT 점수를 다시 요구하기 시작했습니다. 이러한 트렌드는 생성형 AI가 이력서, 자기소개서, 과제 테스트와 같은 전통적인 선별 도구들을 자동화하기 쉽게 만들면서, 후보자의 실제 "순수 역량"을 가릴 가능성이 높아짐에 따라 나타나고 있습니다.

표준화된 시험이 구식이라는 인식이 많지만, 옹호론자들은 이러한 시험이 잘 다듬어진 AI 생성 포트폴리오보다 속이기 어려운 기초적인 유창성을 객관적으로 벤치마킹할 수 있는 지표를 제공한다고 주장합니다. 그러나 수십 년 전의 점수를 사용하는 것은 상당한 노이즈를 유발할 수 있는데, 이는 이러한 시험이 후보자의 현재 전문적 역량이 아닌 17세 당시의 상태를 반영하기 때문입니다.

직무 성과에 대한 근거 기반 예측 지표

모든 채용 평가 방식이 동일한 가치를 지니는 것은 아닙니다. 연구에 따르면 특정 방법들을 조합했을 때 지식 노동에서의 전문적 성공을 가장 잘 예측할 수 있는 타당도가 나타납니다.

높은 타당도의 방법

구조화된 면접 (Structured Interviews): 현재 성과를 예측하는 가장 강력한 지표 중 하나로 간주됩니다. 효과를 거두기 위해서는 일관된 질문, 표준화된 채점 기준, 그리고 편향을 최소화하기 위한 훈련된 면접관이 필요합니다.
작업 샘플 및 직무 지식 테스트 (Work Sample and Job Knowledge Tests): 후보자가 실제 직무의 대표적인 부분을 수행하게 하는 것(예: 수습 기간 또는 특정 기술 과제)은 역량을 직접 관찰할 수 있는 기회를 제공합니다.
인지 능력 테스트 (Cognitive Ability Tests): 특히 학습 곡선이 가파르거나 집중적인 교육이 필요한 역할에서 강력한 예측 지표로 남아 있지만, 일반적으로 구조화된 면접보다는 예측력이 낮습니다.
평가 센터 (Assessment Centers): 시뮬레이션과 다수의 평가자를 활용하는 이 방식은 관리직 적성을 예측하는 데 매우 효과적이지만, 일반적인 채용에는 비용과 시간이 너무 많이 소요될 수 있습니다.

낮은 타당도의 방법

비구조화된 면접 (Unstructured Interviews): 격식 없는 "대화"는 후광 효과, 인상 관리, 그리고 "나와 유사한 사람" 편향에 취약하기 때문에 가장 효과가 낮은 예측 지표 중 하나입니다.
브레인 티저 (Brain Teasers): 한때 Google과 Microsoft 같은 기업들이 유행시켰으나, 현재는 직무 성과를 예측하지 못하는 시간 낭비로 널리 인식되고 있습니다.
성격 테스트 (Personality Tests): Myers-Briggs와 같은 도구는 일반적으로 전문적 성공을 예측하는 데 효과적이지 않은 것으로 간주됩니다.

SAT 점수를 지표로 사용하는 것의 과제

SAT 점수를 채용 필터로 사용하는 것은 데이터 포인트로서의 유용성을 저해할 수 있는 몇 가지 기술적 및 윤리적 과제를 안고 있습니다.

점수 불일치 (Score Inconsistency): SAT 점수 체계는 여러 차례 변경되었습니다(최대 점수가 1600점에서 2400점으로 변경되는 등). 이로 인해 서로 다른 시기의 후보자들을 비교하는 것이 어려워집니다.
환경적 노이즈 (Environmental Noise): 점수는 튜터링을 받을 수 있는 환경, 가정의 안정성, 그리고 17세 당시 후보자의 정신 상태 등 시험을 치른 당시의 조건에 큰 영향을 받습니다.
제한된 범위 (Limited Scope): 표준화된 시험은 일반적인 지능이나 호기심을 대변할 수 있지만, 신뢰성, 협업 능력, 의사소통 기술과 같은 필수적인 전문적 특질성을 측정하는 데는 실패합니다.

AI 시대에 맞춘 채용 방식의 변화

AI가 생성한 지원서로 인해 발생하는 "완벽하고 가짜인 올스타" 효과에 대응하기 위해, 채용 담당자들은 검증 가능하고 감독하에 진행되는 최신 평가 방식으로 전환할 것을 권장받고 있습니다.

권장되는 AI 저항성 대안

실시간 제한 시간 과제 (Live, Timed Exercises): 기술 테스트를 대인면접이나 감독하에 진행되는 원격 세션으로 실시하면 후보자가 실시간으로 LLM을 사용하여 답변을 생성하는 것을 방지할 수 있습니다.
방어적 작업 리뷰 (Defensive Work Reviews): 만약 과제 테스트(take-home project)가 사용된다면, 이후 면접에서는 해당 작업물에 대해 "심문"하듯 질문하여 후보자가 자신의 논리를 방어하고 과정을 설명하게 함으로써 작업물이 본인의 것인지 확인해야 합니다.
대면 화이트보딩 (In-Person Whiteboarding): 물리적인 화이트보드 사용으로 돌아가는 것은 면접관이 후보자의 사고 과정을 실시간으로 관찰할 수 있게 해줍니다.
실시간 역할극 (Live Roleplay): GTM (Go-To-Market) 또는 영업직군을 위한 실시간 시뮬레이션은 대인 관계 능력과 의사소통 기술을 측정하는 가장 효과적인 방법입니다.

표준화된 시험에 대한 커뮤니티의 관점

업계 전문가들 사이의 논의는 이러한 시험의 유용성에 대해 의견이 갈립니다.

"SAT 점수는 IQ와 .81의 상관관계를 가지며, IQ는 지식 노동 성과에 긍정적으로 강력하게 상관하는 몇 안 안 되는 요소 중 하나입니다. 후보자의 SAT 점수를 아는 것은 아마도 많은 알파(alpha)를 제공할 것입니다."

반대로, 다른 이들은 이러한 요구 사항이 문화적 필터로 작용하거나 고액 학력의 우수한 후보자들을 저해할 수 있다고 주장합니다.

"석사 학위를 가진 제 친구가 SAT 점수를 요구하는 회사에 첫 출근을 했습니다... 그는 대학원 학위가 있는 사람을 채용할 때 SAT 점수를 따지는 데 이토록 진지한 회사는 이와 같이 일하고 싶지 않다는 것을 깨달았습니다."

기술 채용에서의 표준화된 시험의 귀환

기술 채용에서의 표준화된 시험의 귀환

기술 채용에서의 SAT 점수의 재부상

직무 성과에 대한 근거 기반 예측 지표

높은 타당도의 방법

낮은 타당도의 방법

SAT 점수를 지표로 사용하는 것의 과제

AI 시대에 맞춘 채용 방식의 변화

권장되는 AI 저항성 대안

표준화된 시험에 대한 커뮤니티의 관점

Sources