科技招聘中標準化測試的回歸

科技招聘中標準化測試的回歸

技術招聘中 SAT 分數的復興

一些科技新創公司正重新開始在求職申請中要求提供 SAT 分數,以此作為驗證原始、非 AI 輔助認知能力的手段。隨著生成式 AI 使傳統的篩選工具——如履歷、求職信和家庭作業——變得更容易自動化,這種趨勢應運而生,因為這些工具可能會掩蓋候選人的實際「原始馬力」。

雖然標準化測試通常被視為過時,但支持者認為它們提供了基礎流暢度的客觀基準,這比精心修飾、由 AI 生成的作品集更難偽造。

然而,使用數十年前的分數會引入顯著的雜訊,因為這些測試反映的是候選人青少年時期的狀態,而非其目前的專業能力。

以證據為基礎的工作績效預測指標

並非所有的招聘評估都是平等的。研究顯示,結合特定方法可以為知識型工作的專業成功提供最高的預測效度。

高效能預測方法

  • 結構化面試 (Structured Interviews): 這些目前被認為是最強的績效預測指標之一。為了發揮效用,它們需要一致的問題、標準化的評分標準以及經過培訓的面試官,以最大限度地減少偏見。
  • 工作樣本與工作知識測試 (Work Sample and Job Knowledge Tests): 讓候選人執行代表實際工作的片段(例如:試用期或特定的技術任務),可以提供對能力的直接觀察。
  • 認知能力測試 (Cognitive Ability Tests): 這些仍然是強大的預測指標,特別是對於學習曲線陡峭或有大量培訓需求的職位,儘管它們通常比結構化面試的預測力較低。
  • 評估中心 (Assessment Centers): 利用模擬與多位評估者,這些方法對於預測管理能力非常有效,但對於一般招聘而言通常太過昂貴且耗時。

低效能預測方法

  • 非結構化面試 (Unstructured Interviews): 由於容易受到光環效應、印象管理和「與我相似」偏見的影響,隨意的「聊天」是效果最差的預測指標之一。
  • 腦筋急轉彎 (Brain Teasers): 曾由 Google 和 Microsoft 等公司流行,但現在被廣泛認為是浪費時間且無法預測工作績效。
  • 人格測試 (Personality Tests): 如 Myers-Briggs 等工具,通常被認為對於預測專業成功是無效的。

使用 SAT 分數作為指標的挑戰

將 SAT 分數作為招聘篩選標準會帶來幾個技術與倫理挑戰,這可能削弱其作為數據點的效用:

  • 分數不一致性: SAT 的評分量表曾多次變動(在 1600 與 2400 的最高分之間切換),這使得難以比較來自不同世代的候選人。
  • 環境雜訊: 分數受到測試進行時環境條件的嚴重影響,包括補習資源的獲取、家庭穩定性,以及候選人在 17 歲時的精神狀態。
  • 範圍有限: 標準化測試可能可以作為一般智力或好奇心的代理指標,但無法衡量必要的專業特質,例如可靠性、協作能力與溝通技巧。

為了 AI 時代進行招聘調整

為了對抗由 AI 生成的申請文件所產生的「完美、虛假的全明星」效應,招聘經理被鼓勵轉向使用可驗證、受監控且即時的評估方式。

建議的抗 AI 替代方案

  • 即時、限時練習 (Live, Timed Exercises): 在現場或透過受監控的遠端會議進行技術測試,可以防止候選人即時使用 LLMs 來生成答案。

  • 防禦性工作審查 (Defensive Work Reviews): 如果使用家庭作業專案,隨後的面試應著重於對該工作的「審問」,要求候選人為其邏輯辯護,並解釋其過程,以確保該工作是其本人完成的。

  • 實體白板測試 (In-Person Whiteboarding): 回歸實體白板測試,可以讓面試官在即時觀察候選人的思考過程。

  • 即時角色扮演 (Live Roleplay): 對於 GTM (Go-To-Market) 或銷售職位,即時模擬是衡量人際關係與溝通技巧最有效的方式。

社群對標準化測試的看法

業界專業人士的討論揭示了對這些測試效用的分歧:

"SAT 分數與 IQ 的相關性為 .81,而 IQ 是少數幾種能與知識型工作績效呈強正相關的因素之一。了解候選人的 SAT 分數或許能帶來很大的 alpha。"

相反地,其他人認為這類要求可以作為一種文化篩選器或對高素質候選人的阻礙:

"我有一位擁有碩士學位的友人,在第一天上班時發現該職位要求提供 SAT 分數... 他意識到他不想為一家在招聘擁有研究生學位的人時,還對 SAT 分數如此認真的公司工作。"

Sources