HackerRank 招聘代理：AI 簡歷篩選非決定性的分析

AI 簡歷篩選表現出高度非決定性

HackerRank 的開源 ATS 工具 hiring-agent 展示了顯著的分數不穩定性，同一份簡歷在多次評估中可能得到截然不同的結果。在一系列測試中，同一份簡歷使用預設的 gemma3:4b 模型時，得分在 66 到 99（滿分 100）之間波動，意味著候選人可能僅因 LLM 輸出的隨機性而通過或未通過公司的分數門檻。

即使將模型溫度設為 0，這種非決定性仍然存在，說明這是一個根本性的設計缺陷，而非簡單的配置錯誤。使用更強大的模型 gemini-3.1-flash-lite 進行測試時，分佈雖然收斂，但仍有足夠的變異性，會隨機淘汰相當比例的候選人。

招聘代理的評分系統運作方式

hiring-agent 工具通過多步驟的 LLM 流程處理簡歷：

解析： 將 PDF 轉換為文字。
抽取： 呼叫 LLM 六次，抽取關於基本資訊、工作經歷、教育背景、技能、專案與獎項的結構化資料。
上下文豐富化： 工具抓取候選人的 GitHub 個人檔案，並掃描其頂級倉庫以加入額外上下文。
評分： 將所有收集的資料送入最後一次 LLM 呼叫，根據特定的分數分配方式進行評分。

評分規範

總分為 100 分，另有最高 20 分的加分項：

類別	最高分數
開源貢獻	35
個人專案	30
工作經驗	25
技術技能	10
加分（創業經驗、部落格等）	20

評估中的關鍵設計缺陷

1. 判斷不一致 vs. 清單驗證

分析顯示，「技術技能」的分數高度一致，因為它們充當二元清單（例如「候選人是否會使用 React？」）。相較之下，「專案」與「開源」的分數變化劇烈，因為它們需要 LLM 做主觀判斷——例如一個專案是否展示「架構複雜度」——卻缺乏嚴謹、具體的評分標準。

2. 缺乏經驗錨點

儘管「工作經驗」是專業人士檔案的核心部分，但此類別的規範嚴重不足。用於評估經驗的提示僅有兩行，且缺乏範例或錨點，無法區分只有一次實習的初級工程師與擁有十年經驗的資深工程師。因此，兩者都可能得到滿分 25/25，讓此指標在區分候選人質量上毫無作用。

3. 過度加權課外活動

系統將基礎分數的 65% 分配給開源貢獻與個人專案。此加權方式嚴重懲罰那些可能不維護公開 GitHub 倉庫的資深專業工程師，同時可能過度抬高擁有高星專案但缺乏專業經驗的候選人。

LLM 實作的技術批評

業界專家與開發者在審視 hiring-agent 實作時，指出了多項系統性問題：

單一提示（Monolithic Prompting）： 系統嘗試在一次呼叫中完成所有評估步驟。專家建議將其拆分為子任務（例如，針對開源、針對經驗各自一個提示），以提升準確度。
模糊形容詞： 提示依賴「重大貢獻」或「廣泛社群參與」等主觀詞彙，LLM 難以一致量化。
偏見緩解無效： 提示指示 LLM 忽略人口統計資訊（姓名、性別）。技術批評者指出，唯一可靠的方式是在資料送入 LLM 前就剝除這些資訊，因為輸入仍會影響模型的統計分布。
缺乏可追溯性： 系統缺少讓人類審查日誌、了解為何給予特定分數的機制，對人力資源團隊而言是一個「黑箱」。

"你不能依賴 LLM 提供針對任意標準的標準化分數。要接近『可靠』，必須有高度測試過、以人類決策為基礎的評分規範……這個倉庫只是充滿願景的泥沼，隨機數字散落其中。"

對招聘的影響

AI 驅動的篩選工具的波動性意味著，候選人可能因「抽樣運氣」而被過濾，而非實際能力。對公司而言，這增加了錯過高質量候選人的風險，因為他們可能在某一次執行中恰好低於隨機門檻。對候選人而言，則產生了是否應優化簡歷以提升人類可讀性，或是針對 LLM 關鍵字與連結密度進行優化的疑問。

HackerRank 招聘代理：AI 簡歷篩選非決定性的分析

HackerRank 招聘代理：AI 簡歷篩選非決定性的分析

AI 簡歷篩選表現出高度非決定性

招聘代理的評分系統運作方式

評分規範

評估中的關鍵設計缺陷

1. 判斷不一致 vs. 清單驗證

2. 缺乏經驗錨點

3. 過度加權課外活動

LLM 實作的技術批評

對招聘的影響

Sources