AI 內容的同質性:識別 Amazon Slop 中的 LLM 模式

AI 內容的同質性:識別 Amazon Slop 中的 LLM 模式

AI 內容可透過模式同質性來辨識

與認為大型語言模型 (LLMs) 產生的文本與人類寫作無法區分的觀點相反,AI 生成的內容通常很容易辨識,這並非透過單個詞彙,而是透過不同輸出中特定慣用方式的系統性重複。當多個使用者向少數幾個主導模型提供相似的提示詞時,產生的內容會收斂成一種可預測的、同質性的模式——這種現象通常被稱為「AI slop」。

「100,000 Whys」案例研究

這種同質性的證據在 Amazon 上大量出現的低品質非虛構類書籍中清晰可見。搜尋「100,000 whys」會發現大約 150 個書封,它們展現出驚人的相似性,這表明它們是使用相同的 AI 工具和相似的提示詞生成的。

視覺與文本的收斂

  • 書封設計: 多本書籍展現出相同的視覺主題,例如左上角有一隻咆哮的恐龍、紅白相間的卡通火箭、黃金獵犬或獅子。
  • 命名慣例: 一群書籍被歸於可疑數量姓氏為「Bright」的作者(例如 Ethan, Nolan, Pamela, Daniel, Thomas, Andrew W., Mayan, Mary, 和 Levi Bright),以及其他主題性名稱如「Molly Wonder」和「Lucas Thinkwell」。
  • 決定性輸出: 這種收斂發生是因為 LLMs 是準決定性的;相似的提示詞通常會產生功能上完全相同的輸出,導致大量生產出讓人類觀察者感到「不對勁」的內容。

為什麼 LLMs 會產生同質性內容

雖然單篇 AI 生成的貼文可能看起來很聰明或像人,但當大規模消費內容時,模式就會變得明顯。這發生於幾個技術與結構性原因:

模型多樣性有限

人類在寫作時會帶來多樣化的生活經驗、情緒和技能。相比之下,大多數 AI 內容是由少數幾個在相似數據集上訓練的主導模型生成的。正如一位觀察者所言:

如果你要求人類寫 1,000 本書,你是在要求 1,000 個不同的人類... 但如果你要求 LLMs 寫 1,000 本書,你可能最多只在與 3 到 5 個不同的模型對話。

模式崩塌與指令微調

一些技術貢獻者將此歸因於「模式崩塌 (mode collapse)」,即模型僅生成可能的人類式回應中的極小部分。這很可能因指令微調 (instruction tuning) 和展開策略 (rollout policies) 而加劇,這些策略優化了模型以提供最「統計學上顯而易見」或「安全」的答案。

編程悖論

有趣的是,這種同質性在軟體工程中是一項功能而非錯誤。在編程中,可預測且顯而易見的代碼是首選,而非「創意」的實作。有一種理論認為,針對代碼進行模型優化可能會在無意中降低了它們在自然語言任務中的創意變異性。

AI Slop 對資訊生態系統的影響

自動化內容創作的興起正在改變使用者與數位資訊和實體市場的互動方式。

信任侵蝕

由於生產內容比參與內容變得更容易,傳統的線上互動模式正在瓦解。這導致了對非實體數位產品日益增長的懷疑,以及對識別自動化內容的依賴於「直覺」。

實體市場滲透

AI 生成的「slop」不再侷限於數位商店。報告指出,這些書籍出現在實體大型賣場(例如 Walmart 和 Target),可能是由出版商使用內部的 AI 生成來填補書架。

品質退化

除了書封和書名在表面上的相似性之外,這些自動化書籍的實際內容經常被報導充滿了錯誤,這進一步將它們與經過專業編輯的人類作品區分開來。

Sources