AIコンテンツの均一性：Amazonの「AIスロップ」におけるLLMパターンの特定

AIコンテンツはパターンの均一性を通じて識別可能である

大規模言語モデル（LLM）が生成するテキストは人間が書いたものと区別がつかないという信念に反して、AI生成コンテンツは個々の単語ではなく、異なる出力間での特定の癖の体系的な繰り返しによって、しばしば容易に識別可能です。複数のユーザーが少数の支配的なモデルに対して同様のプロンプトを提供すると、結果として生成されるコンテンツは、予測可能で均一なパターンへと収束します。これはしばしば「AIスロップ（AI slop）」と呼ばれる現象です。

「100,000 Whys」のケーススタディ

この均一性の証拠は、Amazonにおける低品質なノンフィクション本の急増に見られます。「100,000 whys」を検索すると、驚くほど似通った約150冊の表紙が現れます。これは、それらが同じAIツールと類似のプロンプトを使用して生成されたことを示唆しています。

視覚的およびテキスト的な収束

表紙のデザイン: 複数の書籍が、左上に咆哮する恐竜、赤と白の漫画風のロケット、ゴールデンレトリバー、あるいはライオンといった、同一の視覚的モチーフを特徴としています。
命名規則: 一部の書籍群は、「Bright」という姓を持つ不審な数の著者（例：Ethan, Nolan, Pamela, Daniel, Thomas, Andrew W., Mayan, Mary, and Levi Bright）に帰属しており、また「Molly Wonder」や「Lucas Thinkwell」といったテーマ性のある名前にも分類されています。
決定論的な出力: この収束は、LLMが準決定論的（quasi-deterministic）であるために起こります。同様のプロンプトはしばしば機能的に同一の出力を生み出し、人間の観察者にとって「違和感」を感じさせるコンテンツの大量生産につながります。

なぜLLMは均一なコンテンツを生成するのか

単一のAI生成投稿は巧妙または人間のように見えるかもしれませんが、大規模にコンテンツを消費する場合、そのパターンは明白になります。これには、いくつかの技術的および構造的な理由があります。

モデルの多様性の欠如

人間は、執筆において多様な人生経験、気分、スキルをもたらします。対照的に、ほとんどのAIコンテンツは、同様のデータセットでトレーニングされた少数の支配的なモデルによって生成されます。ある観察者が指摘したように：

If you ask humans to write 1,000 books, you're asking 1,000 different humans... But if you ask LLMs to write 1,000 books, you're probably only talking to 3 or 5 different models, tops.

モード崩壊と指示チューニング

一部の技術的な貢献者は、これを「モード崩壊（mode collapse）」に起因するものと考えています。これは、モデルが可能な人間のような応答の極めてわずかな一部のみを生成する現象です。これは、指示チューニング（instruction tuning）やロールアウト・ポリシー（rollout policies）によって悪化している可能性があります。これらは、モデルが最も「統計的に明白な」あるいは「安全な」回答を提供できるように最適化されています。

プログラミングのパラドックス

興味深いことに、この均一性は、ソフトウェアエンジニアリングにおいてはバグではなく「機能」です。プログラミングにおいて、予測可能で明白なコードは「創造的」な実装よりも好まれます。モデルをコード向けに最適化することは、自然言語タスクにおける創造的な分散（variance）を意図せず的に減少させてしまった可能性があります、という理論があります。

AIスロップが情報エコシステムに与える影響

自動化されたコンテンツ作成の台頭は、ユーザーがデジタル情報や物理的な市場とどのように関わるかを変えつつあります。

信頼の浸食

コンテンツを制作することよりも、それに関与することの方が容易になっているため、従来のオンライン・インタラクションのモデルが崩壊しつつあります。これは、非実体的なデジタル製品に対する懐疑論の高まりと、自動化されたコンテンツを識別するための「直感」への依存を招いています。

物理的な市場への浸透

AI生成の「スロップ」は、もはやデジタルストアフロントに限定されません。報告によると、これらの書籍は、WalmartやTargetといった物理的な大型店（big-box stores）にも登場しており、出版社が棚を埋めるために内部のAI生成を利用している可能性があります。

品質の低下

表紙やタイトルの表面的な類似性だけでなく、これら自動化された書籍の実際の内容は、頻繁にエラーが散見されると報告されており、それが専門的に編集された人間の著作物とのさらなる違いを際立たせています。

AIコンテンツの均一性：Amazonの「AIスロップ」におけるLLMパターンの特定

AIコンテンツの均一性：Amazonの「AIスロップ」におけるLLMパターンの特定

AIコンテンツはパターンの均一性を通じて識別可能である

「100,000 Whys」のケーススタディ

視覚的およびテキスト的な収束

なぜLLMは均一なコンテンツを生成するのか

モデルの多様性の欠如

モード崩壊と指示チューニング

プログラミングのパラドックス

AIスロップが情報エコシステムに与える影響

信頼の浸食

物理的な市場への浸透

品質の低下

Sources