AI 内容的同质化:识别亚马逊“AI 垃圾”中的 LLM 模式
AI 内容的同质化:识别亚马逊“AI 垃圾”中的 LLM 模式
AI 内容可以通过模式同质化来识别
与大语言模型(LLMs)生成的文本与人类写作无法区分的观点相反,AI 生成的内容通常很容易识别,这并非通过单个词汇,而是通过不同输出中特定习性的系统性重复。当多个用户向少数几个主流模型提供类似的提示词时,生成的内容会收敛成一种可预测的、同质化的模式——这种现象通常被称为“AI slop”(AI 垃圾)。
“100,000 Whys” 案例研究
这种同质化的证据在亚马逊上大量涌现的低质量非虚构类书籍中清晰可见。搜索“100,000 whys”可以发现大约 150 个书封,它们表现出惊人的相似性,这表明它们是使用相同的 AI 工具和类似的提示词生成的。
视觉与文本的收敛
- 封面设计: 多本书籍都采用了相同的视觉主题,例如左上角有一只咆哮的恐龙、红白相间的卡通火箭、金毛寻回犬或狮子。
- 命名习惯: 一组书籍被归于数量可疑的作者姓氏为“Bright”的作者名下(例如 Ethan, Nolan, Pamela, Daniel, Thomas, Andrew W., Mayan, Mary, 和 Levi Bright),以及其他主题性的名字,如“Molly Wonder”和“Lucas Thinkwell”。
- 确定性输出: 这种收敛发生的原因在于 LLMs 是准确定性的;类似的提示词往往会产生功能上完全相同的输出,从而导致大规模生产出让观察者感到“不对劲”的内容。
为什么 LLMs 会产生同质化内容
虽然单篇 AI 生成的帖子可能看起来很聪明或很像人,但在大规模消费内容时,模式就会变得显而易见。这出于几个技术和结构性原因:
模型多样性有限
人类在写作时会带入多样化的生活经验、情绪和技能。相比之下,大多数 AI 内容是由少数几个在相似数据集上训练的主流模型生成的。正如一位观察者所言:
如果你要求人类写 1,000 本书,你是在要求 1,000 个不同的人……但如果你要求 LLMs 写 1,000 本书,你可能最多只在和 3 到 5 个不同的模型对话。
模式崩溃与指令微调
一些技术贡献者将此归因于“模式崩溃”(mode collapse),即模型仅生成人类可能反应中极小的一部分。这很可能由于指令微调和 rollout policies 的影响而加剧,这些策略优化了模型以提供最“统计学上显而易见”或“安全”的答案。
编程悖论
有趣的是,这种同质化在软件工程中是一个特性而非缺陷。在编程中,可预测且显而易见的代码比“创意”实现更受欢迎。有一种理论认为,针对代码优化模型可能会在无意中降低了它们在自然语言任务中的创意变异性。
AI Slop 对信息生态系统的影响
自动化内容创作的兴起正在改变用户与数字信息和实体市场交互的方式。
信任侵蚀
由于生产内容变得比参与内容变得更容易,传统的在线交互模式正在崩溃。这导致了人们对非实体的数字产品日益增长的怀疑,并开始依赖“直觉”来识别自动化内容。
实体市场渗透
AI 生成的“slop”不再局限于数字商店。报告指出,这些书籍出现在了实体大卖场(如 Walmart 和 Target),这可能是由出版商使用内部 AI 生成来填补货架所致。
质量退化
除了封面和标题的表面相似性外,据报道,这些自动化书籍的实际内容经常充斥着错误,这进一步将它们与经过专业编辑的人类作品区分开来。