真相的侵蚀:为什么在 AI 时代你必须核实你的来源
真相的侵蚀:为什么在 AI 时代你必须核实你的来源
数字景观目前正在经历一场悄无声息但深刻的变革。多年来,互联网一直是一个庞大的信息库,指向信誉良好的来源的链接通常被视为可信度的象征。然而,大语言模型 (LLMs) 和生成式 AI 的兴起引入了一种新现象:“AI slop”(AI 垃圾内容)——这些内容看起来很专业,听起来很有权威性,但从根本上与现实脱节。
当我们把研究过程外包给 AI 时,我们不仅仅是在节省时间;我们是在拿我们的专业声誉冒险。随着生产大量、听起来合理的内容的门槛降至零,实际核实工作的价值也随之飙升。
幻觉的解剖
AI 的失败很少是显而易见的。它并不总是表现为胡言乱语;相反,它经常表现为“幻觉”——对事实的自信断言,但这些断言微妙或完全错误。一个典型的例子是最近 AI 生成的 LinkedIn 帖子,声称瑞典已经部署了“智能机器”将乌鸦变成城市清洁工。虽然快速搜索会发现这仅仅是某家初创公司一次失败的一次性试点,但 AI 生成的叙述将其转化为一个国家级的成功故事,并配有 AI 生成的乌鸦图像(有些甚至有三条腿)来诱导读者。
在技术语境下发生的幻觉更为危险。考虑一个关于代码审查效率的说法:“缺陷检测率从 100 行以下 PR 的 87% 下降到 1,000 行以上 PR 的 28%。”
对于普通读者来说,这些数字看起来精确且具有科学性。然而,在调查实际来源——一项 SmartBear/Cisco 研究——之后,情况变得很明朗:这些数字在研究中根本不存在。该研究讨论了缺陷密度和审查速度(每小时代码行数),但从未提供所引用的特定百分比降幅。AI 只是采取了一个普遍趋势(较大的 PR 较难审查)并编造了具体的统计数据,以使观点显得更加“权威”。
AI 在边缘领域的失败
LLMs 是概率引擎。当有海量的训练数据可供借鉴时,它们表现出色,但在“边缘”领域——即利基专业知识、特定研究论文或低容量数据领域——它们会表现挣扎。当一个 LLM 无法在其训练集中找到确定的答案时,它并不总是承认无知。相反,它经常用听起来合理的编造内容来填补空白。
这创造了一个危险的反馈循环。当一篇带有虚假统计数据的 AI 生成文章在网上发布时,它随后会被其他 LLMs 索引。这些模型随后会引用这篇虚假文章作为可靠来源,从而进一步放大原始的幻觉。这种“引用清洗”确保了错误信息变成了自我强化的噪声,使得人类越来越难以找到原始的真相。
便利的代价:可信度即货币
在专业环境中,可信度是主要的货币。使用 AI 在几分钟内起草草案而不是花费数小时进行研究和写作的诱惑力是巨大的。然而,这种便利的代价是冒着在谎言上签名的风险。
正如一位评论员所指出的,问题不仅仅在于 AI,而是在于信息的“监管链” (chain of custody)。即使在 AI 时代之前,也存在“引用清洗”——记者会引用其他记者,而不是原始研究,随着每一次迭代,离真相越来越远。AI 只是将这一过程加速到了工业规模。
超越工具:一种核实策略
如果我们依赖 AI 来总结研究,我们本质上是在把我们的声誉托付给一个黑盒。为了对抗真相的侵蚀,我们必须回归到一种更严谨的信息消费方式:
- 打破链接链: 不要相信“摘要的摘要”。顺着链接追溯到原始来源文档(PDF、原始数据、学术论文)。
- 验证具体细节: 当你看到一个特定的百分比或一个确切的数字时,将其视为一个警示信号。专门在来源文档中搜索该数字,以确保它没有被幻觉化。
- 质疑地点: 要警惕那些将成就归功于整个国家(例如,“瑞典构建了...”)而不是特定组织的标题。这通常是 AI 生成内容的过度简化现象。
- 承认“伪科学” (Bullshit Science): 即使是人类撰写的来源也可能存在缺陷。正如社区讨论中所提到的,一些“研究”是受利益集团委托产生的,旨在产生预期的结果,这意味着即使是“真实”的研究来源也可能具有误导性。
结论
写作本质上是一种阅读行为。如果我们允许 AI 在无人监管的情况下处理研究和写作,我们是在有效地在自己的门口撒尿。AI slop 的唯一解药是人类的判断力以及进行“家庭作业”的意愿——即阅读实际来源材料的这种乏味、手动的工序。在一个内容无限、毫不费力的内容时代,最有价值的技能不再是生产信息的能力,而是核实信息的能力。