使用 Claude Code 和 Opus 4.8 进行 MRI 分析:AI 第二意见的案例研究

使用 Claude Code 和 Opus 4.8 进行 MRI 分析:AI 第二意见的案例研究

使用 Claude Code 和 Opus 4.8 进行 AI 驱动的 MRI 分析

一位用户使用 Claude Code 和 Opus 4.8 (xhigh) 模型对肩部 MRI 进行寻求第二意见,结果得出的诊断与人类骨科医生直接矛盾。人类医生诊断为肩胛下肌腱的三级部分厚度撕裂,而 AI 分析则得出结论认为肌腱完好无损,这既说明了 AI 辅助医疗审查的潜力,也说明了医疗影像中幻觉现象带来的重大风险。

技术实现:处理 DICOM 数据

为了分析 MRI,用户使用了 Claude Code 而非标准的 Claude.ai 聊天界面。这一区别至关重要,因为 Claude Code 允许模型执行代码、安装必要的软件程序包,并在本地文件系统中进行迭代工作,这对于处理复杂的医疗数据格式至关重要。

数据处理与工作流程

  • 输入数据:一个标准的 DICOM 导出文件,由数百个没有扩展名的文件组成,总计约 266 MB。
  • 环境:用户指示 Opus 4.8 在开始审查之前安装所有用于 DICOM 处理和图像分析所需的 Python 包。
  • 方法论:AI 的任务是制定详细的分析计划并随后执行它。提供的唯一临床背景是“右肩疼痛 2-3 周”。
  • 迭代仲裁:在初始报告建议肌腱完好无损后,用户进行了第二次“仲裁”阶段。在此阶段,AI 被提供了人类医生的报告以及来自 GPT 5.5 Pro 的独立讨论。AI 使用多个子代理(sub-agents)进行独立分析以避免偏差,最终重申了其原始结论:“轻度附着点肌腱病;未发现明显的局部或全厚度撕裂。”

AI 与人类诊断的对比分析

人类与 AI 发现之间的差异极大,从高等级撕裂(人类)转变为完全没有撕裂(AI)。

特征 人类骨科医生诊断 Opus 4.8 分析
发现 三级(>50% 宽度)部分厚度撕裂 肌腱完好 / 轻度肌腱病
位置 肩胛下肌腱的顶端附着点 顶端附着点
置信度 高(由立即治疗暗示) 中到高(根据仲裁者的结论)

专家观点与技术局限性

讨论中的医疗专业人员和技术专家强调了 AI 驱动的图像分析在临床应用中仍不可靠的几个原因。

视觉语言模型 (VLMs) 的局限性

放射科医生指出,目前的 LLM 和 VLM 在解释医疗影像方面的能力存在根本性的局限:

  • 训练数据稀缺:与人类放射科医生在训练期间看到的扫描量相比,公开可用的配对专业报告的医疗影像极其微小。
  • Tokenization 问题:LLM 不像人类那样感知图像;图像被 token 化,这往往导致空间识别和发现定位的准确性较差。
  • 缺乏 3D 上下文:放射科医生强调,得出结论性的诊断需要完整的 3D MRI 数据集,而 AI 处理这些数据的方式可能与受过训练的人类肉眼不同。

“可及性 vs. 胜任力”的权衡

讨论参与者指出医疗保健领域存在一种心理差距。虽然医生对每位患者可能只有 10-15 分钟,但 AI 可以花费数小时分析数据并提供富有同情心的、详细的解释。这种可及性往往让用户感觉得到了更多支持,即使 AI 的技术胜任力低于认证专业人员。

洞察总结

虽然本案例中的 AI 提供了矛盾的第二意见,但更广泛的讨论表明,AI 目前的优势在于 基于文本的综合,而非 图像解释

"I've found Claude and ChatGPT to be absolutely terrible at MRI and I would not trust it one bit. It has its merits if you need to research stuff that is more text based..."

相反,一些用户报告称,使用 AI 来综合复杂的医疗文本或 NIH 研究以发现人类医生错过的罕见诊断,取得了成功,请这表明 AI 作为临床医生和患者挑战现有假设的“头脑风暴工具”可能比作为影像学的主要诊断工具更为有效。

Sources