使用 Claude Code 和 Opus 4.8 进行 MRI 分析：AI 第二意见的案例研究

使用 Claude Code 和 Opus 4.8 进行 AI 驱动的 MRI 分析

一位用户使用 Claude Code 和 Opus 4.8 (xhigh) 模型对肩部 MRI 进行寻求第二意见，结果得出的诊断与人类骨科医生直接矛盾。人类医生诊断为肩胛下肌腱的三级部分厚度撕裂，而 AI 分析则得出结论认为肌腱完好无损，这既说明了 AI 辅助医疗审查的潜力，也说明了医疗影像中幻觉现象带来的重大风险。

技术实现：处理 DICOM 数据

为了分析 MRI，用户使用了 Claude Code 而非标准的 Claude.ai 聊天界面。这一区别至关重要，因为 Claude Code 允许模型执行代码、安装必要的软件程序包，并在本地文件系统中进行迭代工作，这对于处理复杂的医疗数据格式至关重要。

数据处理与工作流程

输入数据：一个标准的 DICOM 导出文件，由数百个没有扩展名的文件组成，总计约 266 MB。
环境：用户指示 Opus 4.8 在开始审查之前安装所有用于 DICOM 处理和图像分析所需的 Python 包。
方法论：AI 的任务是制定详细的分析计划并随后执行它。提供的唯一临床背景是“右肩疼痛 2-3 周”。
迭代仲裁：在初始报告建议肌腱完好无损后，用户进行了第二次“仲裁”阶段。在此阶段，AI 被提供了人类医生的报告以及来自 GPT 5.5 Pro 的独立讨论。AI 使用多个子代理（sub-agents）进行独立分析以避免偏差，最终重申了其原始结论：“轻度附着点肌腱病；未发现明显的局部或全厚度撕裂。”

AI 与人类诊断的对比分析

人类与 AI 发现之间的差异极大，从高等级撕裂（人类）转变为完全没有撕裂（AI）。

特征	人类骨科医生诊断	Opus 4.8 分析
发现	三级（>50% 宽度）部分厚度撕裂	肌腱完好 / 轻度肌腱病
位置	肩胛下肌腱的顶端附着点	顶端附着点
置信度	高（由立即治疗暗示）	中到高（根据仲裁者的结论）

专家观点与技术局限性

讨论中的医疗专业人员和技术专家强调了 AI 驱动的图像分析在临床应用中仍不可靠的几个原因。

视觉语言模型 (VLMs) 的局限性

放射科医生指出，目前的 LLM 和 VLM 在解释医疗影像方面的能力存在根本性的局限：

训练数据稀缺：与人类放射科医生在训练期间看到的扫描量相比，公开可用的配对专业报告的医疗影像极其微小。
Tokenization 问题：LLM 不像人类那样感知图像；图像被 token 化，这往往导致空间识别和发现定位的准确性较差。
缺乏 3D 上下文：放射科医生强调，得出结论性的诊断需要完整的 3D MRI 数据集，而 AI 处理这些数据的方式可能与受过训练的人类肉眼不同。

“可及性 vs. 胜任力”的权衡

讨论参与者指出医疗保健领域存在一种心理差距。虽然医生对每位患者可能只有 10-15 分钟，但 AI 可以花费数小时分析数据并提供富有同情心的、详细的解释。这种可及性往往让用户感觉得到了更多支持，即使 AI 的技术胜任力低于认证专业人员。

洞察总结

虽然本案例中的 AI 提供了矛盾的第二意见，但更广泛的讨论表明，AI 目前的优势在于 基于文本的综合，而非 图像解释。

"I've found Claude and ChatGPT to be absolutely terrible at MRI and I would not trust it one bit. It has its merits if you need to research stuff that is more text based..."

相反，一些用户报告称，使用 AI 来综合复杂的医疗文本或 NIH 研究以发现人类医生错过的罕见诊断，取得了成功，请这表明 AI 作为临床医生和患者挑战现有假设的“头脑风暴工具”可能比作为影像学的主要诊断工具更为有效。

使用 Claude Code 和 Opus 4.8 进行 MRI 分析：AI 第二意见的案例研究

使用 Claude Code 和 Opus 4.8 进行 MRI 分析：AI 第二意见的案例研究

使用 Claude Code 和 Opus 4.8 进行 AI 驱动的 MRI 分析

技术实现：处理 DICOM 数据

数据处理与工作流程

AI 与人类诊断的对比分析

专家观点与技术局限性

视觉语言模型 (VLMs) 的局限性

“可及性 vs. 胜任力”的权衡

洞察总结

Sources