使用 Claude Code 和 Opus 4.8 进行 MRI 分析:AI 第二意见的案例研究
使用 Claude Code 和 Opus 4.8 进行 MRI 分析:AI 第二意见的案例研究
使用 Claude Code 和 Opus 4.8 进行 AI 驱动的 MRI 分析
一位用户使用 Claude Code 和 Opus 4.8 (xhigh) 模型对肩部 MRI 进行寻求第二意见,结果得出的诊断与人类骨科医生直接矛盾。人类医生诊断为肩胛下肌腱的三级部分厚度撕裂,而 AI 分析则得出结论认为肌腱完好无损,这既说明了 AI 辅助医疗审查的潜力,也说明了医疗影像中幻觉现象带来的重大风险。
技术实现:处理 DICOM 数据
为了分析 MRI,用户使用了 Claude Code 而非标准的 Claude.ai 聊天界面。这一区别至关重要,因为 Claude Code 允许模型执行代码、安装必要的软件程序包,并在本地文件系统中进行迭代工作,这对于处理复杂的医疗数据格式至关重要。
数据处理与工作流程
- 输入数据:一个标准的 DICOM 导出文件,由数百个没有扩展名的文件组成,总计约 266 MB。
- 环境:用户指示 Opus 4.8 在开始审查之前安装所有用于 DICOM 处理和图像分析所需的 Python 包。
- 方法论:AI 的任务是制定详细的分析计划并随后执行它。提供的唯一临床背景是“右肩疼痛 2-3 周”。
- 迭代仲裁:在初始报告建议肌腱完好无损后,用户进行了第二次“仲裁”阶段。在此阶段,AI 被提供了人类医生的报告以及来自 GPT 5.5 Pro 的独立讨论。AI 使用多个子代理(sub-agents)进行独立分析以避免偏差,最终重申了其原始结论:“轻度附着点肌腱病;未发现明显的局部或全厚度撕裂。”
AI 与人类诊断的对比分析
人类与 AI 发现之间的差异极大,从高等级撕裂(人类)转变为完全没有撕裂(AI)。
| 特征 | 人类骨科医生诊断 | Opus 4.8 分析 |
|---|---|---|
| 发现 | 三级(>50% 宽度)部分厚度撕裂 | 肌腱完好 / 轻度肌腱病 |
| 位置 | 肩胛下肌腱的顶端附着点 | 顶端附着点 |
| 置信度 | 高(由立即治疗暗示) | 中到高(根据仲裁者的结论) |
专家观点与技术局限性
讨论中的医疗专业人员和技术专家强调了 AI 驱动的图像分析在临床应用中仍不可靠的几个原因。
视觉语言模型 (VLMs) 的局限性
放射科医生指出,目前的 LLM 和 VLM 在解释医疗影像方面的能力存在根本性的局限:
- 训练数据稀缺:与人类放射科医生在训练期间看到的扫描量相比,公开可用的配对专业报告的医疗影像极其微小。
- Tokenization 问题:LLM 不像人类那样感知图像;图像被 token 化,这往往导致空间识别和发现定位的准确性较差。
- 缺乏 3D 上下文:放射科医生强调,得出结论性的诊断需要完整的 3D MRI 数据集,而 AI 处理这些数据的方式可能与受过训练的人类肉眼不同。
“可及性 vs. 胜任力”的权衡
讨论参与者指出医疗保健领域存在一种心理差距。虽然医生对每位患者可能只有 10-15 分钟,但 AI 可以花费数小时分析数据并提供富有同情心的、详细的解释。这种可及性往往让用户感觉得到了更多支持,即使 AI 的技术胜任力低于认证专业人员。
洞察总结
虽然本案例中的 AI 提供了矛盾的第二意见,但更广泛的讨论表明,AI 目前的优势在于 基于文本的综合,而非 图像解释。
"I've found Claude and ChatGPT to be absolutely terrible at MRI and I would not trust it one bit. It has its merits if you need to research stuff that is more text based..."
相反,一些用户报告称,使用 AI 来综合复杂的医疗文本或 NIH 研究以发现人类医生错过的罕见诊断,取得了成功,请这表明 AI 作为临床医生和患者挑战现有假设的“头脑风暴工具”可能比作为影像学的主要诊断工具更为有效。