使用 Claude Code 與 Opus 4.8 進行 MRI 分析：AI 第二意見的案例研究

使用 Claude Code 與 Opus 4.8 進行 AI 驅動的 MRI 分析

一名個人使用 Claude Code 與 Opus 4.8 (xhigh) 模型對肩部 MRI 進行尋求第二意見，結果得到的診斷與人類骨科醫生直接矛盾。雖然人類醫生診斷為肩胛下肌腱的三級部分厚度撕裂，但 AI 分析得出結論認為肌腱完整無損，這說明了 AI 輔助醫療審查的潛力，以及在醫學影像中產生幻覺的重大風險。

技術實作：處理 DICOM 資料

為了分析 MRI，使用者使用了 Claude Code 而非標準的 Claude.ai 對話介面。這一區別至關重要，因為 Claude Code 允許模型執行程式碼、安裝必要的軟體套件，並在本地檔案系統上進行迭代工作，這對於處理複雜的醫學資料格式至關重要。

資料處理與工作流程

輸入資料：一份標準的 DICOM 匯出檔，包含數百個沒有副檔名的檔案，總計約 266 MB。
環境：使用者指示 Opus 4.8 在開始審查之前安裝所有處理 DICOM 與影像分析所需的 Python 套件。
方法論：AI 的任務是建立詳細的分析計畫並執行它。提供的唯一臨床背景是「右肩疼痛 2-3 週」。
迭代仲裁：在初步報告建議肌腱完整無損後，使用者進行了第二次「仲裁」階段。在此階段，AI 被提供了人類醫生的報告以及來自 GPT 5.5 Pro 的獨立討論。AI 使用多個子代理（sub-agents）進行獨立分析以避免偏見，最終重申其原始判決：「輕微的止點肌腱病變；未發現明顯的部分或全厚度撕裂。」

AI 與人類診斷的比較分析

人類與 AI 發現之間的差異極大，從高強度撕裂（人類）轉變為完全沒有撕裂（AI）。

特徵	人類骨科醫生診斷	Opus 4.8 分析
發現	三級 (>50%-寬度) 部分厚度撕裂	肌腱完整 / 輕微肌腱病變
位置	肩胛下肌腱的頂端止點	頂端止點
信心度	高（由立即治療暗示）	中到高（根據仲裁者的判決）

專家觀點與技術限制

討論中的醫療專業人員與技術專家強調了為什麼 AI 驅動的影像分析在臨床使用上仍然不可靠的幾個原因。

視覺語言模型 (VLMs) 的限制

放射科醫生指出，目前的 LLM 與 VLM 在解釋醫學影像的能力上存在根本性的限制：

訓練資料稀缺：與人類放射科醫生在訓練期間看到的掃描量相比，公開可用的配對專業報告的醫學影像極其微小。
Tokenization 問題：LLM 不像人類那樣感知影像；影像被 token 化，這通常會導致空間識別與發現的位置定位能力不佳。
缺乏 3D 上下文：放射科醫生強調，得出結論性的診斷需要完整的 3D MRI 資料集，而 AI 對其處理方式可能與受訓的人類肉眼不同。

「可及性 vs. 專業能力」的權衡

討論參與者指出醫療保健中存在心理差距。雖然醫生每位患者可能僅有 10-15 分鐘，但 AI 可以花費數小時分析資料並提供具同理心的詳細解釋。這種可及性通常讓使用者感到獲得更多支持，即使 AI 的技術專業能力低於認證專業人士。

洞察總結

雖然在此案例中 AI 提供了矛盾的第二意見，但更廣泛的討論建議，AI 目前的強項在於 文字基礎的綜合分析 而非 影像解釋。

"I've found Claude and ChatGPT to be absolutely terrible at MRI and I would not trust it one bit. It has its merits if you need to research stuff that is more text based..."

相反地，一些使用者報告稱，使用 AI 來綜合複雜的醫學文獻或 NIH 研究以尋找人類醫生錯過的罕見診斷，取得了成功，這樣建議 AI 可能更作為臨床醫生與患者用來挑戰現有假設的「腦力激盪工具」，而非作為影像診斷的主要工具。

使用 Claude Code 與 Opus 4.8 進行 MRI 分析：AI 第二意見的案例研究

使用 Claude Code 與 Opus 4.8 進行 MRI 分析：AI 第二意見的案例研究

使用 Claude Code 與 Opus 4.8 進行 AI 驅動的 MRI 分析

技術實作：處理 DICOM 資料

資料處理與工作流程

AI 與人類診斷的比較分析

專家觀點與技術限制

視覺語言模型 (VLMs) 的限制

「可及性 vs. 專業能力」的權衡

洞察總結

Sources