使用 Claude Code 與 Opus 4.8 進行 MRI 分析:AI 第二意見的案例研究

使用 Claude Code 與 Opus 4.8 進行 MRI 分析:AI 第二意見的案例研究

使用 Claude Code 與 Opus 4.8 進行 AI 驅動的 MRI 分析

一名個人使用 Claude Code 與 Opus 4.8 (xhigh) 模型對肩部 MRI 進行尋求第二意見,結果得到的診斷與人類骨科醫生直接矛盾。雖然人類醫生診斷為肩胛下肌腱的三級部分厚度撕裂,但 AI 分析得出結論認為肌腱完整無損,這說明了 AI 輔助醫療審查的潛力,以及在醫學影像中產生幻覺的重大風險。

技術實作:處理 DICOM 資料

為了分析 MRI,使用者使用了 Claude Code 而非標準的 Claude.ai 對話介面。這一區別至關重要,因為 Claude Code 允許模型執行程式碼、安裝必要的軟體套件,並在本地檔案系統上進行迭代工作,這對於處理複雜的醫學資料格式至關重要。

資料處理與工作流程

  • 輸入資料:一份標準的 DICOM 匯出檔,包含數百個沒有副檔名的檔案,總計約 266 MB。
  • 環境:使用者指示 Opus 4.8 在開始審查之前安裝所有處理 DICOM 與影像分析所需的 Python 套件。
  • 方法論:AI 的任務是建立詳細的分析計畫並執行它。提供的唯一臨床背景是「右肩疼痛 2-3 週」。
  • 迭代仲裁:在初步報告建議肌腱完整無損後,使用者進行了第二次「仲裁」階段。在此階段,AI 被提供了人類醫生的報告以及來自 GPT 5.5 Pro 的獨立討論。AI 使用多個子代理(sub-agents)進行獨立分析以避免偏見,最終重申其原始判決:「輕微的止點肌腱病變;未發現明顯的部分或全厚度撕裂。」

AI 與人類診斷的比較分析

人類與 AI 發現之間的差異極大,從高強度撕裂(人類)轉變為完全沒有撕裂(AI)。

特徵 人類骨科醫生診斷 Opus 4.8 分析
發現 三級 (>50%-寬度) 部分厚度撕裂 肌腱完整 / 輕微肌腱病變
位置 肩胛下肌腱的頂端止點 頂端止點
信心度 高(由立即治療暗示) 中到高(根據仲裁者的判決)

專家觀點與技術限制

討論中的醫療專業人員與技術專家強調了為什麼 AI 驅動的影像分析在臨床使用上仍然不可靠的幾個原因。

視覺語言模型 (VLMs) 的限制

放射科醫生指出,目前的 LLM 與 VLM 在解釋醫學影像的能力上存在根本性的限制:

  • 訓練資料稀缺:與人類放射科醫生在訓練期間看到的掃描量相比,公開可用的配對專業報告的醫學影像極其微小。
  • Tokenization 問題:LLM 不像人類那樣感知影像;影像被 token 化,這通常會導致空間識別與發現的位置定位能力不佳。
  • 缺乏 3D 上下文:放射科醫生強調,得出結論性的診斷需要完整的 3D MRI 資料集,而 AI 對其處理方式可能與受訓的人類肉眼不同。

「可及性 vs. 專業能力」的權衡

討論參與者指出醫療保健中存在心理差距。雖然醫生每位患者可能僅有 10-15 分鐘,但 AI 可以花費數小時分析資料並提供具同理心的詳細解釋。這種可及性通常讓使用者感到獲得更多支持,即使 AI 的技術專業能力低於認證專業人士。

洞察總結

雖然在此案例中 AI 提供了矛盾的第二意見,但更廣泛的討論建議,AI 目前的強項在於 文字基礎的綜合分析 而非 影像解釋

"I've found Claude and ChatGPT to be absolutely terrible at MRI and I would not trust it one bit. It has its merits if you need to research stuff that is more text based..."

相反地,一些使用者報告稱,使用 AI 來綜合複雜的醫學文獻或 NIH 研究以尋找人類醫生錯過的罕見診斷,取得了成功,這樣建議 AI 可能更作為臨床醫生與患者用來挑戰現有假設的「腦力激盪工具」,而非作為影像診斷的主要工具。

Sources