Claude CodeとOpus 4.8を使用したMRI解析:AIセカンドオピニオンのケーススタディ

Claude CodeとOpus 4.8を使用したMRI解析:AIセカンドオピニオンのケーススタディ

Claude CodeとOpus 4.8を用いたAI主導のMRI解析

ある個人が、肩のMRIについてセカンドオピニオンを得るためにClaude CodeとOpus 4.8 (xhigh) モデルを使用しました。その結果、人間の整形外科医の診断と真っ向から対立する診断結果が得られました。人間の医師が肩甲下筋腱のグレードIIIの部分断裂と診断したのに対し、AI解析は腱が完全な状態であることを結論付けました。これは、AIによる医療レビューの可能性と、医療画像におけるハルシネーション(幻覚)の重大なリスクの両方を示しています。

技術的実装:DICOMデータの処理

MRIを解析するために、ユーザーは標準的なClaude.aiのチャットインターフェースではなく、Claude Codeを使用しました。この違いは非常に重要です。なぜなら、Claude Codeを使用することで、モデルがコードを実行し、必要なソフトウェアパッケージをインストールし、ローカルファイルシステム上で反復的な作業を行うことが可能になるからです。これは、複雑な医療データ形式を扱う上で不可欠です。

データ処理とワークフロー

  • 入力データ: 拡張子のない数百のファイルで構成される標準的なDICOMエクスポート。合計約266 MB。
  • 環境: ユーザーはOpus 4.8に対し、レビューを開始する前にDICOM処理および画像解析に必要なすべてのPythonパッケージをインストールするよう指示しました。
  • 手法: AIには詳細な解析プランを作成し、それを実行するタスクが与えられました。提供された臨床的コンテキストは「2〜3週間の右肩の痛み」のみでした。
  • 反復的な仲裁: 初期の報告で腱が完全な状態であることが示唆された後、ユーザーは第2段階の「仲裁」フェーズを行いました。このフェーズでは、AIに人間の医師の報告書とGPT 5.5 Proによる別の議論が提供されました。AIはバイアスを避けるために複数のサブエージェントを使用して独立した解析を行い、最終的に自身の元の判定を再確認しました:「軽度の付着部腱症(Mild insertional tendinosis);明らかな部分断裂または全断裂は認められない」。

比較解析:AI vs. 人間の診断

人間とAIの所見の相違は極めて大きく、高グレードの断裂(人間)から断裂なし(AI)へと分かれました。

特徴 人間の整形外科医の診断 Opus 4.8 による解析
所見 グレードIII(幅の50%以上)の部分断裂 腱は完全 / 軽度の腱症
場所 肩甲下筋腱の尖端付着部 尖端付着部
信頼性 高い(即時の治療が示唆されるため) 中程度から高い(仲裁者の判定による)

専門家の視点と技術的限界

議論の中で、医療専門家や技術的な専門家は、AI主導の画像解析がなぜ臨床使用において信頼できないままなのか、いくつかの理由を挙げました。

Vision Language Models (VLMs) の限界

放射線科医は、現在のLLMおよびVLMが医療画像を解釈する能力において根本的な限界があることを指摘しました。

  • 学習データの不足: 専門的な報告書と対になる公開医療画像は、人間の放射線科医がトレーニング中に目にするスキャン量のボリュームと比較して、極めて微量です。
  • トークン化の問題: LLMは人間のように画像を認識しません。画像はトークン化されるため、所見の空間的な認識や位置特定が不十分になることがよくあります。
  • 3Dコンテキストの欠如: 放射線科医は、決定的な診断には完全な3D MRIデータセットが必要であることを強調しました。AIは、訓練された人間の目とは異なる方法でデータを処理する可能性があります。

「アクセシビリティ vs. 能力」のトレードオフ

議論の参加者は、ヘルスケアにおける心理的なギャップに注目しました。医師は患者一人につき10〜15分しか割けないかもしれませんが、AIはデータを解析し、共感的な詳細な説明を提供するために何時間も費やすことができます。このアクセシビリティ(使いやすさ)は、たとえAIの技術的な能力が、認定された専門家よりも低い場合であっても、ユーザーにサポートされているという感覚を強わせることがよくあります。

洞察の統合

このケースではAIが矛盾するセカンドオピニオンを提供しましたが、より広範な議論では、AIの現在の強みは画像解釈ではなくテキストベースの統合にあることが示唆されています。

「ClaudeやChatGPTはMRIに関しては全くもって使い物にならず、少しも信頼できません。テキストベースの調査が必要な場合はメリットがありますが...」

逆に、、一部のユーザーは、複雑な医療テキストやNIHの論文を統合して、人間の医師が見落とした稀な診断を導き出すためにAIを使用することに成功したと報告しています。これは、AIが画像診断の一次ツールとしてではなく、臨床医や患者が既存の想定を疑うための「ブレインストーミング・ツール」として、より効果的である可能性を示唆しています。

Sources