Claude Code와 Opus 4.8을 활용한 MRI 분석: AI 2차 의견에 대한 사례 연구

Claude Code와 Opus 4.8을 활용한 MRI 분석: AI 2차 의견에 대한 사례 연구

Claude Code와 Opus 4.8을 이용한 AI 기반 MRI 분석

한 사용자가 Claude Code와 Opus 4.8 (xhigh) 모델을 사용해 어깨 MRI에 대한 2차 의견을 얻었으며, 그 결과는 인간 정형외과 의사의 진단과 정면으로 대립되었습니다. 인간 의사는 견갑하근 건의 3도 부분 파열을 진단한 반면, AI 분석은 건이 손상되지 않았다고 결론지어 AI 지원 의료 검토의 가능성과 의료 영상에서 환각(허위 진단)의 심각한 위험성을 동시에 보여주었습니다.

기술 구현: DICOM 데이터 처리

MRI를 분석하기 위해 사용자는 표준 Claude.ai 채팅 인터페이스가 아닌 Claude Code를 사용했습니다. 이 구분은 중요합니다. Claude Code는 모델이 코드를 실행하고, 필요한 소프트웨어 패키지를 설치하며, 로컬 파일 시스템에서 반복 작업을 수행하도록 허용하기 때문에 복잡한 의료 데이터 형식을 다루는 데 필수적입니다.

데이터 처리 및 워크플로우

  • 입력 데이터: 확장자가 없는 수백 개 파일로 구성된 표준 DICOM 내보내기이며, 총 용량은 약 266 MB입니다.
  • 환경: 사용자는 Opus 4.8에게 DICOM 처리와 이미지 분석에 필요한 모든 Python 패키지를 설치하도록 지시한 뒤 검토를 시작했습니다.
  • 방법론: AI에게 상세 분석 계획을 수립하고 실행하도록 과제했습니다. 제공된 임상 배경은 "2~3주간 지속된 오른쪽 어깨 통증"뿐이었습니다.
  • 반복 중재: 초기 보고서에서 건이 손상되지 않았다고 제시된 후, 사용자는 두 번째 "중재" 단계를 수행했습니다. 이 단계에서 AI에게 인간 의사의 보고서와 별도의 GPT 5.5 Pro 토론을 제공했습니다. AI는 편향을 피하기 위해 여러 하위 에이전트를 활용해 독립적인 분석을 수행했으며, 최종적으로 원래 판정을 재확인했습니다: "경미한 삽입부 건증; 명확한 부분 또는 전체 파열은 확인되지 않음."

비교 분석: AI vs. 인간 진단

인간과 AI의 결과 차이는 극단적이었으며, 고등급 파열(인간)에서 파열이 전혀 없다고 판단한 AI까지 이어졌습니다.

항목 인간 정형외과 의사 진단 Opus 4.8 분석
소견 3도 (>50% 폭) 부분 파열 건 손상 없음 / 경미한 건증
위치 견갑하근 건의 정점 삽입부 정점 삽입부
신뢰도 높음 (즉각적인 치료 권고에 비추어) 중간‑높음 (중재자 판결에 따름)

전문가 관점 및 기술적 한계

토론에 참여한 의료 전문가와 기술 전문가들은 AI 기반 이미지 분석이 임상에서 신뢰할 수 없는 여러 이유를 강조했습니다.

비전 언어 모델(VLM)의 한계

방사선 전문의들은 현재 LLM 및 VLM이 의료 영상을 해석하는 데 근본적인 제한이 있다고 지적했습니다:

  • 학습 데이터 부족: 공개된 의료 이미지와 전문 보고서의 조합은 인간 방사선과가 훈련 중에 보는 스캔 양에 비해 극히 적습니다.
  • 토큰화 문제: LLM은 이미지를 인간처럼 인식하지 못하고 토큰화하기 때문에 공간 인식 및 병변 위치 파악이 부실합니다.
  • 3D 맥락 결여: 방사선 전문의는 확정 진단을 위해 전체 3D MRI 데이터셋이 필요하다고 강조했으며, 이는 AI가 인간 눈과 다르게 처리될 수 있습니다.

"접근성 vs. 역량" 트레이드오프

토론 참가자들은 의료 현장에서 심리적 격차가 존재한다고 언급했습니다. 의사는 환자당 10~15분만 할애할 수 있지만, AI는 수시간을 투자해 친절하고 상세한 설명을 제공할 수 있습니다. 이러한 접근성은 사용자가 더 지원받는 느낌을 주지만, AI의 기술적 역량은 인증된 전문가보다 낮을 수 있습니다.

통찰의 종합

이번 사례에서 AI가 모순되는 2차 의견을 제시했지만, 전반적인 논의는 AI의 현재 강점이 이미지 해석보다는 텍스트 기반 종합에 있음을 시사합니다.

"저는 Claude와 ChatGPT가 MRI에 대해 절대적으로 형편없다고 생각하며 전혀 신뢰하지 않습니다. 텍스트 기반 연구가 필요할 때는 장점이 있죠..."

반대로, 일부 사용자는 AI가 복잡한 의료 텍스트나 NIH 연구를 종합해 인간 의사가 놓친 희귀 진단을 찾아내는 데 성공했다고 보고했으며, 이는 AI가 기존 가정을 도전하는 브레인스토밍 도구로서 임상 의사와 환자에게 더 효과적일 수 있음을 시사합니다.


요약: Claude Code와 Opus 4.8을 사용해 DICOM MRI 데이터를 분석한 기술적 탐구로, AI 기반 진단과 인간 의료 진단 사이의 극명한 차이를 강조합니다.

제목: Claude Code와 Opus 4.8을 활용한 MRI 분석: AI 2차 의견에 대한 사례 연구

Sources