하버드 의대 발표 “AI가 인간 의사보다 정확해”

대규모 언어 모델이 응급실 사례를 포함한 다양한 의료 상황에서 인간 의사보다 더 정확한 진단을 내릴 수 있다는 연구 결과가 나왔다.

하버드 의대와 베스 이스라엘 디코니스 메디컬 센터의 연구진은 사이언스지에 게재한 연구를 통해 오픈AI의 모델과 인간 의사의 진단 능력을 비교 실험한 결과를 공개했다. 연구진은 베스 이스라엘 응급실을 방문한 환자 76명을 대상으로 두 명의 내과 전문의와 오픈AI의 o1 및 4o 모델이 도출한 진단명을 비교 분석했다.

다른 전문의들이 진단 출처를 모르는 상태에서 이를 평가한 결과 o1 모델은 모든 진단 시점에서 전문의 및 4o 모델과 대등하거나 더 나은 성적을 거두었다. 특히 정보가 가장 부족하고 신속한 결정이 필요한 초기 응급실 분류 단계에서 AI 모델의 성과가 더욱 두드러지게 나타났다.

이번 연구는 전자의무기록에 기재된 정보 그대로를 AI 모델에 제공, 실제 의료 현장과 동일한 조건에서 진행됐다. 분석 결과 o1 모델은 응급실 분류 사례의 67%에서 정확하거나 매우 유사한 진단을 내렸으며 이는 각각 55%와 50%의 정확도를 기록한 전문의들보다 높은 수치다.

하버드 의대 연구진은 이번 모델이 기존 벤치마크는 물론 전문의 기준선까지 뛰어넘었다고 평가했다. 다만 이번 연구 결과가 AI가 당장 응급실의 생사 결정을 내릴 준비가 되었다는 의미는 아니며 실제 환자 치료 환경에서 이러한 기술을 평가하기 위한 임상 시험이 시급하다고 덧붙였다. 연구진은 현재 AI 모델이 텍스트 기반 정보 처리에 최적화되어 있으며 비텍스트 입력에 대한 추론 능력에는 한계가 있다는 점을 지적했다. 또 AI 진단에 대한 책임 소재를 판단할 공식적인 체계가 부재하며 환자들은 여전히 중대한 치료 결정을 내릴 때 인간의 안내를 원하고 있다는 점을 강조했다.

일각에서는 이번 연구가 응급의학과 전문의가 아닌 내과 전문의의 진단과 AI를 비교했다는 점을 들어 결과가 과도하게 포장되었다는 의견을 제시했다. 응급실 의사의 일차적 목표는 최종 진단명을 맞히는 것이 아니라 당장 생명을 위협하는 상태를 파악하는 것이라는 분석이다. 관련 기사는 이곳에서 확인할 수 있다.