구글, CT 이미지‧MRI 데이터 지원…의료 특화 AI 모델 공개

구글이 1월 13일 의료 용도에 특화한 AI 모델인 MedGemma 1.5 4B와 음성 인식 모델인 MedASR을 공개했다. MedGemma 1.5 4B는 로컬에서 동작 가능한 경량 모델로 이전 세대보다 정확도가 향상됐다.

구글은 의료용 오픈 모델로 MedGemma 시리즈를 무료 공개하고 있다. MedGemma 1.5 4B는 로컬에서 실행 가능한 경량 모델로 텍스트 형식이나 이미지 형식 의료 기록을 읽어 추론할 수 있다. MedASR은 의료 관련 용어에 특화된 음성 인식 모델로 기존 모델과 비교해 더 높은 정확도로 받아쓰기를 수행하면서 MedGemma 시리즈와 연동해 사용할 수 있다.

MedGemma 1.5 4B와 각종 모델 벤치마크 점수를 비교해보면 MedGemma 1.5 4B는 범용 모델인 Gemma 3 4B나 이전 세대 모델인 MedGemma 1 4B보다 높은 점수를 기록했으며 일부 테스트에서는 더 큰 규모인 MedGemma 1 27B를 상회했다.

이전 세대 MedGemma 시리즈는 텍스트뿐 아니라 흉부 X선 이미지나 병리 조직 이미지 등 이미지 데이터를 처리할 수 있도록 설계되어 있었다. MedGemma 1.5 4B에서는 CT 이미지와 MRI의 3D 데이터 등에도 대응할 수 있도록 진화했다.

이미지 처리 정확도 테스트에서도 MedGemma 1.5 4B가 MedGemma 1 4B보다 높은 점수를 기록했다.

MedGemma 시리즈는 개발자가 파인튜닝하기 쉬운 점도 특징으로 이미 500개 이상 파생 모델이 공개되어 있다. MedGemma 1.5 4B 역시 향후 개발 기여를 통해 다양한 작업에 최적화된 모델이 등장할 것으로 기대된다.

같은 날 공개된 MedASR은 의료 용도에 특화한 음성 인식 모델. MedASR은 흉부 X선 이미지에 관한 대화를 오류율 5.2%로 받아쓸 수 있다. 오픈AI Whisper large-v3에서는 오류율이 12.5%였다. 또 MedASR의 받아쓰기 결과는 MedGemma 시리즈 프롬프트로도 활용할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.