안녕하세요. njsung입니다.
오늘은 구글(Google)에서 공개한 의료 특화 오픈 모델, MedGemma(메드젬마) 시리즈의 최신 업데이트 소식을 정리해 드리려고 합니다. 바로 지난 1월 13일 공개된 MedGemma 1.5 버전입니다.
기존 1.0 버전이 의료 멀티모달 AI의 가능성을 보여주었다면, 이번 1.5 버전은 실제 임상 현장의 복잡한 데이터를 처리할 수 있도록 기능이 대폭 확장되었습니다. 2D 이미지를 넘어 3D 볼륨 데이터와 시계열 분석까지, 과연 어떤 점이 달라졌는지 핵심만 뽑아 정리해 드립니다.
MedGemma 1.5: 무엇이 달라졌나? (Overview)
MedGemma는 구글의 Gemma 3 아키텍처를 기반으로 의료 데이터(텍스트, 이미지, EHR 등)를 집중 학습시킨 모델입니다. 이번 1.5 버전(4B Instruction-tuned)은 "보는 눈"과 "이해하는 깊이"가 완전히 달라졌습니다.
단순히 엑스레이 사진 한 장을 보고 병명을 맞추는 수준을 넘어, CT/MRI 같은 입체 데이터를 이해하고, 환자의 과거 기록과 비교하며, 복잡한 검사 결과지를 데이터베이스화할 수 있게 되었습니다.
5가지 핵심 업그레이드 포인트
이번 업데이트의 핵심은 '확장성'과 '정밀함'입니다. 기존 모델과 비교했을 때 가장 두드러지는 5가지 변화를 정리했습니다.
1. 3D 영상(Volumetric Data) 지원
- 기존: 흉부 X-ray 등 2D 평면 이미지 분석에 국한.
- 1.5 버전: CT(컴퓨터 단층촬영) 및 MRI(자기공명영상)와 같은 3D 볼륨 데이터를 직접 해석할 수 있습니다. 이제 단면이 아닌 입체적인 병변 파악이 가능해졌습니다.
2. 시계열(Longitudinal) 분석
- 기존: 단일 시점의 이미지만 보고 판단.
- 1.5 버전: "변화"를 읽습니다. 환자의 과거 영상과 현재 영상을 비교하여 병변이 커졌는지, 작아졌는지, 혹은 새로 생겼는지를 추적 관찰(Follow-up) 할 수 있는 기능이 탑재되었습니다.
3. 전체 슬라이드 병리 이미지(WSI) 해석
- 기존: 병리 조직의 아주 작은 일부(Patch)만 분석 가능.
- 1.5 버전: 전체 슬라이드 이미지(Whole-Slide Image, WSI)를 입력받아 거시적인 맥락과 미세한 특징을 동시에 분석합니다. 추후 미세한 암 병변의 진단 보조에 큰 도움이 될 기능이라고 생각합니다.
4. 해부학적 위치 지정(Localization)
- 기존: "폐렴이 의심됩니다" 정도의 텍스트 설명.
- 1.5 버전: "여기가 문제입니다"라고 콕 집어줍니다. 병변이나 해부학적 특징의 위치를 바운딩 박스(Bounding Box)로 정확하게 표시하는 능력이 비약적으로 상승했습니다.
5. 의료 문서 이해(Document Understanding)
- 기존: 텍스트 추출 위주.
- 1.5 버전: 비정형 검사 결과지(Lab Report) 이미지에서 수치와 단위를 인식해 JSON 같은 구조화된 데이터로 변환해 줍니다. 병원의 쌓여있는 종이 차트를 데이터화하는 데 최적화되었습니다.
1.0 vs 1.5 성능 비교 (압도적인 성장)
말로만 좋아진 게 아닙니다. 벤치마크 수치를 보면 구글이 어디에 공을 들였는지 명확히 보입니다. 특히 위치 지정(Localization)과 EHR 데이터 해석 능력은 '진화'라고 불러도 될 수준입니다.
| 카테고리 | 벤치마크 (Metric) | MedGemma 1.0 (4B) | MedGemma 1.5 (4B) | 성장률 |
| 의료 지식 (Text) | MedQA (USMLE Style) | 64.4 | 69.1 | +7.3% |
| EHR 이해 | EHRQA (Accuracy) | 67.6 | 89.6 | +32.5% 🚀 |
| 안과 (Fundus) | EyePACS (Accuracy) | 64.9 | 76.8 | +18.3% |
| 영상 위치 지정 | Chest ImaGenome (IoU) | 3.1 | 38.0 | +1125% 🚀 |
| X-ray 분류 | MIMIC CXR (F1) | 88.9 | 89.5 | +0.7% (유지) |
Note: X-ray 분류 성능은 이미 높은 수준이었기에 소폭 상승에 그쳤지만, 위치 지정 능력(IoU)이 3.1에서 38.0으로 10배 넘게 뛴 점은 이제 이 모델이 병변의 위치를 제대로 '보고' 있다는 것을 의미합니다.
개발자를 위한 Hugging Face 링크
연구자분들이 바로 테스트해보실 수 있도록 링크를 정리했습니다. 현재 1.5 버전은 4B 사이즈의 Instruction-tuned 모델로 공개되어 있어, 상대적으로 가벼운 GPU 환경에서도 실험이 가능합니다.
Google - MedGemma 1.5 (4B-IT)
- 특징: 3D, 시계열, WSI, 문서 이해 등 모든 신기능이 포함된 최신 모델입니다. 4B 사이즈라 파인튜닝(Fine-tuning) 실험용으로도 제격입니다.
- Hugging Face: https://huggingface.co/google/medgemma-1.5-4b-it
마무리
이번 MedGemma 1.5 업데이트는 의료 AI가 실험실을 벗어나 실제 병원 데이터 시스템으로 들어올 준비를 하고 있다는 신호탄과 같습니다.
- 포인트 1: 3D와 시간의 축 확장 단편적인 2D 이미지를 넘어, CT/MRI와 시계열 데이터를 다루게 됨으로써 임상 현장에서의 실질적인 활용도가 대폭 높아졌습니다.
- 포인트 2: 설명 가능한 AI (Explainability) 병변의 위치를 박스로 정확히 표시해 주는 Localization 기능의 강화는 의료진이 AI의 판단 근거를 확인하는 데 큰 도움을 줄 것입니다.
- 포인트 3: 가벼운 무게, 강력한 성능 4B라는 비교적 작은 사이즈 모델임에도 불구하고 특화된 태스크에서 보여주는 퍼포먼스는, 거대 모델(LLM)만이 정답이 아님을 보여줍니다.
앞으로 이 모델을 활용한 다양한 파인튜닝 사례들이 기대됩니다.
새로운 소식이 나오면 가장 먼저 업데이트해 드리겠습니다.
'개발 > AI' 카테고리의 다른 글
| Qwen3-VL-8B-Instruct 파인튜닝 코드 (0) | 2026.01.15 |
|---|---|
| 한국형 독자 파운데이션 모델 정리(소버린 AI, Foundation Model) (1) | 2026.01.02 |
| [NeurIPS 2025] 인공지능 트렌드를 바꿀 핵심 연구 논문 Best 3 정리 (RL, Vision, GenAI) (0) | 2025.12.22 |
| 🩺 MedGemma3: 구글이 만든 의료 멀티모달 모델의 진화 (1) | 2025.05.26 |
| 2025년 오픈소스 VLM(Vision-Language Model) 현황 정리 (4) | 2025.05.16 |