반응형
2025년 5월 20일, Google은 의료 영상과 텍스트를 아우르는 차세대 멀티모달 모델 MedGemma를 공개했습니다. 이는 Gemma 3 시리즈의 연장선에 있는 의료 특화 변형으로, 이미지-텍스트 이해 및 생성 능력에서 현존하는 오픈모델 중 가장 강력한 퍼포먼스를 보이는 모델 중 하나입니다.
🔍 모델 개요
MedGemma는 크게 두 가지 버전으로 나뉩니다.
- MedGemma 4B (멀티모달):
SigLIP 기반의 이미지 인코더 + 의료특화 LLM 조합
→ X-ray, 피부 이미지, 안과 이미지, 병리학 이미지를 모두 이해하고 설명 가능 - MedGemma 27B (텍스트 전용):
순수 텍스트 기반 의료 QA 및 reasoning 특화
→ MedQA, PubMedQA, MedMCQA 등의 벤치마크에서 SOTA에 가까운 성능 기록
특히, 4B-it(instruction-tuned) 버전은 Hugging Face를 통해 무료로 다운로드 및 실행할 수 있습니다.
💡 왜 주목해야 할까?
- 의료영상 + 자연어의 진짜 융합
SigLIP 기반의 이미지 인코더를 활용해, 단순 분류를 넘어선 자연어 설명 생성이 가능해졌습니다. 예를 들어, 흉부 X-ray 한 장을 입력하면 의학적 문맥을 담은 설명을 생성합니다. - 뛰어난 벤치마크 성능
Task and metricMedGemma 4BGemma 3 4BTasks and Metrics MedGemma3 4B Gemma3 4B Medical image classification MIMIC CXR - Average F1 for top 5 conditions 88.9 81.1 CheXpert CXR - Average F1 for top 5 conditions 48.1 31.2 DermMCQA* - Accuracy 71.8 42.6 Visual question answering SlakeVQA (radiology) - Tokenized F1 62.3 38.6 VQA-Rad** (radiology) - Tokenized F1 49.9 38.6 PathMCQA (histopathology, internal***) - Accuracy 69.8 37.1 Knowledge and reasoning MedXpertQA (text + multimodal questions) - Accuracy 18.8 - RadGraph 기반 리포트 생성 성능
MIMIC-CXR에서의 리포트 생성 성능(RadGraph F1 기준)은 기존 SOTA인 PaliGemma 10B와 유사한 29.5를 기록. 단순히 “오픈모델 중 쓸 만한 수준”을 넘어, 현업에 적합한 base line으로서 가능성을 입증.
728x90
🛠️ 예시 코드
pip install -U transformers
from transformers import pipeline
from PIL import Image
import requests
pipe = pipeline(
"image-text-to-text",
model="google/medgemma-4b-it",
torch_dtype=torch.bfloat16,
device="cuda",
)
image = Image.open(requests.get(
"https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png",
stream=True).raw)
messages = [
{"role": "system", "content": [{"type": "text", "text": "You are an expert radiologist."}]},
{"role": "user", "content": [
{"type": "text", "text": "Describe this X-ray"},
{"type": "image", "image": image}
]}
]
print(pipe(text=messages, max_new_tokens=200)[0]["generated_text"][-1]["content"])
또는 AutoModelForImageTextToText, AutoProcessor로 직접 모델을 불러와 inference 할 수도 있습니다.
🧪 활용 포인트
- 의료 리포트 자동 생성기 (e.g., X-ray, 피부과)
- 멀티모달 기반 의료 챗봇 또는 상담 도우미
- 의대 교육을 위한 비주얼 QA 도구
- 의료 영상 요약 시스템 등
Fine-tuning notebook도 제공되어 있어, 로컬 병원 데이터셋으로 커스텀 파인튜닝도 가능합니다.
SMALL
⚠️ 주의할 점
- 임상용도 불가: MedGemma는 직접적인 진단/치료 결정에 쓰일 수 없습니다.
- 다중 이미지 입력, multi-turn 대화 미지원
- prompt에 민감: 의료 문구 prompt 설계가 성능에 큰 영향을 미칩니다.
📎 마무리
MedGemma는 의료 특화 멀티모달 AI 모델 중 드물게 “성능”과 “접근성”을 모두 갖춘 오픈소스 모델입니다.
특히 의료 영상과 텍스트를 함께 다뤄야 하는 실제 연구 환경에서, 파인튜닝 예시까지 제시해주기때문에 접근이 더 용이한 것 같습니다.
반응형
'개발 > AI' 카테고리의 다른 글
2025년 오픈소스 VLM(Vision-Language Model) 현황 정리 (2) | 2025.05.16 |
---|---|
[정리] 2025년 이후 멀티모달 인공지능의 발전 (0) | 2025.05.09 |
헬스케어 질의 응답이 가능한 sLLM 파인튜닝하기 (2) | 2024.10.17 |
Llama-3.2-1B-Instruction 모델 파인튜닝하기 (6) | 2024.10.02 |
PPT 슬라이드를 Vision-Language 모델로 해석하기 (3) | 2024.09.24 |