최근 몇 년간 인공지능 모델은 놀라운 속도로 발전해 왔습니다. 특히 2025년 상반기에는 텍스트와 이미지를 함께 이해하고 처리할 수 있는 멀티모달 모델, 즉 VLM(Vision-Language Model) 분야에서 매우 다양한 오픈소스 모델들이 등장했습니다.
이번 글에서는 2025년 현재 기준으로 공개된 주요 오픈소스 VLM 모델들과, 각 모델이 어떤 특징을 가지고 있는지를 정리해보려고 합니다.
VLM이란?
먼저 간단히 VLM이란 무엇인지 짚고 넘어가겠습니다.
**VLM(Vision-Language Model)**은 텍스트와 이미지를 동시에 입력받아 이해하거나 생성하는 모델을 말합니다. 대표적으로 다음과 같은 기능을 수행할 수 있습니다:
- 이미지를 보고 설명 생성하기 (Image Captioning)
- 이미지 속 객체나 장면에 대해 질의응답 (Visual Question Answering)
- 이미지 속 특정 영역을 지목하고 설명하기 (Referring Expression, Region Grounding)
- 멀티모달 추론 (예: “이 사람은 어떤 감정을 느끼고 있을까?”)
기존에는 텍스트와 이미지를 별도 처리한 후 후처리를 하거나, 중간단계에서 결합했지만, 최근에는 텍스트 기반 LLM에 이미지 인코더를 통합하는 방식으로 발전하고 있습니다.
1. Qwen-VL-Chat / Qwen-VL-Instruct
- 공개 시기: 2024년 말 ~ 2025년 초
- 라이선스: Apache 2.0
- 특징:
- 다국어(Multilingual) 대응 우수, 한국어 포함
- 입력 이미지에 대해 상세하고 추론 중심의 설명 제공
- 다양한 태스크를 위한 Instruction 기반 대화 형식 모델 제공
- 모델 크기: 0.5B, 1.8B, 7B 등 다양한 버전 존재
- API/데모 제공: Hugging Face Space, Colab, Docker 기반 실행 가능
👉 장점:
한국어 이미지 설명, 이미지 QA에서 준수한 성능을 보이며, Hugging Face Transformers 구조로 쉽게 파인튜닝이 가능합니다. Vision encoder로 CLIP을 사용하며 텍스트 디코더로 LLM을 결합하는 구조입니다.
2. MiniGPT-4 / MiniGemini 시리즈
- 공개: Vicuna 기반 모델을 확장하여 2023~2025까지 지속적 개선
- 특징:
- BLIP-2 구조 기반의 pre-trained Vision encoder 사용
- 실제 GPT-4 수준은 아니지만, 비슷한 구조를 간단하게 재현한 경량 모델
- 이미지 캡셔닝, 이미지 기반 대화에 최적화
- 라이선스: MIT
👉 장점: 저사양 환경에서 테스트하기에 적합, Docker와 Gradio UI로 쉽게 실행 가능
3. LLaVA-1.5 / LLaVA-NeXT
- LLaVA는 “Large Language and Vision Assistant”의 약자로, LLM + CLIP Vision Encoder 구조
- 2025년에는 LLaVA-NeXT가 새롭게 등장하면서 향상된 multimodal alignment 성능을 보여줌
- 특징:
- OpenAI GPT-4V처럼 이미지 분석 + 추론 기반의 QA 가능
- LLaVA-1.5는 Vicuna, LLaVA-NeXT는 Mistral 기반 등 다양한 백본 제공
- Hugging Face에서 직접 사용할 수 있음
👉 장점: 문서 내 표/그래프를 인식하고 설명하는 기능, 의학 영상 보고서 프롬프트 설계에도 활용 가능
4. OpenFlamingo 2 / Kosmos-2
- OpenFlamingo 2:
- DeepMind Flamingo의 구조를 기반으로 오픈소스로 재현한 프로젝트
- Vision encoder로 CLIP, Text encoder로 LLM 사용
- 샘플 few-shot 이미지-텍스트 프롬프트 기반 학습 지원
- Kosmos-2:
- Microsoft에서 발표한 구조로, 멀티모달 reasoning에 강점
- OCR + 이미지 이해 + 텍스트 생성이 가능한 통합 모델
👉 장점: 이들 모델은 직접 사용해보면 추론 과정이 매우 자연스럽고, 특히 multimodal reasoning 태스크에서 괜찮은 성능을 보입니다.
마치며
이 글은 현재 오픈소스로 공개된 VLM 모델들 중 2025년 기준으로 활용 가능한 모델 위주로 정리해본 내용입니다.
개인적인 실험에서는 특히 Qwen-VL-Chat과 LLaVA-1.5의 실용성이 좋았으며, 한국어 기반의 멀티모달 리포트 생성 태스크에도 확장성이 충분해 보였습니다.
이후 기회가 된다면, 위 모델들을 직접 파인튜닝하고 비교하는 실습 포스팅도 진행해보려고 합니다.
👉 참고로 저는 현재 Qwen-2.5-VL-Instruct 모델 기반으로 의료 영상 자동 보고서 생성 모델을 개발하고 있으며, Chain-of-Thought 기반 reasoning 구조도 함께 실험하고 있습니다.
관련 실험 내용이 궁금하시다면 다음 포스팅에서 소개드리겠습니다.
감사합니다!
'개발 > AI' 카테고리의 다른 글
🩺 MedGemma3: 구글이 만든 의료 멀티모달 모델의 진화 (1) | 2025.05.26 |
---|---|
[정리] 2025년 이후 멀티모달 인공지능의 발전 (0) | 2025.05.09 |
헬스케어 질의 응답이 가능한 sLLM 파인튜닝하기 (2) | 2024.10.17 |
Llama-3.2-1B-Instruction 모델 파인튜닝하기 (6) | 2024.10.02 |
PPT 슬라이드를 Vision-Language 모델로 해석하기 (3) | 2024.09.24 |