vision language model

개발/AI

Qwen3-VL-8B-Instruct 파인튜닝 코드

Qwen3-VL-8B-Instruct 파인튜닝 코드를 정리해봤습니다. 커스텀 데이터를 사용하는지라, 데이터 로드(load_data 함수) 부분은 각자 데이터에 맞게 변경이 필요합니다.참고만하시면 됩니다. 0. Library 준비pip install transformers # >= 4.57.0pip install datasets peft trl qwen_vl_utilspip install torch # related by Personal CUDA Version(e.g., CUDA 12, 13, ...)pip install PIL numpy tqdm json random # 필수는 아닐수도있음 transformers는 가장 최신의 버전을 추천합니다.pip install --upgrade pippip inst..

개발/AI

2025년 오픈소스 VLM(Vision-Language Model) 현황 정리

최근 몇 년간 인공지능 모델은 놀라운 속도로 발전해 왔습니다. 특히 2025년 상반기에는 텍스트와 이미지를 함께 이해하고 처리할 수 있는 멀티모달 모델, 즉 VLM(Vision-Language Model) 분야에서 매우 다양한 오픈소스 모델들이 등장했습니다.이번 글에서는 2025년 현재 기준으로 공개된 주요 오픈소스 VLM 모델들과, 각 모델이 어떤 특징을 가지고 있는지를 정리해보려고 합니다.VLM이란?먼저 간단히 VLM이란 무엇인지 짚고 넘어가겠습니다.**VLM(Vision-Language Model)**은 텍스트와 이미지를 동시에 입력받아 이해하거나 생성하는 모델을 말합니다. 대표적으로 다음과 같은 기능을 수행할 수 있습니다:이미지를 보고 설명 생성하기 (Image Captioning)이미지 속 객체..

njsung
'vision language model' 태그의 글 목록