대선을 앞두고 나처럼 정치적 의사결정을 할 때 후보들의 핵심 공약 및 정책과 나의 가치관을 기준으로 판단하려는 사람도 분명 있을 것이다. 하지만 생각보다 그런 선택을 도와주는 도구나 서비스는 부족하다. 그래서 간단하게 만들기로 했다. https://nakjun.github.io/2025-president-matching/ 나에게 맞는 대통령 후보 찾기나에게 맞는 대통령 후보 찾기 20가지 카테고리별 질문에 답하고, 나와 가장 가치관이 가까운 대통령 후보를 알아보세요. 시작하기 나에게 맞는 대통령 후보 찾기nakjun.github.io 1. 기획: NotebookLM을 활용한 문서 기반 데이터 가공기본 전제는 간단하다.누구를 뽑아야 할지 모르겠다.나는 이런 가치(복지, 환경, 청년 등)를 중요하게 생각한다..
2025년 5월 20일, Google은 의료 영상과 텍스트를 아우르는 차세대 멀티모달 모델 MedGemma를 공개했습니다. 이는 Gemma 3 시리즈의 연장선에 있는 의료 특화 변형으로, 이미지-텍스트 이해 및 생성 능력에서 현존하는 오픈모델 중 가장 강력한 퍼포먼스를 보이는 모델 중 하나입니다. 🔍 모델 개요MedGemma는 크게 두 가지 버전으로 나뉩니다.MedGemma 4B (멀티모달):SigLIP 기반의 이미지 인코더 + 의료특화 LLM 조합→ X-ray, 피부 이미지, 안과 이미지, 병리학 이미지를 모두 이해하고 설명 가능MedGemma 27B (텍스트 전용):순수 텍스트 기반 의료 QA 및 reasoning 특화→ MedQA, PubMedQA, MedMCQA 등의 벤치마크에서 SOTA에 가까..
최근 몇 년간 인공지능 모델은 놀라운 속도로 발전해 왔습니다. 특히 2025년 상반기에는 텍스트와 이미지를 함께 이해하고 처리할 수 있는 멀티모달 모델, 즉 VLM(Vision-Language Model) 분야에서 매우 다양한 오픈소스 모델들이 등장했습니다.이번 글에서는 2025년 현재 기준으로 공개된 주요 오픈소스 VLM 모델들과, 각 모델이 어떤 특징을 가지고 있는지를 정리해보려고 합니다.VLM이란?먼저 간단히 VLM이란 무엇인지 짚고 넘어가겠습니다.**VLM(Vision-Language Model)**은 텍스트와 이미지를 동시에 입력받아 이해하거나 생성하는 모델을 말합니다. 대표적으로 다음과 같은 기능을 수행할 수 있습니다:이미지를 보고 설명 생성하기 (Image Captioning)이미지 속 객체..
2025년 상반기 멀티모달 인공지능(Multimodal AI)의 주요 발전 정리2025년이 시작된 지 벌써 만 4개월이 흘렀습니다. 그동안 인공지능 업계에서는 특히 멀티모달 AI 분야에서 눈에 띄는 기술적 도약들이 있었는데요, 이번 포스팅에서는 2025년 1월부터 5월 사이에 공개된 중요한 모델들과 그 흐름을 간단히 정리해보겠습니다. 생성에 사용한 프롬프트: 다음 첨부하는 이 블로그글의 전문을 읽고, 내용을 대표할 수 있는 이미지를 하나 생성해줘.이미지를 생성할 때 가로로 긴 이미지로 생성하고, 텍스트는 꼭 한국어로 생성해줘. GPT-4o: OpenAI의 멀티모달 올인원 모델2025년 5월, OpenAI는 GPT-4o(Omni)를 전격 공개했습니다. 이름의 'o'는 Omni를 뜻하며, 하나의 단일 모델로..
프로젝트 개요안녕하세요, 지난번 Llama-3.2-1B-Instruction 모델을 한국어 QA 태스크에 파인튜닝했던 경험을 공유드렸는데요. 이번에는 AIHub의 초거대 AI 헬스케어 질의응답 데이터를 활용하여 비슷한 프로젝트를 수행한 경험을 공유하고자 합니다. [지난 Llama-3.2-1B 파인튜닝 프로젝트 보기] Llama-3.2-1B-Instruction 모델 파인튜닝하기Llama 모델이란?먼저, Llama 모델에 대해 간단히 소개하겠습니다. Llama(Large Language Model Meta AI)는 Meta AI에서 개발한 대규모 언어 모델입니다. OpenAI의 GPT 시리즈와 마찬가지로 트랜스포naakjii.tistory.com 이번 프로젝트의 목표는 AIHub에서 제공하는 헬스케어 ..
Llama 모델이란?먼저, Llama 모델에 대해 간단히 소개하겠습니다. Llama(Large Language Model Meta AI)는 Meta AI에서 개발한 대규모 언어 모델입니다. OpenAI의 GPT 시리즈와 마찬가지로 트랜스포머 아키텍처를 기반으로 하며, 다양한 크기와 성능을 제공합니다. 이 포스팅에서 다룰 Llama-3.2-1B-Instruction 모델은 약 10억 개의 파라미터를 가진 모델로, sLLM에 해당하는 아주 작은 파라미터를 가지고 있지만, 특정 태스크에서는 뛰어난 성능을 보여주는 모델입니다.한국어 QA 튜닝 방법한국어 QA 시스템의 발전은 국내 AI 산업에서 매우 중요한 부분을 차지합니다. 검색 엔진, 고객 서비스 챗봇, 교육용 AI 등 다양한 분야에서 활용될 수 있기 때..
개요'PPT 슬라이드를 자동으로 분석해볼 수 없을까?' 에서 시작된 간단한 토이 프로젝트로 Python 환경에서 다음과 같은 기능을 구현해봤습니다. 사용된 기술 스택 및 dependency 설치# torch 버전은 본인의 GPU에 맞게 세팅pip install torch transformers==4.44.0pip install pdf2image python-pptx comtypes 구현 과정1. PPT를 PDF로 변환PPT를 PDF로 변환하는 과정은 comtypes 라이브러리를 이용합니다. 이 라이브러리는 Windows COM(Component Object Model) 인터페이스와 상호 작용할 수 있게 해줍니다.이를 이용해 Microsoft Office 애플리케이션(Powerpoint, Word, Exc..
자연어 처리(NLP) 기술이 급속도로 발전하면서, 한국어 처리 기술도 큰 진전을 이루고 있습니다. 그 중심에는 '벡터 임베딩'이라는 혁신적인 기술이 자리 잡고 있습니다. 이 글에서는 한국어 벡터 임베딩의 개념, 방법, 그리고 실제 응용 사례에 대해 자세히 알아보겠습니다.벡터 임베딩이란?벡터 임베딩은 자연어의 의미를 수치화된 벡터로 표현하는 기술입니다. 이를 통해 컴퓨터는 단어나 문장의 의미를 이해하고 처리할 수 있게 됩니다. 예를 들어, "강아지"와 "고양이"라는 단어는 서로 다른 벡터로 표현되지만, 이 벡터들은 상대적으로 가까운 거리에 위치하게 됩니다. 반면 "강아지"와 "자동차"는 더 먼 거리에 위치하게 됩니다.벡터 임베딩의 핵심 아이디어는 "유사한 맥락에서 사용되는 단어들은 유사한 의미를 가진다"는..