data:image/s3,"s3://crabby-images/00dd3/00dd3bc4897dc58849193d6a83d7bb344eaa18b8" alt=""
개발/AI
PPT 슬라이드를 Vision-Language 모델로 해석하기
개요'PPT 슬라이드를 자동으로 분석해볼 수 없을까?' 에서 시작된 간단한 토이 프로젝트로 Python 환경에서 다음과 같은 기능을 구현해봤습니다. 사용된 기술 스택 및 dependency 설치# torch 버전은 본인의 GPU에 맞게 세팅pip install torch transformers==4.44.0pip install pdf2image python-pptx comtypes 구현 과정1. PPT를 PDF로 변환PPT를 PDF로 변환하는 과정은 comtypes 라이브러리를 이용합니다. 이 라이브러리는 Windows COM(Component Object Model) 인터페이스와 상호 작용할 수 있게 해줍니다.이를 이용해 Microsoft Office 애플리케이션(Powerpoint, Word, Exc..