Ollama를 활용한 Image to Text (Vision model 성능 비교)
Cori
이미지가 전달하는 감각적인 요소를 글로 풀어낼 수 있다면, 보는 이에게 더 깊은 경험을 제공할 수 있다. 단순히 "사람들이 축제에서 춤을 춘다" 가 아닌, "거리 한복판, 강렬한 조명이 번쩍인다. 북소리에 맞춰 사람들이 발을 구르고, 웃음소리가 공기를 가득 채운다. 누군가는 리듬을 타며 손을 흔들고, 또 누군가는 박수를 치며 환호한다" 와 같이 장면을 글로 풀어내면 단순히 이미지를 보는 것을 넘어, 현장에 있는 듯한 느낌을 받을 수 있다. 해당 포스트에서는 이미지가 담고 있는 내용을 글로 풀어내기 위해 사용해본 모델들과, 결과물 및 성능 개선을 위한 프롬프트 적용 과정을 소개한다.Ollama Models이미지의 내용을 텍스트로 변환하기 위해서는 이미지를 입력으로 받고, 텍스트를 반환하는 모델이 필요하다...