소소한 컴퓨터 이야기

Ollama를 활용한 Image to Text (Vision model 성능 비교)

by Cori

AI

이미지가 전달하는 감각적인 요소를 글로 풀어낼 수 있다면, 보는 이에게 더 깊은 경험을 제공할 수 있다. 단순히 "사람들이 축제에서 춤을 춘다" 가 아닌, "거리 한복판, 강렬한 조명이 번쩍인다. 북소리에 맞춰 사람들이 발을 구르고, 웃음소리가 공기를 가득 채운다. 누군가는 리듬을 타며 손을 흔들고, 또 누군가는 박수를 치며 환호한다" 와 같이 장면을 글로 풀어내면 단순히 이미지를 보는 것을 넘어, 현장에 있는 듯한 느낌을 받을 수 있다.

 

해당 포스트에서는 이미지가 담고 있는 내용을 글로 풀어내기 위해 사용해본 모델들과, 결과물 및 성능 개선을 위한 프롬프트 적용 과정을 소개한다.


Ollama Models

이미지의 내용을 텍스트로 변환하기 위해서는 이미지를 입력으로 받고, 텍스트를 반환하는 모델이 필요하다. Ollama에서는 다음과 같은 모델들을 지원한다.

여기서는 이 중 llava(13b, 34b), llama3.2-vision, llava-llama3, llava-phi3 모델을 사용하여 이미지를 텍스트로 변환해본다. (moondream: edge-device 전용, baklava: 기존 모델들과 별다른 차이가 없어 생략)

 

기본적인 Ollama 세팅 방법은 이전 포스팅에 기록해두었으니, 세팅이 되어 있지 않다면 세팅 후 이후 내용을 같이 진행해보면 좋을 것 같다. 

 

Ollama 사용 설정하기

이 글을 보려면 비밀번호가 필요해요. 비밀번호를 모른다면 운영자에게 문의해 보세요.

cori.tistory.com

Test Images

테스트에 사용할 이미지는 인물, 건축물, 동물, 풍경, 캐릭터 관련해서 각각 하나씩 선정했다. 

01234

Model 1. LLaVA (13b, 34b)

LLaVA는 vision encoder와 Vicuna를 결합한 대규모 멀티모달 모델로, 현재 가장 많은 사용수를 기록하고 있다. 각 모델들의 응답은 다음과 같으며, 가독성을 생각해 영어 응답을 GPT4-o에게 주고 한국어로 번역했다. 

'''LLaVA 13b'''
인물: 이미지에는 연설을 하거나 발표를 하는 남성이 보입니다. 그는 공식적인 자리에서 발언하는 것으로 보이며, 정부나 정치 행사와 관련이 있을 가능성이 있습니다. 그는 오른손으로 제스처를 취하며 특정한 논점을 강조하는 듯합니다. 정장을 입고 넥타이를 착용한 모습은 격식 있는 또는 전문적인 자리임을 시사합니다. 배경에는 미국 국기가 보여, 이 행사가 미국에서 열리고 있거나 미국 정책과 관련된 것일 가능성이 있습니다.
건축물: 이미지는 전통적인 동아시아 스타일의 집을 황혼 무렵에 담고 있습니다. 건물은 벽돌과 나무로 지어졌으며, 넓은 창문을 통해 풍부한 빛이 들어옵니다. 이미지 내에는 보이는 텍스트나 로고가 없습니다.
동물: 이미지에는 털이 복슬복슬한 어린 고양이가 보입니다. 눈에 띄는 파란 눈을 가지고 있으며, 위를 바라보고 있어 카메라나 사진을 찍는 사람을 보고 있을 가능성이 큽니다. 배경에 나무 바닥이 있는 것으로 보아 실내에서 촬영된 것으로 보입니다. 고양이의 표정은 호기심이 가득하거나 약간 놀란 듯한 느낌을 줍니다.
풍경: 이미지는 밤하늘을 수놓은 오로라, 즉 북극광(Aurora Borealis)을 담고 있습니다. 이 현상은 태양에서 방출된 전하를 띤 입자들이 지구 대기권에 진입하면서 충돌할 때 발생하는데, 충돌한 기체의 종류와 양에 따라 다양한 색상의 빛이 생성됩니다. 오로라는 흔히 밝은 줄무늬나 커튼 형태로 나타나며, 그중에서도 녹색이 가장 흔한 색상입니다.
이는 산소 분자가 질소에서 방출된 붉은빛을 흡수한 후 녹색 빛을 방출하기 때문입니다. 이러한 자연 현상은 보통 캐나다 북부, 알래스카, 노르웨이, 아이슬란드와 같은 고위도 지역에서 자주 관찰되며, 지구의 자기장과 가까운 위치 덕분에 더욱 뚜렷하게 보이는 경우가 많습니다. 이미지에서는 어두운 밤하늘을 배경으로 오로라의 생생한 색감이 대비를 이루며, 이 장엄하고 신비로운 자연 현상의 아름다움을 극적으로 포착하고 있습니다.
캐릭터: 이 이미지는 찰스 M. 슐츠(Charles M. Schulz)의 만화 피너츠(Peanuts) 속 사랑받는 캐릭터인 스누피(Snoopy)를 그린 그림입니다. 해당 장면에서 스누피는 벽돌 담 위에 앉아 있으며, 무표정한 얼굴을 하고 있습니다. 그의 상징적인 생각 풍선이 등장하는 듯한 분위기입니다. 배경은 도시 환경처럼 보이며, 스누피가 깊은 생각에 잠겨 있거나 무언가를 기다리고 있는 듯한 느낌을 줍니다.
'''LLaVA 34b'''
인물: 이미지에는 한 남성이 오른팔을 뻗어 검지를 앞으로 가리키고 있는 모습이 보입니다. 그는 공적인 행사 중에 연설하거나 제스처를 취하는 중인 것으로 보입니다. 남성은 짙은 색 정장과 흰색 셔츠를 입고 있으며, 넥타리는 보이지 않습니다. 그의 표정은 집중되어 있고 결연한 모습입니다. 배경에는 미국 국기를 닮은 깃발들이 보이며, 이로 인해 이 장면이 미국 정치 행사나 공적인 자리에서 촬영된 것일 가능성이 큽니다. 이미지에서는 한 정치인이 캠페인 중이거나 대중 연설을 하는 순간을 포착한 듯한 분위기가 느껴집니다.
건축물: 이미지는 전통적인 요소와 현대적인 디자인이 조화를 이루는 건축 구조를 보여줍니다. 건물은 개방적이고 빛이 가득한 내부 공간을 갖추고 있으며, 주변 자연 환경과 자연스럽게 어우러지는 느낌을 줍니다. 외벽은 돌이나 비슷한 소재로 구성되어 있어 견고한 인상을 주며, 하층부는 자연광이 풍부하게 들어오는 구조를 가지고 있습니다. 상층부에는 발코니 또는 전망대처럼 보이는 공간이 있으며, 난간이 설치되어 있어 개방감을 더욱 강조합니다. 하늘에는 푸른색과 주황색이 어우러진 색감이 보여, 이 장면이 일출이나 일몰 무렵에 촬영된 것임을 시사합니다. 이미지 내에는 특정한 위치나 맥락을 나타내는 텍스트나 구별할 수 있는 표식은 보이지 않습니다.
동물: 이미지에는 고양이가 나무 바닥이나 플랫폼 위에 앉아 있는 모습이 보입니다. 고양이의 털은 검은색, 회색, 흰색이 섞인 줄무늬 패턴을 가지고 있습니다. 두 눈을 크게 뜨고 정면을 응시하고 있어, 주의를 기울이거나 놀란 듯한 표정을 짓고 있습니다. 배경은 실내 환경처럼 보이며, 가정 내에서 촬영된 것으로 추정됩니다. 이미지에는 별다른 텍스트나 식별 가능한 표시가 보이지 않습니다.
풍경: 이미지는 밤하늘을 수놓은 오로라(북극광)의 생생한 모습을 담고 있습니다. 다양한 녹색과 노란색의 빛이 하늘을 휘감으며 소용돌이치는 패턴을 형성하고 있습니다. 이 장엄한 광경 아래로는 굽이진 도로가 눈 덮인 풍경을 가로지르며 이어져 있습니다. 도로 양옆에는 잎이 없는 나무들이 서 있어 겨울철임을 암시합니다. 지평선은 산이나 눈에 띄는 지형적 요소 없이 탁 트여 있어, 넓은 공간감을 제공합니다. 오로라의 강렬한 색감과 선명한 디테일 덕분에 이미지는 거의 초현실적인 분위기를 자아냅니다. 이러한 선명한 오로라의 모습은 사진에서도 쉽게 담기 어려운 장면이라 더욱 인상적으로 다가옵니다.
캐릭터: 이미지는 찰스 M. 슐츠(Charles M. Schulz)의 만화 피너츠(Peanuts) 속 유명한 비글 캐릭터인 스누피(Snoopy)를 그린 만화 그림입니다. 스누피는 자신의 개집 지붕 위에 앉아 있는 모습으로 묘사되어 있습니다. 그의 머리 위에는 생각 풍선이 떠 있으며, 이는 종종 그가 깊은 생각에 잠겨 있거나 공상에 빠져 있다는 것을 암시합니다. 배경은 단순하며, 특정한 맥락을 제공하지 않지만 맑은 하늘과 몇 개의 떠 있는 구름이 그려져 있어 평온한 분위기를 자아냅니다.
  • 인물: 34B 모델이 좀 더 세밀한 신체 움직임과 표정을 묘사하고, 넥타이 착용 여부를 분명하게 구별
  • 건축물: 34B 모델이 더 자세한 건축적 요소를 설명하고, 자연환경과 조화까지 고려한 묘사를 함 
  • 동물: 13B 모델이 '파란 눈'과 같은 특정한 특징을 명확하게 언급한 반면, 34B는 더 구체적인 털 무늬 묘사와 표정 분석을 추가하여 보다 직관적이고 세밀한 묘사를 함 
  • 풍경: 13B 모델은 과학적인 설명이 강점이고, 34B는 감각적인 시각 묘사를 제공함
  • 캐릭터: 34B 모델이 이미지 위치(벽돌 담 → 개집 지붕)를 더 정확하게 묘사하고, 배경을 설명하여 좀 더 완성도 높은 응답을 제공함

 

Model 2. llava-phi3

LLaVA-Phi3는 Phi 3 Mini 4K 모델을 기반으로 미세 조정된 LLaVA 모델로, 다양한 벤치마크에서 뛰어난 성능을 발휘하며 원래의 LLaVA 모델과 동등한 수준의 성능을 보인다. 해당 모델은 Phi 3 Mini 4K를 기반으로 최적화되었기 때문에, 더 긴 컨텍스트 윈도우를 활용할 수 있으며, 경량 모델이면서도 강력한 추론 능력을 갖춘 것이 특징이다.

'''llava-phi3'''
인물: 이미지는 정치 행사 중 한 순간을 포착하며, 도널드 트럼프 전 미국 대통령이 무대에 서 있는 모습을 보여줍니다. 무대는 푸른 조명으로 물들어 있으며, 이는 그의 정장과 넥타이 차림과 대비를 이루며 강한 시각적 효과를 줍니다. 트럼프는 오른손을 앞으로 뻗어 손가락을 위로 가리키고 있으며, 이는 특정한 대상이나 개념에 주목하도록 유도하는 제스처로 보입니다. 배경에는 약간 흐릿하지만 미국 국기가 자리하고 있어, 이 장면이 국가적 사안과 관련된 연설이나 발표일 가능성을 시사합니다. 이미지 내에는 명확한 텍스트가 포함되지 않았으며, 전체적인 구도는 트럼프를 중심으로 배치하여 그가 행사에서 핵심적인 인물임을 강조합니다. 그의 제스처와 배경 요소들은 그의 발언이 중요한 메시지를 전달하는 순간임을 암시하며, 공식적인 분위기를 더욱 강화합니다.
건축물: 이미지는 석양이 지는 평온한 분위기 속에서 전통 한국식 건축물을 중심으로 한 풍경을 담고 있습니다. 이 건물은 2층 구조로 이루어져 있으며, 두 층은 난간이 있는 나무 다리로 연결되어 있습니다. 상층에는 발코니가 자리하고 있어, 아래 펼쳐진 푸른 잔디밭과 위로 펼쳐진 맑은 하늘을 조망할 수 있도록 설계되었습니다. 하층에는 세 개의 큰 창문이 있으며, 창문마다 붉은색 커튼이 걸려 있어, 전체적으로 차분한 색감 속에 생동감을 더하고 있습니다. 건물 앞 잔디밭에는 흰색 개 한 마리가 편안하게 누워 있으며, 저녁의 선선한 바람을 즐기는 듯한 모습입니다. 배경에는 키 큰 나무들이 서 있으며, 지는 해의 실루엣이 만들어내는 긴 그림자가 잔디밭을 가로질러 부드럽게 퍼져 있습니다. 하늘은 분홍빛과 주황빛이 어우러진 석양의 색조로 물들어 있으며,
하루의 끝자락을 알리는 따뜻한 분위기를 연출합니다. 구성 면에서 보면, 개는 카메라와 가장 가까운 위치에 있으며, 건물은 그 뒤로 자리 잡고 있습니다. 나무들은 건물과 잔디밭을 둘러싸며, 멀리 배경을 형성하는 요소로 자리합니다. 이러한 배치는 자연과 건축이 조화를 이루며, 전통적인 공간이 자연 속에 자연스럽게 녹아든 모습을 보여줍니다. 이미지 속에는 식별할 수 있는 텍스트나 특정한 숫자로 셀 수 있는 요소는 포함되지 않았으며, 모든 요소들이 석양의 따뜻한 빛을 받으며 하나의 아름다운 풍경을 완성하고 있습니다.
동물: 이미지의 중심에는 회색과 흰색이 조화를 이루는 아기 고양이가 나무 데크 난간 위에 앉아 있습니다. 고양이는 앞발을 난간에 올려두어 자연스럽게 똑바로 앉은 자세를 취하고 있으며, 꼬리는 뒤로 말려 있어 안정감을 줍니다. 귀를 쫑긋 세운 채 카메라를 똑바로 바라보는 모습에서 호기심과 관심이 엿보이며, 사진을 촬영하는 사람을 주의 깊게 관찰하는 듯한 인상을 줍니다. 배경은 흐릿하게 처리되어 있어 시선이 온전히 고양이에게 집중되도록 연출되었습니다. 이러한 구성을 통해, 고양이의 순수하고 평온한 분위기가 더욱 강조되며, 어린 동물 특유의 천진난만한 매력과 고요함이 이미지 전체에서 전해집니다.
풍경: 이미지는 황혼이 내려앉은 이차선 고속도로 위의 평온한 순간을 포착하고 있습니다. 하늘은 푸른색과 녹색이 어우러진 신비로운 색조로 물들어 있으며, 구름의 흰색과 검은색 대비가 더해져 장엄한 분위기를 연출합니다. 이러한 하늘의 색감은 아래 펼쳐진 풍경과 극적인 대비를 이루며, 전체 장면에 깊이감을 더해줍니다. 도로 양옆에는 울창한 나무들이 길게 늘어서 있으며, 어두운 실루엣이 되어 하늘의 밝은 색상과 강렬한 대비를 이루고 있습니다. 이 나무들은 고속도로를 따라 자연스러운 프레임을 형성하며, 길의 방향성과 시각적 안정감을 제공합니다. 멀리 도로가 구부러지는 곳 너머로, 하얀색 자동차 한 대가 달려가고 있는 모습이 보입니다. 차량은 카메라를 등지고 도로 왼쪽으로 향하고 있으며, 마치 숲속 깊은 곳으로 들어가는 듯한 인상을 줍니다.
이 장면은 고요함과 고독감을 동시에 자아내며, 자동차 한 대만이 정적인 풍경 속에서 유일한 움직임을 보여줍니다. 이로 인해, 화면에는 정지된 시간 속에서 하나의 여정을 이어가는 듯한 감성이 더해집니다. 특정한 위치나 지역을 암시하는 텍스트나 기타 식별 가능한 요소는 존재하지 않으며, 이러한 도로와 나무의 구성은 세계 어느 한적한 시골길에서도 볼 수 있는 풍경일 가능성이 높습니다. 구도적으로 보면, 차량은 오른쪽 차선에 위치하며 화면 왼쪽을 향해 이동하고 있고, 나무들은 정적으로 자리하며 도로를 따라 여행자들을 안내하는 역할을 합니다. 수평선은 이미지의 중앙을 가로지르며, 균형감과 공간감을 부여하고 있습니다. 결과적으로, 이 이미지는 황혼 속 여정의 한 순간을 담아내며, 조용한 도로를 따라 홀로 달리는 차 한 대와 자연의 경이로운 색채가 어우러진 장면을 통해 평온함과 사색의 감성을 전달합니다.
캐릭터: 이 이미지는 피너츠(Peanuts) 만화 시리즈의 캐릭터인 **찰리 브라운(Charlie Brown)**을 담은 흑백 일러스트입니다. 찰리 브라운은 상자 위에 앉아 있으며, 다리를 교차한 채 위를 바라보고 있습니다. 그의 표정은 걱정스럽거나 고민에 잠긴 듯한 모습으로, 특유의 소심하면서도 사색적인 성격이 드러납니다. 배경에는 나무와 구름이 그려져 있어 야외 환경임을 암시하며, 하늘은 맑을 수도 있고 흐릴 수도 있지만, 이미지가 흑백이기 때문에 정확한 색상은 확인할 수 없습니다. 이 장면은 찰리 브라운 특유의 철학적인 면모와 깊은 생각에 빠지는 순간을 잘 포착하고 있으며, 단순한 선과 명확한 구도를 통해 클래식한 만화 스타일의 매력을 유지하고 있습니다.

 

Model 3. LLaVA-llama3 (8b)

LLaVA-llama3 모델은 Llama 3 Instruct를 기반으로 미세 조정된 모델로, 여러 벤치마크에서 더 높은 성능을 기록한 개선된 버전이다. 해당 모델을 사용한 결과는 다음과 같다. 

'''llava-llama3'''
인물: 이미지는 도널드 트럼프 전 미국 대통령의 한 순간을 포착하고 있습니다. 그는 무대 위에 서서 검지를 들어 올리며 특정한 요점을 강조하거나 ‘1’을 의미하는 제스처를 취하고 있는 듯합니다. 그는 정통적인 정치인의 모습을 연상시키는 파란색 정장과 빨간색 넥타이를 착용하고 있으며, 표정은 진지하고 의미심장한 순간을 암시합니다. 배경에는 여러 깃발이 배치되어 있어 공식적인 분위기를 더욱 강조하고 있습니다. 이미지의 색상은 주로 파란색, 빨간색, 노란색이 조화를 이루며, 강렬하면서도 균형 잡힌 시각적 구성을 만들어내고 있습니다.
건축물: 이미지는 석양의 부드러운 빛 속에 잠긴 전통 한옥의 고요한 모습을 담고 있습니다. 나무와 돌로 지어진 이 집은 언덕 위에 우뚝 서 있으며, 전통 한국 건축이 강조하는 조화와 균형의 미학을 그대로 반영하고 있습니다. 한옥의 지붕은 곡선을 이루고 있는데, 이는 한국 전통 가옥의 대표적인 특징으로, 산과 하늘의 자연스러운 곡선을 상징합니다. 외벽에는 나무 기둥이 배치되어 있어 자연스러운 멋이 살아나며, 건물 전체의 아름다움을 더욱 돋보이게 합니다. 집 앞에는 돌담이 둘러싸여 있어 외부와의 경계를 형성하면서도, 주변의 푸른 자연과 자연스럽게 어우러집니다. 이 돌담은 단순한 방어적 역할을 넘어, 집의 미적 요소를 강화하며 주변 풍경과 조화를 이루는 중요한 요소로 작용합니다. 하늘은 푸른빛과 주황빛이 어우러진 색감으로 물들어 있어, 이 장면이 일출 또는 일몰 무렵임을 암시합니다. 태양이 길게 드리우는 그림자는 장면에 깊이감과 대비를 더해, 한층 더 감성적인 분위기를 연출합니다.
전체적으로, 이 이미지는 자연과 건축이 조화를 이루는 전통 한국의 삶을 고요하게 담아내고 있습니다. 한국의 풍부한 문화유산과 자연과의 깊은 연결성을 보여주는 한 폭의 아름다운 풍경입니다.
동물: 이미지의 주인공은 회색과 흰색이 섞인 작은 아기 고양이입니다. 고양이의 몸은 주로 흰색이며, 머리, 가슴, 발, 꼬리 부분에 회색 얼룩이 분포해 있습니다. 특히, 선명한 검은 눈이 돋보이며, 호기심 가득한 표정으로 카메라를 응시하고 있습니다. 고양이는 나무 난간 위에 앉아 있으며, 부드러운 털과 견고한 나무 질감이 대조를 이루고 있습니다. 난간은 세로로 배열된 나무 판자로 구성되어 있으며, 이미지 왼쪽에는 검은색 금속 기둥이 난간에 부착되어 있습니다. 배경은 흐릿하게 처리되어 있어 고양이에게 자연스럽게 시선이 집중됩니다. 배경에는 나무가 보이며, 이를 통해 촬영 장소가 야외임을 짐작할 수 있습니다. 또한, 이미지의 분위기로 보아 낮 시간대에 촬영된 것으로 보입니다. 이미지에는 특별한 텍스트나 다른 눈에 띄는 물체는 존재하지 않습니다. 고양이는 난간 위에 편안하게 앉아 있으며, 불안하거나 겁먹은 기색 없이 여유로운 모습을 보여줍니다. 전반적으로, 이 이미지는 야외의 평온한 분위기 속에서 작은 고양이가 세상을 호기심 어린 눈으로 바라보는 순간을 아름답게 담아내고 있습니다.
풍경: 이미지는 밤하늘 아래 펼쳐진 장엄한 고속도로 풍경을 담고 있습니다. 하늘은 깊은 푸른색을 배경으로 삼아, 초록빛과 흰빛이 어우러진 신비로운 오로라(북극광)가 나무 꼭대기 위를 휘감으며 춤추는 듯한 모습을 연출합니다. 고속도로는 어둠 속에서 대비를 이루며 길게 뻗어 있으며, 도로 양옆에는 나무들이 줄지어 서 있습니다. 한 대의 자동차가 길을 따라 달리고 있어, 정적인 장면 속에서도 움직임과 생동감을 더합니다. 멀리 수평선이 보이며, 이미지에 깊이감과 스케일감을 부여합니다. 이미지 내에는 명확한 텍스트나 특정한 개수를 셀 수 있는 물체는 존재하지 않습니다. 전체적인 구도는 마치 도로 위 차량 안에서 하늘을 올려다보는 시점에서 촬영된 듯한 느낌을 주며, 오로라가 수놓은 밤하늘의 웅장함을 더욱 실감 나게 전달합니다.
캐릭터: 이미지는 사랑스러운 장면을 담고 있으며, 그 중심에는 아이코닉한 만화 캐릭터인 스누피가 있습니다. 스누피는 흰색 직사각형 플랫폼 위에 앉아 있으며, 배경에는 구름이 떠 있는 하늘이 펼쳐져 있습니다. 그는 시그니처 스타일인 파란색과 흰색 줄무늬 셔츠에 회색 바지를 입고 있습니다. 왼손은 무릎 위에 자연스럽게 올려져 있으며, 오른손은 약간 들린 상태로, 마치 인사를 하거나 반가운 마음을 표현하는 듯한 제스처를 취하고 있습니다. 스누피의 시선은 이미지의 오른쪽 상단을 향하고 있으며, 이는 화면 밖의 무언가를 바라보는 듯한 분위기를 연출합니다. 전체적인 장면은 평온한 하루의 한 순간을 담고 있으며, 스누피가 넓은 하늘 아래에서 여유로운 시간을 보내고 있는 듯한 느낌을 줍니다. 이미지에는 특정한 텍스트가 포함되어 있지 않으며, 스누피가 이 구도의 중심을 차지하고 있습니다. 플랫폼과 구름 낀 하늘은 그의 주변 환경을 설명하며, 전체적으로 조화로운 구성을 이루고 있습니다.

해당 모델은 이전의 Llava 13b, 34b에 비해 작은 모델임에도 불구하고 이미지에 등장하는 인물이 누구인지, 건축물의 명칭이 무엇인지를 정확하게 잡아내는 등 개인적으로 좀 더 만족스러운 응답을 반환했다. 다만, 캐릭터를 설명하는 과정에서 의상(셔츠와 바지)까지 묘사했으나, 스누피는 본래 옷을 입지 않으므로 사실적 오류가 발생했다.

 

Model 4. LLama3.2-vision (11b)

Llama 3.2 Vision은 11B 및 90B 크기로 제공되는 명령어 기반 이미지 추론 생성 모델로, 이미지 기반 추론을 수행하도록 튜닝되었으며, 다양한 시각적 데이터를 해석하고 생성하는 능력을 갖추고 있다. 해당 모델은 텍스트 전용 작업의 경우 영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어를 공식적으로 지원하며, 이미지+텍스트 작업에서는 영어만 공식 지원한다.

'''llama3.2-vision'''
인물: 이미지는 도널드 트럼프 전 대통령이 보이지 않는 대상을 향해 검지를 가리키는 모습을 근접 촬영한 장면을 담고 있습니다. 트럼프는 공식적인 자리에서 착용하는 짙은 남색 정장 재킷과 깔끔한 흰색 칼라 셔츠를 입고 있으며, 얇은 흰색 줄무늬가 들어간 빨간색 넥타이를 매고 있습니다. 배경은 흐릿하게 처리되어 있지만, 그가 연설 중이거나 공식적인 발표를 하는 무대 또는 연단임을 짐작할 수 있습니다. 뒤편에는 수직으로 걸린 미국 국기들이 높이 세워진 깃대에 장식되어 있으며, 그 양옆으로는 노란색 꽃들이 배치되어 있어 장면에 격식 있는 분위기를 더하고 있습니다.
건축물: 이 사진은 석양 아래 고요한 아시아풍 건축물을 담고 있으며, 내부에서 퍼지는 따뜻한 조명이 구조를 부드럽게 비추고 있습니다. 건물의 외벽은 회색 석재로 마감되어 견고한 인상을 주며, 지붕은 붉은 나무 장식과 흰색 패널이 조화를 이루어 전통적이면서도 세련된 분위기를 자아냅니다. 전경에는 푸른 잔디밭이 넓게 펼쳐져 있으며, 프레임 왼쪽으로 나무들이 서 있어 자연과 조화로운 풍경을 연출합니다. 하늘은 푸른색, 분홍색, 보랏빛이 어우러져 평온하고 감성적인 분위기를 더해 줍니다. 전체적으로 이 장면은 자연과 건축이 어우러진 한 폭의 그림 같은 순간을 포착하고 있습니다.
동물: 이 이미지는 흰색과 회색이 조화를 이루는 작은 털북숭이 고양이를 담고 있습니다. 고양이는 선명한 눈으로 카메라를 똑바로 응시하고 있으며, 머리, 등, 꼬리에는 진한 회색 줄무늬가 특징적으로 나타나고 있습니다. 앞다리는 대부분 흰색으로 덮여 있어 부드러운 대비를 이룹니다. 고양이는 나무 난간 앞에 앉아 있거나 웅크리고 있는 듯하며, 야외 공간인 데크나 현관 같은 장소일 가능성이 높습니다. 배경은 흐릿하지만, 밝은 색상의 바닥이나 표면이 보이며, 전체적인 분위기는 따뜻하고 아늑한 느낌을 자아냅니다. 무엇보다도, 고양이의 또렷한 눈맞춤은 이미지에 친밀감과 몰입감을 더하며, 보는 이로 하여금 자연스럽게 교감하는 듯한 느낌을 주어 더욱 매력적으로 다가옵니다.
풍경: 이 이미지는 밤하늘을 밝게 수놓은 오로라(북극광)의 장엄한 모습을 담고 있습니다. 선명한 초록빛과 푸른빛이 어우러진 오로라는 하늘을 가로지르며 부드럽게 소용돌이치고 있으며, 아래의 울창한 숲은 어둠에 감싸여 신비로운 분위기를 자아냅니다. 전체적인 장면은 마치 마법과 같은 경이로움을 선사하며, 자연의 웅장한 아름다움을 감상하는 순간의 경외감을 불러일으킵니다.
캐릭터: 이 이미지는 찰스 슐츠(Charles Schulz)의 피너츠(Peanuts) 만화 시리즈에서 사랑받는 비글 캐릭터, 스누피를 흑백 일러스트로 담고 있습니다. 스누피는 자신의 개집 지붕 위에 앉아 있으며, 오른쪽을 바라보며 은은한 미소를 짓고 있습니다. 그의 귀는 머리 뒤쪽으로 살짝 접혀 있으며, 목에는 작은 방울이 달린 목걸이를 착용한 듯 보입니다. 일러스트는 클래식한 만화 스타일을 연상시키며, 굵은 선과 간결한 음영 처리가 특징입니다. 또한, 이미지는 스누피의 상반신과 개집 부분만을 강조하도록 잘려 있어, 주변 환경은 생략된 채 캐릭터에 집중할 수 있도록 구성되었습니다. 전체적으로, 이 이미지는 찰리 브라운의 충직한 친구이자 상담자인 스누피의 상징적인 모습을 보여주며, 그의 따뜻하고 익숙한 존재감을 담아냅니다.

일단 11b로만 테스트를 진행해보았는데, 성능이 지금까지 했던 모델들 중 가장 나은것 같았다. 특히, 이전 Llava-llama3 모델의 캐릭터에서 발생한 사실적 오류 또한 바로잡은 것을 확인할 수 있었다.


Conclusion

여러 모델을 사용해 본 결과, Image 내용을 텍스트로 변환하는 모델은 Llama3.2-vision 을 추천한다.

다만 여기서는 OCR이나 On-device 모델에 관해서는 다루지 않았기에, 관련 작업을 하는 분들은 추가적인 테스트를 진행해보길 바라며 이번 포스팅을 마친다. 

블로그의 프로필 사진

블로그의 정보

코딩하는 오리

Cori

활동하기