FLUX로 생성한 이미지로 VLM 별 Image Understanding 능력 비교해보기(ChatGPT, Claude, CLOVA X)

티스토리 뷰

기타

FLUX로 생성한 이미지로 VLM 별 Image Understanding 능력 비교해보기(ChatGPT, Claude, CLOVA X)

developer0hye 2024. 10. 9. 17:38

실험 일자: 20241009

편의성

1. Ctrl + v 로 이미지를 입력할 수 있는가?

ChatGPT4o O

Claude 3.5 Sonnet O

CLOVA X X

2. webp 파일을 입력으로 지원하는가?

ChatGPT4o O

Claude 3.5 Sonnet O

CLOVA X X

결과

입력 프롬프트: 이 이미지에 대해 자세히 설명해줘

- 모든 VLM에 대해 한국어로 입력해줌

입력 이미지:

- CLOVA X는 webp 파일 열어서 윈도우 스크린 캡처 후 jpg로 다시 저장한 이미지를 입력함, OpenCV로 읽어서 재압축하려다가 귀찮아서 안함, 그래서 입력이 나머지 두 VLM간 완전 동일하지 않다는 문제가 있긴함

- https://developer0hye.tistory.com/751 이 글에서 소개한 FLUX를 이용해 직접 생성한 이미지

- 이미지 생성 프롬프트: an image of an Asian developer around 30 years old, wearing glasses, a checkered shirt under a gray zip-up hoodie, and a chef's hat. He is holding a sign that says 'When should we meet?' A small frog is sitting on his head, next to an orange mushroom.

비교 대상

1. 후드에 대한 설명이 포함돼있는가?

2. 체크셔츠에 대한 설명이 포함돼있는가?

3. "When should we meet?" 글자에 대한 설명이 포함돼있는가?

4. 표정에 대한 설명이 포함돼있는가?

5. 안경에 대한 설명이 포함돼있는가?

6. 개구리에 대한 설명이 포함돼있는가?

7. 버섯에 대한 설명이 포함돼있는가?

8. 요리 모자에 대한 설명이 포함돼있는가?

9. 성별에 대한 설명이 포함돼있는가?

10. 배경에 대한 설명이 포함돼있는가?

ChatGPT 4o

Claude 3.5 Sonnet

CLOVA X

VLMs	후드	체크셔츠	글자	표정	안경	개구리	버섯	요리 모자	성별	배경
ChatGPT 4o	x	x	o	o	o	o	o	o	o	x
Claude 3.5 Sonnet	o	o	o	o	o	o	o	o	o	o
CLOVA X	o	x	o	o	o	o	o	o	o	o

Claude 3.5가 다른 VLM과 다르게 보다 체계적으로 설명해주는 느낌이 든다. 버섯과 개구리의 색상까지 자세히 설명하고 있으며 셔츠까지 설명해주었다. 게다가 인종까지 분류했다...!

'기타' 카테고리의 다른 글

이직을 한다면 (3)	2024.10.12
20241011 집 PC에 Ubuntu 설치 (6)	2024.10.11
20241007 ChatGPT o1-preview도 아직 r을 잘 못 센다. (0)	2024.10.07
요새 친구와 돈 계산할때 쓰는 방법 Feat. ChatGPT OCR (1)	2024.10.01
Confluence 자동 목차 생성 (0)	2024.09.08

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

글 보관함

지속 가능한 꾸준함

티스토리 뷰