티스토리 뷰

실험 일자: 20241009

편의성

1. Ctrl + v 로 이미지를 입력할 수 있는가?

 

ChatGPT4o O

Claude 3.5 Sonnet O

CLOVA X X

 

2. webp 파일을 입력으로 지원하는가?

 

ChatGPT4o O

Claude 3.5 Sonnet O

CLOVA X X

 

결과

입력 프롬프트: 이 이미지에 대해 자세히 설명해줘

- 모든 VLM에 대해 한국어로 입력해줌

 

입력 이미지: 

- CLOVA X는 webp 파일 열어서 윈도우 스크린 캡처 후 jpg로 다시 저장한 이미지를 입력함, OpenCV로 읽어서 재압축하려다가 귀찮아서 안함, 그래서 입력이 나머지 두 VLM간 완전 동일하지 않다는 문제가 있긴함

- https://developer0hye.tistory.com/751 이 글에서 소개한 FLUX를 이용해 직접 생성한 이미지

- 이미지 생성 프롬프트: an image of an Asian developer around 30 years old, wearing glasses, a checkered shirt under a gray zip-up hoodie, and a chef's hat. He is holding a sign that says 'When should we meet?' A small frog is sitting on his head, next to an orange mushroom.

 

비교 대상 

1. 후드에 대한 설명이 포함돼있는가?

2. 체크셔츠에 대한 설명이 포함돼있는가?

3. "When should we meet?" 글자에 대한 설명이 포함돼있는가?

4. 표정에 대한 설명이 포함돼있는가?

5. 안경에 대한 설명이 포함돼있는가?

6. 개구리에 대한 설명이 포함돼있는가?

7. 버섯에 대한 설명이 포함돼있는가?

8. 요리 모자에 대한 설명이 포함돼있는가?

9. 성별에 대한 설명이 포함돼있는가?

10. 배경에 대한 설명이 포함돼있는가?

 

ChatGPT 4o

Claude 3.5 Sonnet

 

CLOVA X

 

VLMs 후드 체크셔츠  글자 표정 안경 개구리 버섯 요리 모자 성별 배경 
ChatGPT 4o x x o o o o o o o x
Claude 3.5 Sonnet o o o o o o o o o o
CLOVA X o x o o o o o o o o

 

Claude 3.5가 다른 VLM과 다르게 보다 체계적으로 설명해주는 느낌이 든다. 버섯과 개구리의 색상까지 자세히 설명하고 있으며 셔츠까지 설명해주었다. 게다가 인종까지 분류했다...!

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함