티스토리 뷰

https://github.com/developer0hye/korean-sentence-embedding-example

 

GitHub - developer0hye/korean-sentence-embedding-example: 한국어 문장 임베딩 모델들의 성능을 비교하고 시각

한국어 문장 임베딩 모델들의 성능을 비교하고 시각화하는 프로젝트입니다. 본 프로젝트는 Claude Opus 4로 구현되었습니다. - developer0hye/korean-sentence-embedding-example

github.com

 

임베딩 모델들은 챗지피티 딥리서치로 찾고, 프로젝트 구현은 Claude Opus4를 활용했다.

 

BM-K/KoSimCSE-roberta 와 snunlp/KR-SBERT-V40K-klueNLI-augSTS 를 비교해봤다.

 

여러 한국어 문장 임베딩 모델 중 hugging face에서 Downloads last month 가 높은 상위 2개의 모델을 선정하여 성능을 비교해봤다.

 

테스트 데이터도 Claude Opus4를 이용해서 생성했다.

 

참고로 나는 자연어 처리에 그렇게 깊은 지식이 없다... 테스트를 잘했는지 모르겠지만 좀 짧은 문장으로만 테스트를 해봤다.

 

Claude Opus 4가 생성한 나의 100개 가량 되는 유사/비유사 문장 Pair 테스트셋에서 BM-K/KoSimCSE-roberta 모델이 snunlp/KR-SBERT-V40K-klueNLI-augSTS 보다 높은 분류 정확도를 보였으며, 유사/비유사 문장 Pair간에 코사인 유사도 분포의 차이가 더 높게 측정됐다(= 유사 Pair 끼리 1에 더 가깝고, 비유사 Pair 끼리는 -1에 더 가깝다는 의미, 밑 그림에서 모델별 유사/비유사 코사인 유사 분포 그래프 참고)

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/12   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
글 보관함