한국어 문장 임베딩(Korean Sentence Embedding) 예시 코드

티스토리 뷰

Deep Learning

한국어 문장 임베딩(Korean Sentence Embedding) 예시 코드

developer0hye 2025. 7. 30. 19:01

https://github.com/developer0hye/korean-sentence-embedding-example

GitHub - developer0hye/korean-sentence-embedding-example: 한국어 문장 임베딩 모델들의 성능을 비교하고 시각

한국어 문장 임베딩 모델들의 성능을 비교하고 시각화하는 프로젝트입니다. 본 프로젝트는 Claude Opus 4로 구현되었습니다. - developer0hye/korean-sentence-embedding-example

github.com

임베딩 모델들은 챗지피티 딥리서치로 찾고, 프로젝트 구현은 Claude Opus4를 활용했다.

BM-K/KoSimCSE-roberta 와 snunlp/KR-SBERT-V40K-klueNLI-augSTS 를 비교해봤다.

여러 한국어 문장 임베딩 모델 중 hugging face에서 Downloads last month 가 높은 상위 2개의 모델을 선정하여 성능을 비교해봤다.

테스트 데이터도 Claude Opus4를 이용해서 생성했다.

참고로 나는 자연어 처리에 그렇게 깊은 지식이 없다... 테스트를 잘했는지 모르겠지만 좀 짧은 문장으로만 테스트를 해봤다.

Claude Opus 4가 생성한 나의 100개 가량 되는 유사/비유사 문장 Pair 테스트셋에서 BM-K/KoSimCSE-roberta 모델이 snunlp/KR-SBERT-V40K-klueNLI-augSTS 보다 높은 분류 정확도를 보였으며, 유사/비유사 문장 Pair간에 코사인 유사도 분포의 차이가 더 높게 측정됐다(= 유사 Pair 끼리 1에 더 가깝고, 비유사 Pair 끼리는 -1에 더 가깝다는 의미, 밑 그림에서 모델별 유사/비유사 코사인 유사 분포 그래프 참고)

'Deep Learning' 카테고리의 다른 글

20250806기준 벤치마크 상으로 gemini 2.5 pro에 필적하는 Open VLM Intern-S1 (0)	2025.08.05
gemini api 사용법 (1)	2025.08.02
ai deploy를 위해 onnxruntime-directml 를 써보아요 (0)	2025.07.09
Efficient Video Action Recognition 관련 연구 Don't Look Twice: Faster Video Transformers with Run-Length Tokenization (0)	2025.07.01
mirror detection task & dataset 도 있구나 (0)	2025.06.22

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/08 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

글 보관함

지속 가능한 꾸준함

티스토리 뷰

한국어 문장 임베딩(Korean Sentence Embedding) 예시 코드

'Deep Learning' 카테고리의 다른 글

티스토리툴바