LLM 한국어 이해 성능 파악하기 좋은 벤치마크, 리더보드, article 등

티스토리 뷰

Deep Learning

LLM 한국어 이해 성능 파악하기 좋은 벤치마크, 리더보드, article 등

developer0hye 2024. 10. 25. 21:22

해당 게시글은 2024년 10월 26일에 작성된 글입니다. 작성 날짜에 유의하여 보시길 바랍니다.

https://lk.instruct.kr/

LogicKor | 한국어 언어모델 다분야 사고력 벤치마크

LogicKor은 한국어 언어모델의 다분야 사고력을 측정하는 벤치마크입니다. 추론, 수학, 글쓰기, 코딩, 이해, 문법 등 다양한 분야의 사고력을 측정합니다.

lk.instruct.kr

Api호출식이 아니라 모델 직접 다운로드 받아서 할 거라면 비공개 모델란 체크 해제하고 찾아보면 될듯하다.

https://wandb.ai/wandb-korea/korean-llm-leaderboard/reports/-LLM---Vmlldzo3MzIyNDE2?accessToken=95bffmg3gwblgohulknz7go3h66k11uqn1l3ytjma1uj3w0l0dwh1fywgsgpbdyy

Horangi 한국어 LLM 리더보드

자연어 이해 및 생성 관점에서 한국어 LLM들의 능력을 평가합니다. Made by Kim, Ki Hyun using Weights & Biases

wandb.ai

https://www.aihub.or.kr/leaderboard/view.do?currMenu=500&topMenu=102

AI-Hub

www.aihub.or.kr

어째서... AI-Hub 벤치마크에서는 Italian Language 로 튜닝된 모델이 2위지...?

https://lmarena.ai/?leaderboard

여기에는 별도로 튜닝된 모델은 안올라오는 듯 하다.

https://github.com/minsing-jin/Korean-SAT-LLM-Leaderboard/blob/main/README.md#-leaderboard

Korean-SAT-LLM-Leaderboard/README.md at main · minsing-jin/Korean-SAT-LLM-Leaderboard

Korean SAT leader board. Contribute to minsing-jin/Korean-SAT-LLM-Leaderboard development by creating an account on GitHub.

github.com

수능 점수로 LLM 성능을 줄세우는 벤치마크인데 괜찮다는 평이 많았던 gemma-2-9b-it가 생각보다 등급이 처참해서 놀랐다.

https://medium.com/ai-network-kr/lg%EC%9D%98-%EC%9E%90%EC%A1%B4%EC%8B%AC-%EC%97%91%EC%82%AC%EC%9B%90-3-0-%EC%A0%95%EB%A7%90-%EA%B4%9C%EC%B0%AE%EC%9D%80%EA%B0%80-ai-network-arena-%EB%A6%AC%EC%84%9C%EC%B9%98-723b131675e2

LG의 자존심, Exaone 3.0 (엑사원 3.0)정말 괜찮은가 — AI Network Arena 리서치

LG AI LLM 연구원이 야심 차게 내놓은 “엑사원(EXAONE) 3.0”이 오픈소스(Open Source)로 공개되며 AI 업계의 큰 주목을 받고 있습니다.

medium.com

엑사원 3.0도 꽤나 궁금하다.

https://kyujinpy.tistory.com/152

[Gukbap-LLM🍚] - 오픈소스 LLM으로 자체 데이터셋 생성해서 SOTA 달성하기

Gukbap Models🍚HumanF-MarkrAI/Gukbap-Qwen2-7BHumanF-MarkrAI/Gukbap-Mistral-7BHumanF-MarkrAI/Gukbap-Gemma2-9BIntroduction오픈소스 LLM만으로 데이터를 생성하여 GPT-4를 넘어 한국어 최고 레벨을 달성🔥안녕하세요! 오랜만에

kyujinpy.tistory.com

LogicKor 벤치마크에서 상위권에 속하는 모델에 대한 글

글에 EXAONE 을 여러 KoLLM 모델과 비교한 테이블도 있고 유명 KoLLM 모델의 다양한 벤치마크 데이터셋에 대한 성적이 정리된 테이블이 있어서 성능 파악하는데 너무 큰 도움이 된다!

https://huggingface.co/blog/amphora/navigating-ko-llm-research-1

Navigating Korean LLM Research #1: Models

Navigating Korean LLM Research #1: Models Large language models (LLMs) have become a major area of research globally. Unfortunately, much of this research has centered on tier-1 languages like English and Chinese, leaving a gap in the development of multil

huggingface.co

기대되는 시리즈이다.

현 세대 LLM 들은 한글 출력 과정에서 간혹 한자가 튀어나오는 현상이 좀 있다고 한다. 내가 찾아봤을때는 Qwen2 모델이 좀 그렇다고 봤다. 단순히 한자를 삭제하는 건 코드로 쉽게 제거는 할 수 있을 거 같다. 위 article이 이 문제의 예다. 근데, 저렇게 다른 언어의 글자가 튀어나오는 게 의미가 없는 건 아니여서 좀 문제인 거 같다. 저 한문이 '끊을 단' 이라는데 저 문자를 다시 한글로 변환하면 "일시적인 서비스 중단"이 돼서 말이 맞게된다. 그래서, 단순히 한문을 삭제하기도 어려워보인다. 프롬프트로 주의를 좀 주면 완화될까? 궁금하다. 뭔가 이런 것도 연구한 논문이 있을 거 같다.

https://arca.live/b/alpaca

Ai 언어모델 로컬 채널

Ai 언어모델 로컬 커뮤니티(갤러리) - 제한없는 언어모델을 위한 채널

arca.live

여기에 LLM 사용 후기들이 많이 올라온다.

2024년 10월 25일을 기준으로 gemma2, llama3, llama3.1, exaone3.0, qwen2, qwen2.5 모델에서 10b미만인 모델에 대해 좀 테스트를 해보려한다.

'Deep Learning' 카테고리의 다른 글

huggingface transformers pipeline gpu 지정해서 모델 load하는 방법 (0)	2024.11.06
GOT OCR 2.0은 한국어 OCR이 가능한가? (0)	2024.10.26
Llama3 Bllossom 8B RTX 3070 8GB GPU 에서 돌아갈까? (1)	2024.10.22
돌려보고 싶은데 귀찮아서 망설이고 있는 Human Detection Model MMPedestron (2) 좀 친해지려고 노력중 (0)	2024.10.19
돌려보고 싶은데 귀찮아서 망설이고 있는 Human Detection Model MMPedestron (1) (0)	2024.10.07

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

글 보관함

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

지속 가능한 꾸준함

티스토리 뷰

LLM 한국어 이해 성능 파악하기 좋은 벤치마크, 리더보드, article 등

'Deep Learning' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역