티스토리 뷰

해당 게시글은 2024년 10월 26일에 작성된 글입니다. 작성 날짜에 유의하여 보시길 바랍니다.


https://lk.instruct.kr/

 

LogicKor | 한국어 언어모델 다분야 사고력 벤치마크

LogicKor은 한국어 언어모델의 다분야 사고력을 측정하는 벤치마크입니다. 추론, 수학, 글쓰기, 코딩, 이해, 문법 등 다양한 분야의 사고력을 측정합니다.

lk.instruct.kr

 

Api호출식이 아니라 모델 직접 다운로드 받아서 할 거라면 비공개 모델란 체크 해제하고 찾아보면 될듯하다.


https://wandb.ai/wandb-korea/korean-llm-leaderboard/reports/-LLM---Vmlldzo3MzIyNDE2?accessToken=95bffmg3gwblgohulknz7go3h66k11uqn1l3ytjma1uj3w0l0dwh1fywgsgpbdyy

 

Horangi 한국어 LLM 리더보드

자연어 이해 및 생성 관점에서 한국어 LLM들의 능력을 평가합니다. Made by Kim, Ki Hyun using Weights & Biases

wandb.ai


https://www.aihub.or.kr/leaderboard/view.do?currMenu=500&topMenu=102

 

AI-Hub

 

www.aihub.or.kr

 

어째서... AI-Hub 벤치마크에서는 Italian Language 로 튜닝된 모델이 2위지...?

 


 

https://lmarena.ai/?leaderboard

 

여기에는 별도로 튜닝된 모델은 안올라오는 듯 하다.


https://github.com/minsing-jin/Korean-SAT-LLM-Leaderboard/blob/main/README.md#-leaderboard

 

Korean-SAT-LLM-Leaderboard/README.md at main · minsing-jin/Korean-SAT-LLM-Leaderboard

Korean SAT leader board. Contribute to minsing-jin/Korean-SAT-LLM-Leaderboard development by creating an account on GitHub.

github.com

 

수능 점수로 LLM 성능을 줄세우는 벤치마크인데 괜찮다는 평이 많았던 gemma-2-9b-it가 생각보다 등급이 처참해서 놀랐다.


https://medium.com/ai-network-kr/lg%EC%9D%98-%EC%9E%90%EC%A1%B4%EC%8B%AC-%EC%97%91%EC%82%AC%EC%9B%90-3-0-%EC%A0%95%EB%A7%90-%EA%B4%9C%EC%B0%AE%EC%9D%80%EA%B0%80-ai-network-arena-%EB%A6%AC%EC%84%9C%EC%B9%98-723b131675e2

 

LG의 자존심, Exaone 3.0 (엑사원 3.0)정말 괜찮은가 — AI Network Arena 리서치

LG AI LLM 연구원이 야심 차게 내놓은 “엑사원(EXAONE) 3.0”이 오픈소스(Open Source)로 공개되며 AI 업계의 큰 주목을 받고 있습니다.

medium.com

 

엑사원 3.0도 꽤나 궁금하다.


https://kyujinpy.tistory.com/152

 

[Gukbap-LLM🍚] - 오픈소스 LLM으로 자체 데이터셋 생성해서 SOTA 달성하기

Gukbap Models🍚HumanF-MarkrAI/Gukbap-Qwen2-7BHumanF-MarkrAI/Gukbap-Mistral-7BHumanF-MarkrAI/Gukbap-Gemma2-9BIntroduction오픈소스 LLM만으로 데이터를 생성하여 GPT-4를 넘어 한국어 최고 레벨을 달성🔥안녕하세요! 오랜만에

kyujinpy.tistory.com


LogicKor 벤치마크에서 상위권에 속하는 모델에 대한 글

 

글에 EXAONE 을 여러 KoLLM 모델과 비교한 테이블도 있고 유명 KoLLM 모델의 다양한 벤치마크 데이터셋에 대한 성적이 정리된 테이블이 있어서 성능 파악하는데 너무 큰 도움이 된다!


https://huggingface.co/blog/amphora/navigating-ko-llm-research-1

 

Navigating Korean LLM Research #1: Models

Navigating Korean LLM Research #1: Models Large language models (LLMs) have become a major area of research globally. Unfortunately, much of this research has centered on tier-1 languages like English and Chinese, leaving a gap in the development of multil

huggingface.co

 

기대되는 시리즈이다.

 

 

 

현 세대 LLM 들은 한글 출력 과정에서 간혹 한자가 튀어나오는 현상이 좀 있다고 한다. 내가 찾아봤을때는 Qwen2 모델이 좀 그렇다고 봤다. 단순히 한자를 삭제하는 건 코드로 쉽게 제거는 할 수 있을 거 같다. 위 article이 이 문제의 예다. 근데, 저렇게 다른 언어의 글자가 튀어나오는 게 의미가 없는 건 아니여서 좀 문제인 거 같다. 저 한문이 '끊을 단' 이라는데 저 문자를 다시 한글로 변환하면 "일시적인 서비스 중단"이 돼서 말이 맞게된다. 그래서, 단순히 한문을 삭제하기도 어려워보인다. 프롬프트로 주의를 좀 주면 완화될까? 궁금하다. 뭔가 이런 것도 연구한 논문이 있을 거 같다.

 

 


https://arca.live/b/alpaca

 

Ai 언어모델 로컬 채널

Ai 언어모델 로컬 커뮤니티(갤러리) - 제한없는 언어모델을 위한 채널

arca.live

 

여기에 LLM 사용 후기들이 많이 올라온다.


2024년 10월 25일을 기준으로 gemma2, llama3, llama3.1, exaone3.0, qwen2, qwen2.5 모델에서 10b미만인 모델에 대해 좀 테스트를 해보려한다.

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함