LLM Leaderboard 사이트 모음

LLM 모델들 중 태스크별로 어떤 모델의 성능이 좋은지 한 눈에 볼 수 있는 사이트들을 소개한다.

1. Aider

aider.chat에서 사용하는 코딩 어시스턴트 모델들의 벤치마크
주로 code editing, refactoring, bug fixing 등 실제 Git 코드베이스에 대한 조작 테스트를 다룸
평가 기준은 PR 자동 생성, 코드 이해력, 편집 능력 등이 있음
https://aider.chat/docs/leaderboards

* 실제 사용 환경 (Git 기반 코드 편집)에 가까운 테스트 환경이지만, 일반적인 알고리즘 문제 해결 능력과는 다소 거리가 있고, 범용적이기 보다는 aider.chat의 사용 사례 위주이다.

2. LiveBench

자동화된 실시간 벤치마크 플랫폼
다양한 코드 문제 (Python 위주)를 다양한 모델에게 실시간으로 물어봄.
문제 난이도, 실행 결과, 정확도 등을 기반으로 점수 부여
코딩 능력 이외에도 추론 능력, 언어 능력 등 다방면으로 평가
https://livebench.ai/#/

* 실행 결과를 직접 확인할 수 있고, 객관적인 테스트 결과 기반 (컴파일, 실행 여부 포함)이기 때문에 신뢰성이 있다는 장점 존재. 하지만 일부 최신 모델 반영이 다소 늦을 수 있고 (현재 o1 반영 x), 다양한 언어나 도메인 커버리지는 제한적일 수 있다.

3. HuggingFace Leaderboard

대표적인 오픈소스 LLM 벤치마크
다양한 평가지표 (IFEval, BBH, MATH, GPQA, MUSR 등) 사용
매주 모델 제출 가능, Hugging Face 모델 기준 자동 평가됨
https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard#/

* 오픈소스 모델 비교하려면 가장 먼저 참고해야 할 곳

4. BigCode Models Leaderboard

HumanEval을 확장한 새로운 벤치마크
다양한 프로그래밍 언어와 복잡한 코드 작성 능력을 평가
https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard

5. Chatbot Arena (lmsys.org)

LMSYS (Vicuna 만든 연구팀)
익명 대결 기반 평가 (사람들이 A vs B 채팅 보고 투표)
Battle 방식으로 인해, 사용자 선호도 기반 순위 생성 가능
https://lmarena.ai/leaderboard

* 주관적이지만 실제 사용감 비교 성능을 알 수 있고, GPT vs 오픈소스 모델 성능 비교에도 좋다. 다음과 같이, 챗봇과 대화하며 A 모델과 B 모델의 응답 중 어느것이 더 좋은지, 혹은 동점인지 등을 평가하는 방식이 재밌게 다가왔다.

6. Vellum Leaderboard

2024년 4월 이후에 출시된 최신 모델들만 다룬 리더보드
신뢰도 높은 벤치마크만 선별 적용 (MMLU 같은 거의 모든 모델들이 높은 성능을 보인 벤치마크 제외)
실제 업무 적용 테스트 (Vellum의 Eval 기능 사용) 가능
https://www.vellum.ai/llm-leaderboard

저작자표시 비영리 변경금지 (새창열림)

'AI' 카테고리의 다른 글

LLMOps 살펴보기, 2일차 (0)	2025.09.16
LLMOps 살펴보기, 1일차 (0)	2025.09.03
MCP ? Cursor AI로 쉽게 사용해보자 (4)	2025.05.21
Ollama를 활용한 Image to Text (Vision model 성능 비교) (4)	2025.02.19
Ollama 사용 설정하기 (2)	2025.02.18

블로그의 정보

코딩하는 오리

Cori

활동하기

티스토리툴바