
AI 모델 성능 비교 테스트 사이트
Cori
AI 모델들 중 태스크별로 어떤 모델의 성능이 좋은지 한 눈에 볼 수 있는 사이트들을 소개한다. 1. Aideraider.chat에서 사용하는 코딩 어시스턴트 모델들의 벤치마크주로 code editing, refactoring, bug fixing 등 실제 Git 코드베이스에 대한 조작 테스트를 다룸 평가 기준은 PR 자동 생성, 코드 이해력, 편집 능력 등이 있음 https://aider.chat/docs/leaderboards * 실제 사용 환경 (Git 기반 코드 편집)에 가까운 테스트 환경이지만, 일반적인 알고리즘 문제 해결 능력과는 다소 거리가 있고, 범용적이기 보다는 aider.chat의 사용 사례 위주이다. 2. LiveBench자동화된 실시간 벤치마크 플랫폼다양한 코드 문제 (Python..