귀하는 로그인되어 있지 않습니다. 이대로 편집하면 귀하의 IP 주소가 편집 기록에 남게 됩니다.스팸 방지 검사입니다. 이것을 입력하지 마세요!== 평가 메트릭 == LMArena는 단순한 Elo 레이팅 외에도 다양한 세부 메트릭을 제공한다. 카테고리별 성능 분석을 통해 각 모델이 어떤 유형의 작업에서 강점을 보이는지 파악할 수 있다. 예를 들어, 코딩 작업, 창의적 글쓰기, 수학 문제 해결, 일반 지식 질문 등의 카테고리로 구분하여 성능을 측정한다. 또한 응답 시간, 토큰당 비용, 컨텍스트 길이 제한 등의 실용적인 지표들도 함께 제공된다. 이를 통해 사용자들은 단순히 품질뿐만 아니라 효율성과 비용 대비 성능까지 고려하여 적절한 모델을 선택할 수 있다. 신뢰도 점수는 부트스트랩 방법을 사용하여 계산되며, 각 모델의 레이팅에 대한 95% 신뢰 구간을 제공한다. 이는 특히 배틀 수가 적은 새로운 모델들의 경우 레이팅의 불확실성을 명확히 보여주는 역할을 한다. 편집 요약 가온 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는 가온 위키:저작권 문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요. 또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다. 저작권이 있는 내용을 허가 없이 저장하지 마세요! 취소 편집 도움말 (새 창에서 열림)