LMArena 편집하기 (부분)

== 작동 원리 ==

LMArena의 작동 방식은 크게 세 가지 핵심 구성 요소로 이루어져 있다. 첫째는 모델 배틀 시스템으로, 사용자가 프롬프트를 입력하면 시스템이 무작위로 선택한 두 개의 언어 모델이 각각 응답을 생성한다. 사용자는 이 두 응답을 익명 상태에서 비교하고, 더 나은 응답을 선택하거나 동점을 줄 수 있다. 이때 모델의 정체는 투표가 완료된 후에야 공개되어 편향을 최소화한다.

둘째는 Elo 레이팅 시스템의 적용이다. 각 모델은 초기 레이팅 1500점에서 시작하며, 배틀 결과에 따라 점수가 조정된다. 강한 상대를 이기면 더 많은 점수를 얻고, 약한 상대에게 지면 더 많은 점수를 잃는 방식으로 설계되어 있다. 레이팅 업데이트 공식은 다음과 같이 구현된다:

<syntaxhighlight lang="python">
def update_elo_ratings(winner_rating, loser_rating, k_factor=32):
    expected_winner = 1 / (1 + 10 ** ((loser_rating - winner_rating) / 400))
    expected_loser = 1 / (1 + 10 ** ((winner_rating - loser_rating) / 400))
    
    new_winner_rating = winner_rating + k_factor * (1 - expected_winner)
    new_loser_rating = loser_rating + k_factor * (0 - expected_loser)
    
    return new_winner_rating, new_loser_rating
</syntaxhighlight>

셋째는 리더보드 시스템으로, 모든 모델들의 현재 레이팅과 통계를 실시간으로 표시한다. 리더보드에는 각 모델의 승률, 총 배틀 수, 신뢰 구간 등의 정보가 포함되어 있어 사용자들이 모델들의 상대적 성능을 한눈에 파악할 수 있다.