Llama 4 LMArena 데이터 치팅 의혹 편집하기 (부분)

== Meta의 대응 ==
Meta의 생성형 AI 담당 부사장 Ahmad Al-Dahle는 X를 통해 논란에 대응했다. 그는 테스트 세트 훈련 의혹을 "완전히 근거가 없으며 단순히 사실이 아니다"라고 단호히 부인했다. 테스트 데이터로 훈련하는 것은 업계 윤리 기준에 위배되며 Meta는 이를 준수한다고 강조했다. 그러나 Al-Dahle는 두 가지 중요한 사실을 인정했다. 첫째, [[LMArena]] 평가에 공개되지 않은 "실험적" Llama 4 Maverick 버전을 사용했다는 점이다. 둘째, 신속한 출시로 인해 초기 공개 배포에서 일관성 문제가 있었다는 점이다. 그는 이러한 불일치가 "모델이 준비되는 대로 빠르게 출시했기 때문"이며, "구현을 안정화하는 데 며칠이 걸릴 것"이라고 설명했다.

Meta가 인정한 "실험적 버전" 사용은 엄밀히 말해 테스트 세트 훈련과는 다르지만, 여전히 문제가 있는 관행으로 지적되었다. 이 실험적 버전은 "대화에 최적화"되어 있었으며, 공개 버전과는 상당히 다른 특성을 보였다. 비판자들은 이것이 "시스템 조작"의 한 형태라고 주장했다. 벤치마크에서 평가된 모델이 실제 사용자가 접근할 수 있는 모델과 다르다면, 벤치마크의 의미가 퇴색되기 때문이다.