검색 결과

이 위키에 "벤치마크 조작" 문서를 만드세요! 검색으로 찾은 문서도 보세요.

Llama 4 LMArena 데이터 치팅 의혹
...사용했으며, 일부에서는 테스트 데이터로 훈련했다는 주장까지 제기되었다. 이 사건은 단순한 기업의 마케팅 논란을 넘어 AI 업계 전반의 벤치마크 신뢰성과 평가 방법론에 대한 근본적인 의문을 제기했다. 특히 오픈소스 AI의 선두주자로 자리매김하려던 Meta의 신뢰도에 큰 타격을 입 ...혹은 [[Reddit]]과 X(구 [[트위터]]) 등을 통해 빠르게 확산되었으며, 많은 사용자들이 공개된 Llama 4 모델의 성능이 벤치마크 결과와 현저히 다르다는 점을 지적했다. 특히 [[LMArena]]에서 평가된 버전이 더 장황하고 이모티콘을 많이 사용하는 "인간적인" ...

10 KB (117 단어) - 2025년 5월 29일 (목) 21:19