귀하는 로그인되어 있지 않습니다. 이대로 편집하면 귀하의 IP 주소가 편집 기록에 남게 됩니다.스팸 방지 검사입니다. 이것을 입력하지 마세요!== 논란의 의미 == 이번 사건은 "AI 평가 위기"라고 불리는 광범위한 문제를 드러냈다. 첫째, '벤치마크 과적합' 현상이다. 모델이 실제 능력 향상보다는 특정 벤치마크에서 높은 점수를 받도록 최적화되는 현상이 만연해 있음이 확인되었다. 둘째, '굿하트의 법칙'이 AI 평가에서도 적용됨을 보여주었다. "측정치가 목표가 되면 좋은 측정치가 아니게 된다"는 이 원칙은 벤치마크 순위가 마케팅과 투자 유치의 핵심 지표가 되면서 더욱 심화되었다. 셋째, 보고된 성능과 실제 유용성 간의 '신뢰성 격차'가 존재함이 명백해졌다. [[LMArena]]와 같은 크라우드소싱 플랫폼의 구조적 취약점도 드러났다. '인간 선호도 해킹'이 가능하다는 점이 확인되었는데, 장황하고 이모티콘이 많은 응답이 높은 평가를 받는 경향이 있었다. 또한 2025년 1월 발표된 연구에 따르면 수백 개의 투표만으로도 순위 조작이 가능하다는 것이 밝혀졌다. API 제공자가 자신의 모델을 식별하고 조작할 수 있는 '모델 지문 인식' 가능성도 제기되었다. 이번 논란은 오픈소스 AI 개발의 근본적인 긴장을 보여주었다. Meta는 [[Llama]] 시리즈를 "오픈 웨이티드" 모델로 포지셔닝하며 투명성과 협력을 강조했지만, 동시에 경쟁 압력 하에서 벤치마크 순위를 조작하려는 유혹에 노출되었다. 이는 개방성의 이상과 상업적 성공의 압력 사이의 갈등을 극명하게 드러냈다. 편집 요약 가온 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는 가온 위키:저작권 문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요. 또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다. 저작권이 있는 내용을 허가 없이 저장하지 마세요! 취소 편집 도움말 (새 창에서 열림)