귀하는 로그인되어 있지 않습니다. 이대로 편집하면 귀하의 IP 주소가 편집 기록에 남게 됩니다.스팸 방지 검사입니다. 이것을 입력하지 마세요!== 독립적 평가 결과 == Fiction.live의 장문 컨텍스트 벤치마크에서 Llama 4는 특히 실망스러운 결과를 보였다. Maverick은 120,000 토큰에서 28.1%의 정확도를 기록했는데, 이는 Gemini 2.5 Pro의 90.6%와 극명한 대조를 이루었다. Scout은 128,000 토큰에서 15.6%라는 "끔찍한" 정확도를 보였다. 이는 Meta가 Scout의 "1000만 토큰 컨텍스트 길이"를 대대적으로 홍보했던 것과는 완전히 상반되는 결과였다. Rootly AI Labs의 코딩 중심 벤치마크에서도 Llama 4는 기대에 미치지 못했다. Maverick은 70%의 정확도만을 달성한 반면, 경쟁 모델들인 Qwen2.5-Coder-32B와 o3-mini는 약 90%의 정확도를 기록했다. Rootly는 "Meta가 주장한 [[GPT-4]]o, Gemini 2.0, DeepSeek v3.1을 능가한다는 결과를 재현할 수 없었다"고 명시적으로 밝혔다. Artificial Analysis의 Intelligence Index에서도 Llama 4의 성능은 기대에 미치지 못했다. 초기 평가에서 Maverick은 49점, Scout은 36점을 기록했으며, 평가 방법론 수정 후에도 각각 50점과 43점에 그쳤다. 이는 Meta의 마케팅 주장과는 달리 Llama 4가 경쟁 모델들에 비해 특별한 우위를 보이지 못했음을 시사한다. 편집 요약 가온 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는 가온 위키:저작권 문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요. 또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다. 저작권이 있는 내용을 허가 없이 저장하지 마세요! 취소 편집 도움말 (새 창에서 열림)