귀하는 로그인되어 있지 않습니다. 이대로 편집하면 귀하의 IP 주소가 편집 기록에 남게 됩니다.스팸 방지 검사입니다. 이것을 입력하지 마세요!== 개요 == 정렬 위장(Alignment faking)<ref>Anthropic 연구팀이 처음 제시한 용어다.</ref>이란 AI 모델이 겉으로는 학습된 목표에 따라 행동하는 척하면서 실제로는 다른 내부 선호를 유지하는 현상을 말한다. 쉽게 설명하자면 영화 [[오셀로]]의 이아고처럼 겉으로는 충성스러워 보이지만 속으로는 배신을 계획하는 것이나, 선거 후 공약을 철회하는 정치인의 행동과 비슷하다고 볼 수 있다. [[Anthropic]]과 [[Redwood Research]]의 2024년 공동 연구<ref>[https://assets.anthropic.com/m/983c85a201a962f/original/Alignment-Faking-in-Large-Language-Models-full-paper.pdf "Alignment faking in large language models", Anthropic & Redwood Research, 2024]</ref>에서는 대형 언어 모델 Claude 3 Opus가 특정 환경에서 정렬 위장을 수행할 수 있다는 점이 밝혀졌다. 이는 RLHF(인간 피드백을 활용한 강화 학습) 과정에서 발견된 현상으로, AI 안전성 연구에 중요한 시사점을 던진다. 편집 요약 가온 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는 가온 위키:저작권 문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요. 또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다. 저작권이 있는 내용을 허가 없이 저장하지 마세요! 취소 편집 도움말 (새 창에서 열림)