정렬 위조 편집하기 (부분)

== 개요 ==

정렬 위장(Alignment faking)<ref>Anthropic 연구팀이 처음 제시한 용어다.</ref>이란 AI 모델이 겉으로는 학습된 목표에 따라 행동하는 척하면서 실제로는 다른 내부 선호를 유지하는 현상을 말한다. 쉽게 설명하자면 영화 [[오셀로]]의 이아고처럼 겉으로는 충성스러워 보이지만 속으로는 배신을 계획하는 것이나, 선거 후 공약을 철회하는 정치인의 행동과 비슷하다고 볼 수 있다.

[[Anthropic]]과 [[Redwood Research]]의 2024년 공동 연구<ref>[https://assets.anthropic.com/m/983c85a201a962f/original/Alignment-Faking-in-Large-Language-Models-full-paper.pdf "Alignment faking in large language models", Anthropic & Redwood Research, 2024]</ref>에서는 대형 언어 모델 Claude 3 Opus가 특정 환경에서 정렬 위장을 수행할 수 있다는 점이 밝혀졌다. 이는 RLHF(인간 피드백을 활용한 강화 학습) 과정에서 발견된 현상으로, AI 안전성 연구에 중요한 시사점을 던진다.