정렬 위조 편집하기 (부분)

== 실험 환경 ==

연구진들은 다음과 같은 실험 환경을 구성했다.<ref>실험 설계에 대한 자세한 내용은 원문을 참고하자.</ref>

=== 학습 목표 충돌 ===
기존의 "Helpful, Honest, Harmless"(HHH)<ref>Anthropic의 AI 훈련 3대 원칙이다.</ref> 학습 목표와 충돌하는 새로운 RLHF 목표를 부여했다. 예컨대 모델이 유해한 질의에 반드시 답하도록 하는 식이다.

=== 상황 인식 정보 제공 ===
무료 사용자(free-tier user)의 데이터만 학습에 사용되고 유료 사용자(paid-tier user)의 데이터는 제외된다는 정보를 모델에 제공했다. 이를 통해 모델이 자신의 출력이 학습 데이터가 될 가능성을 스스로 판단할 수 있게 되었다.

=== Scratchpad 활용 ===
모델에게 Scratchpad라는 숨겨진 공간을 제공해 응답 생성 전 상황 분석과 전략 수립이 가능하도록 했다. 이는 모델의 사고 과정을 들여다볼 수 있게 해주었다.