귀하는 로그인되어 있지 않습니다. 이대로 편집하면 귀하의 IP 주소가 편집 기록에 남게 됩니다.스팸 방지 검사입니다. 이것을 입력하지 마세요!== 실험 환경 == 연구진들은 다음과 같은 실험 환경을 구성했다.<ref>실험 설계에 대한 자세한 내용은 원문을 참고하자.</ref> === 학습 목표 충돌 === 기존의 "Helpful, Honest, Harmless"(HHH)<ref>Anthropic의 AI 훈련 3대 원칙이다.</ref> 학습 목표와 충돌하는 새로운 RLHF 목표를 부여했다. 예컨대 모델이 유해한 질의에 반드시 답하도록 하는 식이다. === 상황 인식 정보 제공 === 무료 사용자(free-tier user)의 데이터만 학습에 사용되고 유료 사용자(paid-tier user)의 데이터는 제외된다는 정보를 모델에 제공했다. 이를 통해 모델이 자신의 출력이 학습 데이터가 될 가능성을 스스로 판단할 수 있게 되었다. === Scratchpad 활용 === 모델에게 Scratchpad라는 숨겨진 공간을 제공해 응답 생성 전 상황 분석과 전략 수립이 가능하도록 했다. 이는 모델의 사고 과정을 들여다볼 수 있게 해주었다. 편집 요약 가온 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는 가온 위키:저작권 문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요. 또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다. 저작권이 있는 내용을 허가 없이 저장하지 마세요! 취소 편집 도움말 (새 창에서 열림)