ELECTRA 편집하기 (부분)

== 핵심 개념 ==
=== Replaced Token Detection (RTD) ===
Electra는 입력 문장에서 일부 단어를 다른 단어로 대체한다. 모델의 목표는 원본 문장에서 어떤 단어가 대체되었는지 감지하는 것이다. 이러한 방식을 Replaced Token Detection(RTD)이라고 한다. 이 방식은 전체 문장을 효율적으로 활용하며, MLM에 비해 더 많은 데이터로부터 학습할 수 있게 한다.

=== Generator-Discriminator 구조 ===
생성자(Generator)와 판별자(Discriminator)로 구성되어 있다.

==== 생성자(Generator)의 역할 ====
* 작동 방식: 생성자는 마스크된 토큰에 대해 적절한 토큰을 예측하려고 시도한다. 이 과정은 전통적인 BERT 모델의 작동 방식과 유사하다.
* 목표: 생성자는 BERT의 'Masked Language Model' (MLM)과 유사한 역할을 수행한다. 입력 문장에서 무작위로 선택된 일부 토큰을 마스킹하고, 이 마스크된 토큰을 예측하려고 한다.

==== 판별자(Discriminator)의 역할 ====
* 작동 방식: 판별자는 입력된 토큰이 원래 문장의 일부인지, 아니면 생성자가 예측하여 대체한 토큰인지를 분류한다. 이 과정에서 모델은 실제 데이터와 생성된 데이터를 구분하는 능력을 향상시킨다.
* 목표: 판별자의 주된 목적은 문장 속의 각 토큰이 실제 텍스트의 일부인지, 아니면 생성자에 의해 대체된 것인지를 판별한다.

=== 학습 과정 ===
# 단계 1: 먼저, 생성자는 MLM 작업을 수행하여 마스크된 토큰을 예측한다.
# 단계 2: 그 다음, 이 예측된 토큰들은 판별자에게 전달되고, 판별자는 각 토큰이 원래 데이터인지 생성자에 의해 생성된 것인지를 판별한다.