BERT 편집하기 (부분)

=== 입력 표현 ===
BERT는 입력 데이터를 처리하기 위해 세 가지 임베딩 레이어를 사용한다. 각각의 임베딩은 서로 다른 정보를 모델에 제공하며, 이를 결합하여 최종 입력 벡터를 생성한다.

* '''토큰 임베딩(Token Embedding)''':
** 입력 문장의 각 단어(또는 서브워드)는 고정된 크기의 임베딩 벡터로 변환된다.
** BERT는 WordPiece라는 서브워드 토크나이저를 사용하여 단어를 분리한다. 이는 희귀 단어나 미등록 단어(out-of-vocabulary, OOV) 문제를 해결하는 데 유용하다.
** 예를 들어, "playing"이라는 단어는 "play"와 "##ing"으로 분리될 수 있다.

* '''세그먼트 임베딩(Segment Embedding)''':
** BERT는 두 개의 문장을 입력으로 받을 수 있으며, 이를 구별하기 위해 세그먼트 임베딩을 사용한다.
** 첫 번째 문장은 세그먼트 A로, 두 번째 문장은 세그먼트 B로 태깅된다.
** 예를 들어, 질의 응답 작업에서는 질문이 세그먼트 A, 답변이 포함된 문단이 세그먼트 B로 처리된다.

* '''포지션 임베딩(Position Embedding)''':
** 트랜스포머는 순차적 구조가 없기 때문에, 단어의 순서 정보를 제공하기 위해 포지션 임베딩을 사용한다.
** 각 단어의 위치에 해당하는 고정된 벡터가 추가된다.
** 포지션 임베딩은 사전에 학습된 고정 벡터로, 최대 512개의 단어 시퀀스를 처리할 수 있다.

위의 세 가지 임베딩은 합산되어 최종 입력 벡터를 생성하며, 이 벡터가 트랜스포머 블록으로 전달된다. 또한, BERT는 특수 토큰을 추가하여 입력을 처리한다.
* '''[CLS]''': 문장의 시작을 나타내며, 문장 수준 작업(예: 문장 분류)의 표현으로 사용된다.
* '''[SEP]''': 두 문장을 구분하거나 단일 문장의 끝을 나타낸다.
* '''[PAD]''': 입력 길이를 맞추기 위한 패딩 토큰으로, 실제 의미는 없다.