BERT

개요[편집 / 원본 편집]

BERT(Bidirectional Encoder Representations from Transformers)는 자연어 처리(NLP, Natural Language Processing) 분야에서 혁신적인 변화를 가져온 딥러닝 모델로, Google Research 팀에 의해 개발되었다. 이 모델은 2018년 10월에 공개되었으며, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding라는 논문으로 발표되었다. BERT는 트랜스포머(Transformer) 아키텍처를 기반으로 하여, 문장의 양방향적(bidirectional) 맥락을 학습할 수 있는 능력 덕분에 다양한 NLP 작업에서 뛰어난 성능을 보여준다. 깃허브 코드는 bert에서 확인할 수 있다.

BERT는 사전 학습(pre-training)과 추가 학습(fine-tuning)이라는 두 단계로 작동하며, 특히 대량의 라벨링되지 않은 데이터(unlabeled data)를 활용하여 일반적인 언어 이해 능력을 학습한 후, 특정 작업(downstream task)에 맞게 모델을 최적화한다. 이러한 구조는 전이 학습(transfer learning) 개념을 NLP에 성공적으로 적용한 사례로 평가받는다. BERT의 등장 이후, 다양한 변형 모델(예: RoBERTa, DistilBERT, ALBERT)이 개발되었으며, 현재까지도 NLP 연구와 응용 분야에서 중요한 기반 기술로 사용되고 있다.

BERT의 특징[편집 / 원본 편집]

양방향성(Bidirectionality)[편집 / 원본 편집]

기존의 언어 모델(예: Word2Vec, GloVe, ELMo)이나 순차적 모델(예: RNN, LSTM)은 단어의 맥락을 한 방향(왼쪽에서 오른쪽 또는 오른쪽에서 왼쪽)으로만 학습하는 한계가 있었다. 반면, BERT는 트랜스포머의 자기 주의(self-attention) 메커니즘을 활용하여 문장 내 모든 단어가 서로 상호작용할 수 있도록 설계되었다. 이는 주어진 단어가 문장 내에서 앞뒤 단어의 맥락을 동시에 고려함으로써, 보다 정확한 의미 파악을 가능하게 한다.

예를 들어, "은행"이라는 단어는 문맥에 따라 "금융기관" 또는 "강둑"을 의미할 수 있다. BERT는 문장의 전체 맥락을 이해함으로써 이러한 모호성을 효과적으로 해결한다. 이러한 양방향성은 BERT가 기존 모델 대비 더 풍부한 언어 표현을 학습할 수 있게 해주는 핵심 요소이다.

전이 학습(Transfer Learning)[편집 / 원본 편집]

BERT는 전이 학습 개념을 기반으로 작동한다. 먼저, 대량의 라벨링되지 않은 데이터^[1]를 활용하여 사전 학습을 진행한다. 이 과정에서 모델은 일반적인 언어 이해 능력을 학습한다. 이후, 특정 NLP 작업(예: 문장 분류, 질의 응답, 개체명 인식 등)에 맞게 추가 학습(fine-tuning)을 수행한다. 추가 학습 과정에서는 해당 작업과 관련된 라벨링된 데이터(labeled data)를 사용하여 모델을 최적화한다.

이러한 구조 덕분에 BERT는 다양한 다운스트림 태스크(downstream task)에서 높은 유연성과 성능을 보여준다. 특히, 추가 학습에 필요한 데이터와 컴퓨팅 자원이 비교적 적다는 점에서 효율적이다. 예를 들어, 질의 응답 작업에서는 SQuAD(Stanford Question Answering Dataset)와 같은 데이터셋을 사용하여 모델을 추가 학습시킬 수 있다.

트랜스포머 기반[편집 / 원본 편집]

BERT는 트랜스포머(Transformer) 모델을 기반으로 설계되었다. 트랜스포머는 Vaswani 등이 2017년 논문 Attention Is All You Need에서 제안한 아키텍처로, 자기 주의(self-attention) 메커니즘을 사용하여 문장 내 단어 간 복잡한 관계를 학습한다. 기존의 RNN(Recurrent Neural Network) 기반 모델은 순차적 처리로 인해 병렬화가 어렵고 학습 시간이 오래 걸리는 반면, 트랜스포머는 병렬 처리가 가능하여 학습 속도가 빠르고 장거리 의존성(long-range dependency)을 효과적으로 처리할 수 있다.

BERT는 트랜스포머의 인코더(encoder) 부분만을 사용하며, 이는 입력 문장의 표현을 학습하는 데 최적화되어 있다. 트랜스포머의 자기 주의 메커니즘은 각 단어가 문장 내 다른 모든 단어와의 관계를 계산함으로써, 단어 간 복잡한 상호작용을 모델링한다.

BERT의 구조[편집 / 원본 편집]

입력 표현[편집 / 원본 편집]

BERT는 입력 데이터를 처리하기 위해 세 가지 임베딩 레이어를 사용한다. 각각의 임베딩은 서로 다른 정보를 모델에 제공하며, 이를 결합하여 최종 입력 벡터를 생성한다.

토큰 임베딩(Token Embedding):
- 입력 문장의 각 단어(또는 서브워드)는 고정된 크기의 임베딩 벡터로 변환된다.
- BERT는 WordPiece라는 서브워드 토크나이저를 사용하여 단어를 분리한다. 이는 희귀 단어나 미등록 단어(out-of-vocabulary, OOV) 문제를 해결하는 데 유용하다.
- 예를 들어, "playing"이라는 단어는 "play"와 "##ing"으로 분리될 수 있다.

세그먼트 임베딩(Segment Embedding):
- BERT는 두 개의 문장을 입력으로 받을 수 있으며, 이를 구별하기 위해 세그먼트 임베딩을 사용한다.
- 첫 번째 문장은 세그먼트 A로, 두 번째 문장은 세그먼트 B로 태깅된다.
- 예를 들어, 질의 응답 작업에서는 질문이 세그먼트 A, 답변이 포함된 문단이 세그먼트 B로 처리된다.

포지션 임베딩(Position Embedding):
- 트랜스포머는 순차적 구조가 없기 때문에, 단어의 순서 정보를 제공하기 위해 포지션 임베딩을 사용한다.
- 각 단어의 위치에 해당하는 고정된 벡터가 추가된다.
- 포지션 임베딩은 사전에 학습된 고정 벡터로, 최대 512개의 단어 시퀀스를 처리할 수 있다.

위의 세 가지 임베딩은 합산되어 최종 입력 벡터를 생성하며, 이 벡터가 트랜스포머 블록으로 전달된다. 또한, BERT는 특수 토큰을 추가하여 입력을 처리한다.

[CLS]: 문장의 시작을 나타내며, 문장 수준 작업(예: 문장 분류)의 표현으로 사용된다.
[SEP]: 두 문장을 구분하거나 단일 문장의 끝을 나타낸다.
[PAD]: 입력 길이를 맞추기 위한 패딩 토큰으로, 실제 의미는 없다.

트랜스포머 블록[편집 / 원본 편집]

BERT의 핵심 구성 요소는 트랜스포머의 인코더 블록이다. BERT는 여러 개의 트랜스포머 블록을 쌓아 모델을 구성하며, 각 블록은 다음과 같은 레이어를 포함한다.

자기 주의(Self-Attention) 레이어:
- 문장 내 모든 단어 사이의 관계를 학습한다.
- 자기 주의 메커니즘은 입력 벡터를 쿼리(Query), 키(Key), 값(Value)로 변환한 후, 단어 간 유사도를 계산하여 주의를 분배한다.
- 멀티헤드 자기 주의(multi-head self-attention)를 사용하여 다양한 관점에서 단어 간 관계를 학습한다.

피드포워드 신경망(Feed-Forward Neural Network, FFNN):
- 자기 주의 레이어의 출력을 처리하여 다음 레이어로 전달한다.
- 각 단어에 대해 독립적으로 작동하며, 비선형 활성화 함수(ReLU)를 포함한다.
- FFNN은 다음과 같은 수식으로 정의된다: [math]\displaystyle{ FFNN(x) = \max(0, xW_1 + b_1)W_2 + b_2 }[/math]

정규화 및 잔차 연결(Layer Normalization and Residual Connection):
- 각 레이어의 출력은 정규화(Layer Normalization)를 거치며, 잔차 연결(residual connection)을 통해 입력과 출력이 더해진다.
- 이는 학습의 안정성과 성능을 향상시킨다.

BERT는 모델 크기에 따라 두 가지 변형을 제공한다.

BERT-Base: 12개의 트랜스포머 블록, 768차원 임베딩, 110M 파라미터.
BERT-Large: 24개의 트랜스포머 블록, 1024차원 임베딩, 340M 파라미터.

사전 학습 과정[편집 / 원본 편집]

BERT는 사전 학습을 통해 일반적인 언어 이해 능력을 학습한다. 사전 학습은 두 가지 주요 작업으로 구성된다.

마스크된 언어 모델링(Masked Language Modeling, MLM):
- 입력 문장의 단어 중 15%를 무작위로 선택하여 마스킹한다.
- 선택된 단어는 다음과 같이 처리된다:
  - 80%는 [MASK] 토큰으로 대체.
  - 10%는 무작위 단어로 대체.
  - 10%는 원래 단어로 유지.
- 모델은 마스킹된 단어를 예측함으로써 문맥을 이해하는 능력을 학습한다.
- 예를 들어, "I love to [MASK] books."라는 입력에서 [MASK]를 "read"로 예측한다.

다음 문장 예측(Next Sentence Prediction, NSP):
- 두 문장이 주어졌을 때, 두 번째 문장이 첫 번째 문장의 실제 다음 문장인지 예측한다.
- 학습 데이터는 다음과 같이 구성된다:
  - 50%는 실제로 연속하는 문장 쌍으로 구성.
  - 50%는 무작위로 선택된 문장 쌍으로 구성.
- 모델은 [CLS] 토큰의 출력을 사용하여 이진 분류를 수행한다.
- 예를 들어, "I love reading books. [SEP] Reading helps me relax."는 실제 다음 문장이지만, "I love reading books. [SEP] The sky is blue."는 무작위 문장이다.

사전 학습은 대규모 데이터셋(예: BooksCorpus, 영어 위키피디아)에서 수행되며, 모델은 손실 함수를 최소화하도록 학습된다.

추가 학습(Fine-tuning)[편집 / 원본 편집]

사전 학습된 BERT 모델은 특정 NLP 작업에 맞게 추가 학습을 수행한다. 추가 학습은 비교적 간단하며, 다음과 같은 단계를 포함한다.

작업별 입력 데이터를 준비한다.
- 예: 질의 응답 작업에서는 질문과 문단을 준비하고, 답변의 시작과 끝 위치를 레이블로 지정한다.
모델의 출력 레이어를 작업에 맞게 수정한다.
- 예: 문장 분류 작업에서는 [CLS] 토큰의 출력을 이진 분류 레이어로 전달한다.
작업별 데이터와 레이블을 사용하여 모델을 최적화한다.
- 최적화는 경사 하강법(gradient descent)을 통해 수행되며, 학습률은 일반적으로 작게 설정된다(예: 2e-5).

추가 학습은 다양한 NLP 작업에서 뛰어난 성능을 발휘한다. 예를 들어:

문장 분류: GLUE 벤치마크(예: SST-2, CoLA)에서 사용.
질의 응답: SQuAD 데이터셋에서 질문에 대한 답변을 예측.
개체명 인식(NER): CoNLL-2003 데이터셋에서 명사(예: 사람, 장소, 조직)를 식별.
문장 유사도: STS-B 데이터셋에서 두 문장의 의미적 유사도를 평가.

BERT의 변형 및 최신 동향[편집 / 원본 편집]

BERT의 성공 이후, 다양한 변형 모델이 개발되었다. 이러한 모델들은 BERT의 한계를 보완하거나 효율성을 높이는 방향으로 설계되었다.

RoBERTa(Robustly Optimized BERT Pretraining Approach): Facebook AI에서 개발한 모델로, BERT의 사전 학습 과정을 최적화. 동적 마스킹(dynamic masking)을 적용하여 학습 효율성을 높임.

DistilBERT: BERT의 경량화 버전으로, 모델 크기를 약 40% 줄이고 속도를 높임. 지식 증류(knowledge distillation) 기법을 사용하여 성능을 유지.

ALBERT(A Lite BERT): 파라미터 수를 줄이기 위해 임베딩 차원을 축소하고, 트랜스포머 블록 간 파라미터 공유를 도입. 메모리 효율성과 학습 속도를 개선.

ELECTRA: 생성적(generative) 대신 판별적(discriminative) 접근 방식을 사용. 입력 데이터의 일부를 변경하고, 모델이 변경 여부를 판별하도록 학습.

ModernBERT

최근에는 다국어 BERT(Multilingual BERT, mBERT)와 같은 모델이 등장하여, 100개 이상의 언어를 동시에 처리할 수 있는 능력을 제공한다. 또한, 특정 도메인(예: 의료, 법률)에 특화된 BERT 변형(예: BioBERT, Legal-BERT)도 개발되고 있다.

BERT의 한계와 비판[편집 / 원본 편집]

BERT는 뛰어난 성능을 보여주지만, 몇 가지 한계와 비판도 존재한다.

컴퓨팅 자원 요구: BERT-Large와 같은 모델은 대규모 컴퓨팅 자원(예: TPU, 고성능 GPU)을 필요로 하며, 이는 소규모 연구자나 기업에게 부담이 될 수 있다. 사전 학습 과정은 수백만 달러의 비용이 들 수 있다. 다만 GPT와 같은 초대형 모델은 BERT보다 더 많은 자원을 필요로 하다 보니 상대적으로 덜 부각되고, GPU의 발전으로 BERT의 모델 학습의 허들이 낮아지고 있다.

환경적 영향: 대규모 모델 학습은 높은 전력 소비를 동반하며, 탄소 배출 문제를 야기한다. 이에 따라, 모델 효율성을 높이는 연구(예: DistilBERT)와 친환경적 학습 방법이 주목받고 있다.

모델 해석 가능성: BERT는 블랙박스 모델로 간주되며, 모델의 내부 작동 원리를 해석하기 어렵다. 이를 해결하기 위해 SHAP, LIME와 같은 모델 해석 기법이 사용되고 있다.

데이터 편향: 사전 학습 데이터에 포함된 편향(예: 성별, 인종 편향)이 모델에 반영될 수 있다. 이를 완화하기 위해 데이터 전처리 및 편향 제거 기법이 연구되고 있다.

GPT와 같은 차세대 모델의 등장

BERT의 응용 사례[편집 / 원본 편집]

BERT는 다양한 실제 응용 사례에서 사용되고 있다.

검색 엔진:
- Google은 BERT를 검색 알고리즘에 적용하여 검색 쿼리의 문맥을 더 잘 이해하고, 관련성 높은 결과를 제공.
- 예: "2019 brazil traveler to usa need a visa"와 같은 복잡한 쿼리에서 의도를 정확히 파악.

챗봇 및 대화 시스템:
- BERT를 기반으로 한 모델은 사용자 입력을 이해하고, 적절한 응답을 생성하는 데 사용.
- 예: 고객 서비스 챗봇, 개인 비서(AI assistant).

의료 분야:
- BioBERT와 같은 변형 모델은 의료 문서 분석, 진단 보조, 의학 논문 검색에 사용.
- 예: 임상 기록에서 질병 관련 키워드를 추출.

법률 분야:
- Legal-BERT는 법률 문서 분류, 계약서 분석, 판례 검색에 활용.
- 예: 계약서에서 특정 조항을 식별.

감정 분석:
- 소셜 미디어 게시물, 리뷰 데이터를 분석하여 긍정/부정 감정을 분류.
- 예: 영화 리뷰에서 사용자 감정을 평가.

각주[편집 / 원본 편집]

↑ 예: 위키피디아, BookCorpus 등

[1] 예: 위키피디아, BookCorpus 등

[1]