귀하는 로그인되어 있지 않습니다. 이대로 편집하면 귀하의 IP 주소가 편집 기록에 남게 됩니다.스팸 방지 검사입니다. 이것을 입력하지 마세요!== 개요 == '''GLUE'''(General Language Understanding Evaluation)는 자연어 처리(NLP) 분야에서 언어 모델의 성능을 평가하기 위한 대표적인 벤치마크 데이터셋이다. 2018년 뉴욕대학교, 워싱턴대학교, DeepMind 등의 연구진이 개발했으며, 다양한 자연어 이해 과제를 통해 AI 모델의 언어 이해 능력을 종합적으로 평가한다. 쉽게 말해, GLUE는 AI가 인간의 언어를 얼마나 잘 이해하는지 시험하는 '수능 시험' 같은 것이다. 단순히 한 가지 능력만 테스트하는 게 아니라, 문장의 의미 파악, 감정 분석, 문법 이해 등 여러 영역을 동시에 평가한다. == 개발 배경 == GLUE가 등장하기 전까지는 각 연구팀이 서로 다른 데이터셋과 평가 방식을 사용해 모델 성능을 비교하기 어려웠다. 예를 들어, A 연구팀은 감정 분석으로, B 연구팀은 문장 유사도로 평가하면 누가 더 좋은 모델을 만들었는지 판단하기 힘들었다. 이런 문제를 해결하기 위해 연구자들은 표준화된 평가 체계의 필요성을 느꼈고, 그 결과 GLUE가 탄생했다. GLUE는 9개의 서로 다른 과제를 하나로 묶어 언어 모델의 전반적인 성능을 객관적으로 평가할 수 있게 했다. == 구성 과제 == GLUE는 총 9개의 과제로 구성되어 있으며, 각 과제는 언어 이해의 다른 측면을 평가한다. === 단일 문장 과제 === * '''CoLA (Corpus of Linguistic Acceptability)''': 주어진 문장이 문법적으로 올바른지 판단하는 과제다. 예를 들어 "The cat sat on the mat"은 올바른 문장이지만, "Cat the on sat mat the"는 틀린 문장이다. * '''SST-2 (Stanford Sentiment Treebank)''': 영화 리뷰의 감정을 긍정/부정으로 분류하는 과제다. "This movie is amazing!"은 긍정, "I wasted my time watching this"는 부정으로 분류된다. === 문장 쌍 과제 === * '''MRPC (Microsoft Research Paraphrase Corpus)''': 두 문장이 같은 의미인지 판단한다. "The cat is sleeping"과 "A feline is taking a nap"은 같은 의미로 판단된다. * '''QQP (Quora Question Pairs)''': Quora에서 수집한 질문 쌍이 같은 의도를 가진 질문인지 판단한다. * '''STS-B (Semantic Textual Similarity Benchmark)''': 두 문장의 의미적 유사도를 0-5점 척도로 평가한다. * '''MNLI (Multi-Genre Natural Language Inference)''': 전제와 가설 관계를 판단한다. 전제가 주어졌을 때 가설이 참인지, 거짓인지, 중립인지 분류한다. * '''QNLI (Question Natural Language Inference)''': 질문-답변 쌍에서 답변이 질문에 대한 올바른 답인지 판단한다. * '''RTE (Recognizing Textual Entailment)''': MNLI와 유사하지만 더 작은 데이터셋으로, 텍스트 함의 관계를 판단한다. * '''WNLI (Winograd Natural Language Inference)''': 대명사가 가리키는 대상을 파악하는 능력을 평가한다. == 평가 방식 == GLUE는 각 과제의 점수를 평균내어 하나의 종합 점수를 산출한다. 각 과제마다 평가 지표가 다른데, 분류 과제는 정확도(Accuracy)를, 상관관계 과제는 상관계수를 사용한다. 모델이 GLUE에서 높은 점수를 받으려면 모든 과제에서 골고루 좋은 성능을 보여야 한다. 한두 개 과제에서만 잘해서는 좋은 종합 점수를 받기 어렵다. == 주요 성과 == GLUE 벤치마크가 공개된 이후 수많은 AI 모델들이 도전했다. 초기에는 인간 수준(87.1점)에 한참 못 미쳤지만, BERT의 등장으로 80점대를 돌파했고, 이후 RoBERTa, ALBERT, T5 등의 모델이 연이어 기록을 경신했다. 2019년 중반에는 여러 모델이 인간 수준을 넘어서기 시작했고, 이는 GLUE가 더 이상 모델들의 성능을 변별하기 어렵다는 것을 의미했다. == SuperGLUE의 등장 == GLUE의 한계를 극복하기 위해 2019년 '''SuperGLUE'''가 발표되었다. SuperGLUE는 더 어려운 8개의 과제로 구성되어 있으며, 상식 추론, 인과관계 파악 등 더 복잡한 언어 이해 능력을 요구한다. SuperGLUE는 GLUE보다 훨씬 어려워서, 2024년 기준으로도 인간 수준(89.8점)을 완전히 넘어선 모델은 많지 않다. == 의의와 한계 == === 의의 === GLUE는 NLP 분야에 표준화된 평가 체계를 제공함으로써 연구 발전에 크게 기여했다. 연구자들이 같은 기준으로 모델을 평가할 수 있게 되어 공정한 비교가 가능해졌고, 이는 BERT, GPT 등 혁신적인 모델 개발로 이어졌다. === 한계 === GLUE는 영어 데이터만을 다루고 있어 다국어 성능을 평가할 수 없다는 한계가 있다. 또한 실제 응용 상황과는 거리가 있는 학술적 과제들로 구성되어 있어, GLUE 점수가 높다고 해서 실제 서비스에서도 잘 작동한다고 보장할 수 없다. == 관련 벤치마크 == * '''SuperGLUE''': GLUE의 후속 버전으로 더 어려운 과제들로 구성 * '''KLUE''': 한국어 버전의 GLUE로, 한국어 자연어 처리 모델 평가용 * '''CLUE''': 중국어 버전의 GLUE * '''FLUE''': 프랑스어 버전의 GLUE == 여담 == * GLUE는 '풀'이라는 뜻으로, 여러 과제를 하나로 '붙인다'는 의미를 담고 있다. * 일부 연구자들은 모델이 GLUE 과제에만 최적화되는 것을 경계하며, 이를 'GLUE hacking'이라고 부른다. * 2018년 처음 공개될 당시 최고 점수는 70점대였지만, 불과 1년 만에 인간 수준을 넘어섰다. 이는 NLP 분야의 빠른 발전 속도를 보여주는 사례다. == 같이 보기 == * [[BERT]] * [[자연어 처리]] * [[언어 모델]] * [[SuperGLUE]] == 외부 링크 == * [https://gluebenchmark.com/ GLUE 공식 웹사이트] * [https://super.gluebenchmark.com/ SuperGLUE 공식 웹사이트] [[분류:인공지능]] [[분류:자연어 처리]] [[분류:기계학습]] [[분류:벤치마크]] 편집 요약 가온 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는 가온 위키:저작권 문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요. 또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다. 저작권이 있는 내용을 허가 없이 저장하지 마세요! 취소 편집 도움말 (새 창에서 열림)