귀하는 로그인되어 있지 않습니다. 이대로 편집하면 귀하의 IP 주소가 편집 기록에 남게 됩니다.스팸 방지 검사입니다. 이것을 입력하지 마세요!{{Infobox | 명칭 = 대형 언어 모델 (Large Language Model, LLM) | 분류 = 기계 학습 · 생성형 AI | 첫등장 = 2017년 논문 “Attention Is All You Need” citeturn1search2 | 주요 논문 = Ashish Vaswani 외, “Attention Is All You Need” (2017) citeturn1search0 | 대표 모델 = GPT‑3 (1750억 매개변수, Brown et al., 2020) citeturn2search0 · PaLM (2022) citeturn0search0 | 파라미터 수 = 수십억~수조 개 | 응용 분야 = 자연어 생성 · 번역 · 요약 · 질의응답 · 코드 생성 등 citeturn0search1 | 개발사 = OpenAI · Google · Meta · Anthropic · Mistral 등 }} == 개요 == 대형 언어 모델(LLM)은 방대한 텍스트 데이터를 바탕으로 사전 학습되어 사람과 유사한 자연어 생성·이해 능력을 보유한 인공지능 모델이다. 대표적인 구조로는 2017년 Vaswani 등이 발표한 Transformer가 있으며, 이후 파라미터 수가 수십억 개에서 수조 개에 달하는 모델들이 등장했다. == 정의 == 대형 언어 모델은 수십억 개 이상의 매개변수를 가진 신경망으로, 주로 어텐션 메커니즘을 기반으로 텍스트 예측 과제를 학습하여 언어의 통계적 패턴을 학습한다. ‘대형’의 기준은 모델이 학습한 텍스트의 양, 파라미터 수, 추론 성능을 종합적으로 고려한다. == 역사 == 대형 언어 모델의 기원은 RNN 및 CNN 기반의 시퀀스-투-시퀀스(Seq2Seq) 모델에 있으며, 2014년 Bahdanau 등이 제안한 어텐션 기법이 그 출발점이다. 2017년 발표된 Transformer는 recurrence와 convolution을 배제하고 오직 어텐션만으로 문맥을 학습하여 병렬 학습이 가능해졌으며, 이는 GPT, BERT 등 수많은 후속 연구의 토대를 마련했다. 2018년 OpenAI의 GPT-1(약 1.17억 파라미터)은 텍스트 생성 능력을 선보였고, 2019년 GPT-2(15억 파라미터)는 보다 풍부한 문장 생성을 통해 주목받았다. 2020년 출시된 GPT-3(1750억 파라미터)는 few-shot 학습을 통해 예시만으로 다양한 과제를 처리할 수 있음을 입증했다. 이후 구글 PaLM, Meta LLaMA, Anthropic Claude 등이 잇따라 대형 모델을 발표하며 경쟁이 심화되었다. == 구조 및 학습 방법 == 대형 언어 모델은 Self-supervised Learning 방식으로 대량의 비라벨 텍스트에서 마스킹 혹은 다음 단어 예측 과제를 통해 학습한다. 이후 필요에 따라 특정 도메인이나 태스크에 맞춰 세밀하게 미세 조정(Fine‑tuning)하거나, 입력 프롬프트 안에 과제 예시를 포함하는 In‑context Learning 기법을 사용하여 새로운 과제에 빠르게 적응할 수 있다. == 응용 분야 == 대형 언어 모델은 기사 작성, 문서 요약, 기계 번역, 질문 응답, 코드 생성 및 디버깅, 챗봇 등 다양한 분야에 활용된다. 특히 검색 결과를 보완하는 RAG(Retrieval‑Augmented Generation)를 통해 최신 정보와 외부 지식을 결합하여 사실성을 높이는 연구가 활발하다. == 최신 트렌드 == 최근에는 텍스트뿐 아니라 이미지·음성·비디오를 함께 처리하는 멀티모달 연구가 활발해졌으며, AI 에이전트가 목표를 분해하고 스스로 행동 계획을 수행하는 자율 에이전트 연구도 주목받고 있다. 또한 환경 부담을 줄이기 위해 파라미터 효율화를 꾀하는 LoRA, QLoRA 기법이 확산되었고, 헬스케어·법률 등 전문 영역에 특화된 도메인 모델 개발이 늘어나고 있다. == 한계 및 윤리적 고려 == 대형 언어 모델은 학습 데이터의 편향을 그대로 반영하여 차별적 표현을 생성할 수 있고, 허위 정보를 사실처럼 제시하는 환각(Hallucination) 문제가 있다. 또한 대규모 연산 자원 소비로 탄소 배출이 크며, 학습 데이터에 포함된 민감 정보를 노출할 위험이 존재한다. 이를 해결하기 위해 윤리적 AI 가이드라인과 규제, 프라이버시 보호 기법이 함께 논의되고 있다. == 향후 전망 == 앞으로는 경량화된 추론 엔진, 자동화된 하이퍼파라미터 튜닝, 사실 검증 통합 기능이 중요해질 것이다. 메타 학습과 무감독 학습 기법이 발전하며, 다양한 언어·도메인을 아우르는 협력 생태계가 구축될 것으로 전망된다. == 주요 참고 문헌 == * Ashish Vaswani 외, “Attention Is All You Need” (2017) * Brown 외, “Language Models are Few‑Shot Learners” (2020) * Chandrasekaran 외, “Sovereign Large Language Models” (2025) == 외부 링크 == * [https://arxiv.org/abs/1706.03762 Attention Is All You Need] * [https://arxiv.org/abs/2005.14165 Language Models are Few‑Shot Learners] [[분류:인공지능]] [[분류:기계 학습]] 편집 요약 가온 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는 가온 위키:저작권 문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요. 또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다. 저작권이 있는 내용을 허가 없이 저장하지 마세요! 취소 편집 도움말 (새 창에서 열림) 이 문서에서 사용한 틀: 틀:Infobox (편집) 틀:정보상자 (편집) 틀:정보상자/styles.css (편집) 틀:정보상자/행 (편집)