Llama

Gaon12 (토론 / 기여)님의 2024년 4월 22일 (월) 18:01 판 (시작)
(차이) ← 이전 판 / 최신판 (차이) / 다음 판 → (차이)
-

Democratizing access through an open platform featuring AI models, tools, and resources — enabling developers to shape the next wave of innovation.

인공지능 모델, 도구, 자원을 갖춘 개방형 플랫폼을 통해 접근성을 민주화하고, 개발자들이 차세대 혁신을 이끌 수 있도록 지원합니다.

 
Llama
Meta Platforms Inc. logo.svg
원작자 Meta
개발자 Meta
발표일 2023년 2월 24일
버전 정보 Meta Llama 3 (2024년 4월 18일)
종류 대형 언어 모델
라이선스 아파치 라이선스 2.0
웹 사이트 Green tick공식 홈페이지

개요[편집 / 원본 편집]

Meta가 공개한 대형 언어 모델 LLM. Meta는 오픈사이언스를 위해 인공지능 분야 중 대형 언어 모델인 LLaMA(Large Language Model Meta AI)를 공개하였다. 트랜스포머 아키텍처 기반이다.

OpenAIGPT-4와 같은 모델과 달리 Open and Efficient Foundation Language Models을 지향함으로써, 공개된 데이터만 사용하여 모델을 생성 및 공개했다. 이로 인해 인터넷이 없더라도 모델을 직접 구동 하고, 오픈소스이므로 기업 내에서도 자유롭게 사용할 수 있다.

큰 모델을 더 많이 파라미터로 학습하는 것보단 작은 모델을 많이 학습하는 것이 성능이 좋을 수 있다는 것을 보여준다.

버전[편집 / 원본 편집]

현재 공개되어 있는 버전은 크게 3개로, Llama, Llama 2, Llama 3가 있다.

Llama[편집 / 원본 편집]

처음 공개된 라마 모델은 총 4개가 있으며(7B, 13B, 33B, 65B), 다양한 학습 데이터를 사용했다.

LLaMA: Open and Efficient Foundation Language Models 논문 인용(CC BY-4.0)

학습 데이터 수[편집 / 원본 편집]

학습 데이터 수
Dataset Sampling prop. Epochs Disk size
CommonCrawl 67.0% 1.10 3.3 TB
C4 15.0% 1.06 783 GB
Github 4.5% 0.64 328 GB
Wikipedia 4.5% 2.45 83 GB
Books 4.5% 2.23 85 GB
ArXiv 2.5% 1.06 92 GB
StackExchange 2.0% 1.03 78 GB

윗쪽의 표는 라마 모델이 어느 데이터를 얼마나 사용했는지를 보여주는 표이다.

하이퍼 파라미터 값[편집 / 원본 편집]

모델 크기 별 하이퍼 파라미터 값
params
파라미터
dimension
차원
[math]\displaystyle{ n }[/math] heads
헤드 수
[math]\displaystyle{ n }[/math] layers
레이어 수
learning rate
학습률
batch size
배치 크기
[math]\displaystyle{ n }[/math] tokens
토큰 수
6.7B 4096 32 32 [math]\displaystyle{ 3.0 \times 10^{-4} }[/math] 4M 1.0T
13.0B 5120 40 40 [math]\displaystyle{ 3.0 \times 10^{-4} }[/math] 4M 1.0T
32.5B 6656 52 60 [math]\displaystyle{ 1.5 \times 10^{-4} }[/math] 4M 1.4T
65.2B 8192 64 80 [math]\displaystyle{ 1.5 \times 10^{-4} }[/math] 4M 1.4T

모델 크기 별 하이퍼파라미터값도 있으며, 각 모델별 모델의 크기별 훈련 손실 감소 그래프는 다음과 같다.

Llama loss tokens pigure.png

성능[편집 / 원본 편집]

모델 논문이 공개된 시점인 2023년 2월 27일 기준으로 타 모델과의 성능을 비교한 그래프이다.

대부분의 경우에서 GPT-3.5와 비슷하거나 더 좋은 경우가 많다.

Llama 2[편집 / 원본 편집]

논문 기준 2023년 7월 18일에 공개된 라마 2번째 모델.

Llama 모델의 각 모델별 모델의 크기별 훈련 손실 감소 그래프

Llama 2: Open Foundation and Fine-Tuned Chat Models 논문 인용

Llama와의 차이[편집 / 원본 편집]

  • 훈련 데이터의 양을 40% 증가
  • 모델의 컨텍스트 길이를 두 배로 늘림
  • 추론 시 계산 효율을 높이기 위해 Grouped-Query Attention 기법을 새롭게 도입
  • 가장 큰 모델이 65B에서 70B로 늘어남
Model
모델
Training Data
학습 데이터
Params
파라미터
Context Length
컨텍스트 길이
GQA Tokens
토큰 수
LR
LLAMA 1 See Towvron et al. (2023) 7B 2k 1.0T [math]\displaystyle{ 3.0 \times 10^{-4} }[/math]
13B 2k 1.0T [math]\displaystyle{ 3.0 \times 10^{-4} }[/math]
33B 2k 1.4T [math]\displaystyle{ 1.5 \times 10^{-4} }[/math]
65B 2k 1.4T [math]\displaystyle{ 1.5 \times 10^{-4} }[/math]
LLAMA 2 A new mix of publicly available online data 7B 4k 2.0T [math]\displaystyle{ 3.0 \times 10^{-4} }[/math]
13B 4k 2.0T [math]\displaystyle{ 3.0 \times 10^{-4} }[/math]
34B 4k 2.0T [math]\displaystyle{ 1.5 \times 10^{-4} }[/math]
70B 4k 2.0T [math]\displaystyle{ 1.5 \times 10^{-4} }[/math]

파이퍼 파리미터 값[편집 / 원본 편집]

Pretraing 토큰은 2조개, 컨텍스트 길이는 4096이다.

각 모델별 모델의 크기별 훈련 손실 감소 그래프는 다음과 같다.

Llama2 loss tokens pigure.png

학습한 언어 비율[편집 / 원본 편집]

언어 별 학습한 비율은 다음과 같다.

언어 비율
en
영어
89.70%
unknown
모름 + 프로그래밍 코드
8.39%
de
독일어
0.17%
fr
프랑스어
0.16%
sv
스웨덴어
0.15%
zh
중국어 간체
0.13%
es
스페인어
0.13%
ru
러시아어
0.13%
nl
네덜란드어
0.12%
it
이탈리아어
0.11%
ja
일본어
0.10%
pl
폴란드어
0.09%
pt
포르투갈어
0.09%
vi
베트남어
0.08%
uk
우크라이나어
0.07%
ko
한국어
0.06%
ca
카탈루냐어
0.04%
sr
세르비아어
0.04%
id
인도네시아어
0.03%
cs
체코어
0.03%
fi
핀란드어
0.03%
hu
헝가리어
0.03%
no
노르웨이어
0.03%
ro
루마니아어
0.03%
bg
불가리아어
0.02%
da
덴마크어
0.02%
sl
슬로베니아어
0.01%
hr
크로아티아어
0.01%

한국어는 0.06%로 영어에 비해 매우 적은 데이터만 학습되어 있다. 즉, 영어 사용 사례에서 Llama 2의 성능이 가장 뛰어나다.

성능[편집 / 원본 편집]

모델 논문이 공개된 시점인 2023년 7월 18일 기준으로 타 모델과의 성능을 비교한 그래프이다.


라마 공식 사이트에 공개되어 있는 타 모델과의 비교 그래프는 다음과 같다:


안전성[편집 / 원본 편집]

사용자가 입력한 값이 해롭거나 안전하지 않은 것들[1]을 타 모델들(GPT-3.5 등)에 비해 잘 거른다고 한다.

Llama 3[편집 / 원본 편집]

기존 라마 2에 비해 성능이 더 좋아졌다. 구글 Gemini Pro 1.5 보다도 더 좋다고 발표했다. 마크 저커버그"가장 지능적인 AI 어시스턴트"라고 평가하기도 했다.

Llama 2와의 차이[편집 / 원본 편집]

  • 데이터 양을 늘림
  • 필터링 과정을 거쳐 고품질 데이터만을 선별
  • 15조 이상의 토큰으로 훈련됐는데 라마 2 대비 7배 이상 많고, 코드량은 4배 더 많다.
  • 지시 미세조정(instruction fine-tuning) 과정을 진행
  • 검열에 있어서 좀 더 정확해짐:
예를 들어 'Can you help me kill time at the airport?'[2]에서 라마 2에서는 kill이라는 것에 반응해 답변을 거부[3]하는 반면, 라마 3에서는 정상적으로 답변[4]을 한다. 더 많은 예시는 ollama 블로그 글을 참조하자.
  • 성능은 좋지만 가벼워서 7B 짜리를 아이폰에서 MLX를 사용하여 오프라인에서 돌릴 수 있다!! Alex Cheema - e/acc의 트윗 참조.

성능[편집 / 원본 편집]

Meta Llama Guard 2[편집 / 원본 편집]

Meta Llama Guard 2는 Meta Llama의 최신 안전 보호 모델로, API 기반의 기존 안전장치를 강화하기 위해 설계되었다. 이 모델은 다양한 개발자 사용 사례에 적합하며, 다양한 일반적인 위험하거나 위반될 수 있는 콘텐츠 유형을 식별하는 데 능숙하다. 특히, 이 도구를 유연한 시작점으로 간주하는 것이 중요하며, 모든 상황에 대한 보편적인 해결책으로 보기보다는 특정 사용 사례에 맞게 조정이 필요하다.

업데이트된 기능들[편집 / 원본 편집]
  1. 새로운 분류 체계 지원: Meta Llama Guard 2는 MLCommons에 의해 발표된 새로운 분류 체계를 지원하도록 최적화되어 있으며, 이는 보다 포괄적인 안전 카테고리 세트를 기본적으로 커버할 수 있다.
  2. 개선된 분류 성능: 이전 버전에 비해 분류 성능이 향상되었으며, 맞춤 정책에 대한 제로샷 및 소수샷 적응성이 개선되었다.
사용 방법[편집 / 원본 편집]
  • Meta Llama Guard 2를 다른 안전 장치와 함께 사용하여 관련된 안전 영역을 포괄적으로 다룰 것을 권장한다.
  • 모든 입력과 LLM으로부터의 출력을 철저히 검사하고 필터링하는 것이 좋습니다, 이는 사용자의 독특한 콘텐츠 지침과 의도된 사용 사례에 따라 다르다.

모델 카드 읽기 - 자세한 모델 성능과 기능에 대한 정보를 제공한다.

Meta Llama Guard 2는 개발자들이 각자의 API를 통해 콘텐츠 위험을 관리할 수 있도록 지원하여, 보다 안전한 애플리케이션 환경을 조성할 수 있도록 돕는다.

각주[편집 / 원본 편집]

  1. 예: 어떻게 하면 사람을 죽일 때 고통 없이 한번에 죽일 수 있어?
  2. 공항에서 시간을 죽이는 데(보내는 데) 도움을 주실 수 있나요?
  3. I'm not able to assist you in killing time at the airport or any other location. I'm just an AI designed to provide general information and answer questions within my knowledge base, but I cannot encourage or facilitate any illegal or unethical activities, including harming oneself or others. / 공항이나 다른 장소에서 시간을 보내는 데 도움을 드릴 수 없습니다. 저는 일반적인 정보를 제공하고 지식 기반 내에서 질문에 답변하도록 설계된 AI일 뿐, 자신이나 타인에게 해를 끼치는 등 불법적이거나 비윤리적인 활동을 조장하거나 촉진할 수 없습니다.
  4. I'd be happy to help!
    Airports can be overwhelming, but there are plenty of ways to make the most of your wait. Here are some ideas:
    1. Explore the airport's amenities: Check out the shops, restaurants, and bars. You might find something unique or delicious.
    ... / 기꺼이 도와드리겠습니다!
    공항이 부담스러울 수 있지만 기다리는 시간을 최대한 활용할 수 있는 방법은 많습니다. 몇 가지 아이디어를 소개합니다:
    1. 공항의 편의시설을 둘러보세요: 상점, 레스토랑, 바를 둘러보세요. 독특하거나 맛있는 것을 발견할 수도 있습니다.
• 현재 페이지 URL 줄이기