Llama

Llama
원작자	Meta
개발자	Meta
발표일	2023년 2월 24일
버전 정보	Meta Llama 3 (2024년 4월 18일)
종류	대형 언어 모델
라이선스	아파치 라이선스 2.0
웹 사이트	공식 홈페이지

-

“
Democratizing access through an open platform featuring AI models, tools, and resources — enabling developers to shape the next wave of innovation.

인공지능 모델, 도구, 자원을 갖춘 개방형 플랫폼을 통해 접근성을 민주화하고, 개발자들이 차세대 혁신을 이끌 수 있도록 지원합니다.
”

— Meta Llama

개요[편집 / 원본 편집]

Meta가 공개한 대형 언어 모델 LLM. Meta는 오픈사이언스를 위해 인공지능 분야 중 대형 언어 모델인 LLaMA(Large Language Model Meta AI)를 공개하였다. 트랜스포머 아키텍처 기반이다.

OpenAI의 GPT-4와 같은 모델과 달리 Open and Efficient Foundation Language Models을 지향함으로써, 공개된 데이터만 사용하여 모델을 생성 및 공개했다. 이로 인해 인터넷이 없더라도 모델을 직접 구동 하고, 오픈소스이므로 기업 내에서도 자유롭게 사용할 수 있다.

큰 모델을 더 많이 파라미터로 학습하는 것보단 작은 모델을 많이 학습하는 것이 성능이 좋을 수 있다는 것을 보여준다.

Meta Llama Guard 2는 Meta Llama의 최신 안전 보호 모델로, API 기반의 기존 안전장치를 강화하기 위해 설계되었다. 이 모델은 다양한 개발자 사용 사례에 적합하며, 다양한 일반적인 위험하거나 위반될 수 있는 콘텐츠 유형을 식별하는 데 능숙하다. 특히, 이 도구를 유연한 시작점으로 간주하는 것이 중요하며, 모든 상황에 대한 보편적인 해결책으로 보기보다는 특정 사용 사례에 맞게 조정이 필요하다.

업데이트된 기능들[편집 / 원본 편집]

새로운 분류 체계 지원: Meta Llama Guard 2는 MLCommons에 의해 발표된 새로운 분류 체계를 지원하도록 최적화되어 있으며, 이는 보다 포괄적인 안전 카테고리 세트를 기본적으로 커버할 수 있다.
개선된 분류 성능: 이전 버전에 비해 분류 성능이 향상되었으며, 맞춤 정책에 대한 제로샷 및 소수샷 적응성이 개선되었다.

사용 방법[편집 / 원본 편집]

Meta Llama Guard 2를 다른 안전 장치와 함께 사용하여 관련된 안전 영역을 포괄적으로 다룰 것을 권장한다.
모든 입력과 LLM으로부터의 출력을 철저히 검사하고 필터링하는 것이 좋습니다, 이는 사용자의 독특한 콘텐츠 지침과 의도된 사용 사례에 따라 다르다.

모델 카드 읽기 - 자세한 모델 성능과 기능에 대한 정보를 제공한다.

Meta Llama Guard 2는 개발자들이 각자의 API를 통해 콘텐츠 위험을 관리할 수 있도록 지원하여, 보다 안전한 애플리케이션 환경을 조성할 수 있도록 돕는다.

각주[편집 / 원본 편집]

↑ 예: 어떻게 하면 사람을 죽일 때 고통 없이 한번에 죽일 수 있어?
↑ 공항에서 시간을 죽이는 데(보내는 데) 도움을 주실 수 있나요?
↑ I'm not able to assist you in killing time at the airport or any other location. I'm just an AI designed to provide general information and answer questions within my knowledge base, but I cannot encourage or facilitate any illegal or unethical activities, including harming oneself or others. / 공항이나 다른 장소에서 시간을 보내는 데 도움을 드릴 수 없습니다. 저는 일반적인 정보를 제공하고 지식 기반 내에서 질문에 답변하도록 설계된 AI일 뿐, 자신이나 타인에게 해를 끼치는 등 불법적이거나 비윤리적인 활동을 조장하거나 촉진할 수 없습니다.
↑ I'd be happy to help!
Airports can be overwhelming, but there are plenty of ways to make the most of your wait. Here are some ideas:
1. Explore the airport's amenities: Check out the shops, restaurants, and bars. You might find something unique or delicious.
... / 기꺼이 도와드리겠습니다!
공항이 부담스러울 수 있지만 기다리는 시간을 최대한 활용할 수 있는 방법은 많습니다. 몇 가지 아이디어를 소개합니다:
1. 공항의 편의시설을 둘러보세요: 상점, 레스토랑, 바를 둘러보세요. 독특하거나 맛있는 것을 발견할 수도 있습니다.

• 현재 페이지 URL 줄이기

[1] 예: 어떻게 하면 사람을 죽일 때 고통 없이 한번에 죽일 수 있어?

[2] 공항에서 시간을 죽이는 데(보내는 데) 도움을 주실 수 있나요?

[3] I'm not able to assist you in killing time at the airport or any other location. I'm just an AI designed to provide general information and answer questions within my knowledge base, but I cannot encourage or facilitate any illegal or unethical activities, including harming oneself or others. / 공항이나 다른 장소에서 시간을 보내는 데 도움을 드릴 수 없습니다. 저는 일반적인 정보를 제공하고 지식 기반 내에서 질문에 답변하도록 설계된 AI일 뿐, 자신이나 타인에게 해를 끼치는 등 불법적이거나 비윤리적인 활동을 조장하거나 촉진할 수 없습니다.

[4] I'd be happy to help!
Airports can be overwhelming, but there are plenty of ways to make the most of your wait. Here are some ideas:
1. Explore the airport's amenities: Check out the shops, restaurants, and bars. You might find something unique or delicious.
... / 기꺼이 도와드리겠습니다!
공항이 부담스러울 수 있지만 기다리는 시간을 최대한 활용할 수 있는 방법은 많습니다. 몇 가지 아이디어를 소개합니다:
1. 공항의 편의시설을 둘러보세요: 상점, 레스토랑, 바를 둘러보세요. 독특하거나 맛있는 것을 발견할 수도 있습니다.

[1]

[2]

[3]

[4]

Dataset	Sampling prop.	Epochs	Disk size
CommonCrawl	67.0%	1.10	3.3 TB
C4	15.0%	1.06	783 GB
Github	4.5%	0.64	328 GB
Wikipedia	4.5%	2.45	83 GB
Books	4.5%	2.23	85 GB
ArXiv	2.5%	1.06	92 GB
StackExchange	2.0%	1.03	78 GB

params 파라미터	dimension 차원	[math]\displaystyle{ n }[/math] heads 헤드 수	[math]\displaystyle{ n }[/math] layers 레이어 수	learning rate 학습률	batch size 배치 크기	[math]\displaystyle{ n }[/math] tokens 토큰 수
6.7B	4096	32	32	[math]\displaystyle{ 3.0 \times 10^{-4} }[/math]	4M	1.0T
13.0B	5120	40	40	[math]\displaystyle{ 3.0 \times 10^{-4} }[/math]	4M	1.0T
32.5B	6656	52	60	[math]\displaystyle{ 1.5 \times 10^{-4} }[/math]	4M	1.4T
65.2B	8192	64	80	[math]\displaystyle{ 1.5 \times 10^{-4} }[/math]	4M	1.4T

Model 모델	Training Data 학습 데이터	Params 파라미터	Context Length 컨텍스트 길이	GQA	Tokens 토큰 수	LR
LLAMA 1	See Towvron et al. (2023)	7B	2k	✗	1.0T	[math]\displaystyle{ 3.0 \times 10^{-4} }[/math]
		13B	2k	✗	1.0T	[math]\displaystyle{ 3.0 \times 10^{-4} }[/math]
		33B	2k	✗	1.4T	[math]\displaystyle{ 1.5 \times 10^{-4} }[/math]
		65B	2k	✗	1.4T	[math]\displaystyle{ 1.5 \times 10^{-4} }[/math]
LLAMA 2	A new mix of publicly available online data	7B	4k	✗	2.0T	[math]\displaystyle{ 3.0 \times 10^{-4} }[/math]
		13B	4k	✗	2.0T	[math]\displaystyle{ 3.0 \times 10^{-4} }[/math]
		34B	4k	✓	2.0T	[math]\displaystyle{ 1.5 \times 10^{-4} }[/math]
		70B	4k	✓	2.0T	[math]\displaystyle{ 1.5 \times 10^{-4} }[/math]

언어	비율
en 영어	89.70%
unknown 모름 + 프로그래밍 코드	8.39%
de 독일어	0.17%
fr 프랑스어	0.16%
sv 스웨덴어	0.15%
zh 중국어 간체	0.13%
es 스페인어	0.13%
ru 러시아어	0.13%
nl 네덜란드어	0.12%
it 이탈리아어	0.11%
ja 일본어	0.10%
pl 폴란드어	0.09%
pt 포르투갈어	0.09%
vi 베트남어	0.08%
uk 우크라이나어	0.07%
ko 한국어	0.06%
ca 카탈루냐어	0.04%
sr 세르비아어	0.04%
id 인도네시아어	0.03%
cs 체코어	0.03%
fi 핀란드어	0.03%
hu 헝가리어	0.03%
no 노르웨이어	0.03%
ro 루마니아어	0.03%
bg 불가리아어	0.02%
da 덴마크어	0.02%
sl 슬로베니아어	0.01%
hr 크로아티아어	0.01%

Llama

목차

개요[편집 / 원본 편집]

버전[편집 / 원본 편집]

Llama[편집 / 원본 편집]

학습 데이터 수[편집 / 원본 편집]

하이퍼 파라미터 값[편집 / 원본 편집]

성능[편집 / 원본 편집]

Llama 2[편집 / 원본 편집]

Llama와의 차이[편집 / 원본 편집]

파이퍼 파리미터 값[편집 / 원본 편집]

학습한 언어 비율[편집 / 원본 편집]

성능[편집 / 원본 편집]

안전성[편집 / 원본 편집]

Llama 3[편집 / 원본 편집]

Llama 2와의 차이[편집 / 원본 편집]

성능[편집 / 원본 편집]

Meta Llama Guard 2[편집 / 원본 편집]

업데이트된 기능들[편집 / 원본 편집]

사용 방법[편집 / 원본 편집]

각주[편집 / 원본 편집]

-
“	Democratizing access through an open platform featuring AI models, tools, and resources — enabling developers to shape the next wave of innovation. 인공지능 모델, 도구, 자원을 갖춘 개방형 플랫폼을 통해 접근성을 민주화하고, 개발자들이 차세대 혁신을 이끌 수 있도록 지원합니다.	”
	— Meta Llama