Metaが開発した大規模言語モデル「Llama」シリーズを深掘り

近年、AI技術の進化は目覚ましく、特に大規模言語モデル（LLM）は私たちの生活やビジネスに大きな変化をもたらしつつあります。その中でも、Meta（旧Facebook）が開発した「Llama」シリーズは、オープンソース（一部条件付き）でありながら高い性能を持つことから、世界中の開発者や研究者から注目を集めています。

本記事では、初代LLaMAから最新のLlama 3まで、それぞれのモデルの特徴、性能、ライセンスの違いなどを詳しく比較し、あなたの目的に合ったモデルの選び方を解説します。Llamaシリーズの進化の軌跡をたどりながら、その可能性を探っていきましょう！

LLaMA（初代）：小規模でも高性能を目指した挑戦
Llama 2：オープンソース化と商用利用への道を開く
Llama 3：さらなる性能向上とオープンソースLLMの最前線へ
性能比較：ベンチマークスコアで見る進化
Llamaから生まれた派生モデルたち
利用方法と選び方：あなたに最適なLlamaは？
将来展望：Llamaの進化は止まらない
まとめ

LLaMA（初代）：小規模でも高性能を目指した挑戦

2023年2月に発表された初代「LLaMA」は、当時のLLM開発における「モデルサイズ至上主義」に一石を投じる存在でした。Metaは、モデルサイズを巨大化させるのではなく、より多くの、質の高いデータで学習させることで、比較的小さなモデルでも高い性能を引き出せることを証明しようとしました。

LLaMAは、以下のパラメータサイズのモデルが公開されました。

7B (70億パラメータ)
13B (130億パラメータ)
33B (330億パラメータ)
65B (650億パラメータ)

特にLLaMA 13Bは、当時の巨大モデルであるOpenAIのGPT-3 (175B)に匹敵する性能を特定のタスクで示し、LLaMA 65Bはさらに高性能なモデル（PaLM 540Bなど）に迫る結果を出しました。これは、LLM開発において、データ量と質、そして効率的な学習がいかに重要かを示す画期的な成果でした。

ただし、初代LLaMAのライセンスは非商用研究目的に限定されており、誰もが自由に商用利用できるわけではありませんでした。この点が、後のLlama 2やLlama 3との大きな違いとなります。現在は非公開となっていますが、LLM研究コミュニティに与えた影響は非常に大きいものでした。

Llama 2：オープンソース化と商用利用への道を開く

2023年7月、Metaは「Llama 2」を発表し、LLMコミュニティに大きな衝撃を与えました。初代LLaMAの高性能さを引き継ぎつつ、オープンソース化され、条件付きで商用利用が可能になったのです。これは、ChatGPTなどが市場を席巻する中で、オープンなLLM開発を促進する大きな一歩となりました。

Llama 2は、以下のパラメータサイズで提供されました。

7B (70億パラメータ)
13B (130億パラメータ)
70B (700億パラメータ)

初代LLaMAからの主な改善点は以下の通りです。

訓練データ量の増加: 初代LLaMAのデータセットから40%増の2兆トークンで事前学習されました。
コンテキスト長の延長: 扱える情報の長さ（コンテキスト長）が初代の2048トークンから4096トークンに倍増しました。
性能向上: 特に推論、コーディング、知識テストなどのベンチマークで性能が向上しました。
RLHF (Reinforcement Learning from Human Feedback) の導入: 人間のフィードバックに基づいた強化学習を取り入れ、より安全で人間にとって有用な応答を生成する「Llama 2-Chat」モデルも開発されました。
Grouped-Query Attention (GQA) の採用 (70Bモデル): 推論時の計算効率と速度を改善する技術が70Bモデルに導入されました。

Llama 2のライセンスは、「Llama 2 Community License」として提供され、月間アクティブユーザー数（MAU）が7億人未満のサービスであれば、原則として無償で商用利用が可能です（一部条件あり）。このライセンス形態は、多くのスタートアップや研究機関にとって、高性能LLMを自社サービスに組み込む大きなチャンスとなりました。

注意点: Llama 2（およびLlama 3）を商用利用する際は、必ず最新のライセンス条項（Acceptable Use Policyを含む）を確認し、遵守する必要があります。特に、MAUが7億人を超える場合や、派生モデルを作成・配布する際には、Metaへの申請や特定の表示義務などが伴います。

Llama 3：さらなる性能向上とオープンソースLLMの最前線へ

そして2024年4月、Metaは待望の「Llama 3」を発表しました。Llama 2からさらに性能を大幅に向上させ、オープンソース（条件付き）LLMの新たなスタンダードを打ち立てています。

初期リリースでは、以下のパラメータサイズのモデルが公開されました。

8B (80億パラメータ)
70B (700億パラメータ)

さらに、2024年後半には、より高性能なモデル群（Llama 3.1, 3.2, 3.3）が登場しました。特に注目すべきは以下の点です。

Llama 3.1 (2024年7月頃):
- 405B (4050億パラメータ) モデルが登場し、GPT-4oなどのプロプライエタリモデルに匹敵する性能を示しました。
- 全モデルでコンテキスト長が128,000トークンへと大幅に拡張されました。
- 多言語対応が強化されました。
Llama 3.2 (2024年9月頃):
- 画像認識機能を持つマルチモーダルモデル（11B, 90B）が登場しました。
- より軽量な言語モデル（SLM: Small Language Model）として1B, 3Bが登場しました。
- 「Llama Stack」と呼ばれる開発ツール群が導入されました。
Llama 3.3 (2024年12月頃):
- 70Bモデルが登場。Llama 3.1 405Bと同等の性能を維持しつつ、推論コストを削減し、軽量化を実現しました。これにより、高性能PCでのローカル実行も現実的になりました。

Llama 3シリーズ全体の主な改善点は以下の通りです。

圧倒的な訓練データ量: Llama 2の7倍以上となる15兆トークン以上のデータで事前学習されました。データソースの多様性や質も向上しています。訓練データにはコードもLlama 2の4倍含まれています。
性能の大幅向上: 特に推論、コーディング、数学、一般的な知識などのベンチマーク（MMLU, HumanEval, GSM-8Kなど）で、Llama 2や同規模の競合モデルを大きく上回るスコアを記録しています。
改善されたPost-training手法: 教師ありファインチューニング（SFT）やPPO、DPOなどの手法を組み合わせることで、指示追従能力や応答の多様性、安全性が向上し、誤った回答拒否率が低減しました。
新しいTokenizer: 語彙数を128,000トークンに拡張した新しいTokenizer（Tiktokenベース）を採用。これにより、特に多言語対応とエンコード効率が向上しました。
Grouped-Query Attention (GQA) の全モデル採用: 8Bモデルを含む全てのサイズでGQAを採用し、推論効率を改善しました。（Llama 2では70Bのみ採用）
ライセンス: Llama 2と同様の「META LLAMA COMMUNITY LICENSE」が適用され、条件付きで商用利用が可能です。

Llama 3の登場により、オープンソースLLMはプロプライエタリなモデルに性能面で肉薄、あるいは一部で凌駕するレベルに達しました。特にLlama 3.1 405BやLlama 3.3 70Bは、その性能と（条件付きながら）オープンである点から、多くの開発者にとって魅力的な選択肢となっています。

Meta AIにもLlama 3が搭載されていますが、2024年末時点ではまだ日本では利用できません。

性能比較：ベンチマークスコアで見る進化

各Llamaモデルの性能を客観的に比較するために、主要なベンチマークスコアを見てみましょう。ここでは、代表的なモデルと、比較対象として他の有名なモデルのスコアも示します（スコアは発表時期や評価方法により若干変動する可能性があります）。

モデル	パラメータ数	MMLU (5-shot)	GSM-8K (8-shot, CoT)	HumanEval (0-shot)	MATH (4-shot)	備考
LLaMA (初代)	65B	63.4	58.1	26.2	9.2	2023年2月発表
Llama 2	70B	68.9	56.8	29.9	–	2023年7月発表
Llama 3	8B	66.6	79.5	62.2	30.0	2024年4月発表 (Instructモデル)
Llama 3	70B	82.0	94.1	81.7	50.4	2024年4月発表 (Instructモデル)
Llama 3.1	8B	69.4	–	–	–	2024年7月発表 (MMLUスコアは別評価源)
Llama 3.1	70B	86.0	–	80.5	–	2024年7月発表
Llama 3.1	405B	88.6	–	89.0	–	2024年7月発表 (MMLU, HumanEvalは別評価源)
Llama 3.3	70B	86.0 (CoT)	94.1 (CoT)	85.1	58.0	2024年12月発表。Llama 3.1 405Bに匹敵
GPT-3.5 Turbo (参考)	不明 (推定175B?)	70.0	57.1	73.2	34.1
Claude 3 Sonnet (参考)	不明	79.0 (5-shot)	–	73.0	–	2024年3月発表
Gemini Pro 1.5 (参考)	不明	81.9	90.4	71.9	58.5	2024年2月発表
GPT-4o (参考)	不明	88.7 (0-shot)	97.3	90.2	76.6	2024年5月発表 (MMLU, HumanEvalは別評価源)

※ MMLU: 大規模マルチタスク言語理解、GSM-8K: 小学校レベルの数学問題、HumanEval: Pythonコード生成能力、MATH: 高校/大学レベルの数学問題。スコアが高いほど高性能。

表から明らかなように、Llama 3はLlama 2から大幅な性能向上を遂げています。特に8Bモデルは、より小規模ながら多くのベンチマークでLlama 2の70Bモデルに迫るか、上回る性能を示しています。そしてLlama 3 70Bは、発表当時、Gemini Pro 1.5やClaude 3 Sonnetといった強力なクローズドモデルに匹敵する結果を出しました。さらにLlama 3.1 405BやLlama 3.3 70Bは、GPT-4oなどの最先端モデルと肩を並べる性能を持っています。これは、オープンソースLLMの進化がいかに急速であるかを示しています。

Llama 3.3 70Bは、Llama 3.1 405Bに匹敵する性能を、より少ない計算リソースで実現した点が特筆されます。これにより、より多くの開発者が高性能なLLMを利用しやすくなりました。

Llamaから生まれた派生モデルたち

Llamaシリーズ、特にLlama 2以降のオープン性（条件付き商用利用可）は、活発なLLMコミュニティを生み出し、多くの派生モデルが登場するきっかけとなりました。これらのモデルは、特定のタスクや言語に特化してファインチューニングされるなど、様々な改良が加えられています。

代表的な派生モデルには以下のようなものがあります。

Alpaca: スタンフォード大学がLlama 7Bをベースに、自己指示（self-instruct）技術を用いてファインチューニングしたモデル。比較的少ないコストで指示追従能力を向上させたことで注目されました。
Vicuna: カリフォルニア大学バークレー校などがLlamaをベースに、ShareGPTから収集した対話データでファインチューニングしたモデル。ChatGPTに近い会話能力を持つと評価されました。
Orca: マイクロソフトリサーチが開発。GPT-4のような大規模モデルの思考プロセスを模倣するように、より小さなモデル（Llamaなど）を訓練する手法（Explanation Tuning）を用いています。
日本語特化モデル: 日本の企業や研究機関によって、Llama 2やLlama 3をベースに日本語データで追加学習やファインチューニングが行われたモデルも多数登場しています（例: Llama-3-Swallow, Llama 3 Youko 8Bなど）。これにより、日本語の処理能力が大幅に向上しています。

これらの派生モデルの存在は、Llamaアーキテクチャの柔軟性と、オープンなエコシステムがもたらすイノベーションの可能性を示しています。特定のニーズに合わせてカスタマイズされたモデルを利用できる点は、Llamaシリーズの大きな魅力の一つです。

利用方法と選び方：あなたに最適なLlamaは？

これまでの情報をもとに、どのLlamaモデルを選ぶべきか、そしてどのように利用できるかを見ていきましょう。

ライセンスの確認（重要！）

まず最も重要なのがライセンスです。

初代LLaMA: 非商用研究目的のみ（現在は非公開）。
Llama 2, Llama 3シリーズ: 「META LLAMA COMMUNITY LICENSE」に基づき、月間アクティブユーザー数（MAU）が7億人未満のサービスでは原則無償で商用利用可能。ただし、Acceptable Use Policy（利用規約）を遵守する必要があり、禁止されている用途（違法行為、ヘイトスピーチ、詐欺など）での利用はできません。また、派生モデルの配布には特定の条件（ライセンスのコピー添付、特定の表示など）があります。MAUが7億人を超える場合は、Metaとの別途ライセンス契約が必要です。

商用利用を検討する場合は、必ず公式のライセンス文書を熟読し、自社の利用ケースが条件を満たしているか確認してください。

モデルサイズと性能のトレードオフ

Llamaモデルは複数のパラメータサイズで提供されています。

小規模モデル (例: Llama 3 8B, Llama 3.2 1B/3B):
- メリット: 必要な計算リソース（GPUメモリ、計算能力）が少なく、推論速度が速い。ローカル環境やエッジデバイスでの実行も比較的容易。
- デメリット: 大規模モデルと比較すると、複雑なタスクや長文生成、高度な推論能力では劣る場合がある。
- 適した用途: シンプルなチャットボット、テキスト分類、簡単な要約、モバイルアプリへの組み込みなど。
中規模モデル (例: Llama 2 70B, Llama 3 70B, Llama 3.3 70B):
- メリット: 高い性能と計算リソースのバランスが良い。多くの実用的なタスクに対応可能。特にLlama 3.3 70Bは、旧世代の最大級モデルに匹敵する性能をより効率的に実現。
- デメリット: 小規模モデルよりは多くの計算リソースが必要。
- 適した用途: 高度なチャットボット、コンテンツ生成、コード生成支援、翻訳、複雑な質問応答など、幅広い用途。
大規模モデル (例: Llama 3.1 405B):
- メリット: 現時点で最高レベルの性能。非常に複雑な推論、専門的な知識、創造的なタスクに対応可能。
- デメリット: 膨大な計算リソースが必要。利用コスト（クラウド利用料など）が高くなる傾向。推論速度が遅くなる場合がある。
- 適した用途: 最先端の研究開発、高度な専門知識が求められるタスク、最高の性能が不可欠なサービス。
マルチモーダルモデル (例: Llama 3.2 11B/90B Vision):
- メリット: テキストだけでなく画像も理解・処理できる。グラフの解釈や画像に関する質問応答などが可能。
- デメリット: テキスト専用モデルより特化した性能が必要な場合がある。
- 適した用途: 画像キャプション生成、ビジュアルQA、図表を含む文書の分析など。

予算、必要な性能、利用環境（クラウドかローカルか）、求める応答速度などを考慮して、最適なモデルサイズを選びましょう。最初は小さめのモデルで試し、必要に応じてスケールアップ/ダウンするのが良いアプローチかもしれません。

利用方法

Llamaモデルを利用するには、いくつかの方法があります。

クラウドプラットフォーム: AWS (Amazon Bedrock, SageMaker), Google Cloud (Vertex AI), Microsoft Azure, Hugging Face, Snowflake など、多くの主要クラウドプロバイダーがLlamaモデルを提供しています。API経由で簡単に利用を開始できます。
ローカル環境: Metaからモデルのウェイトをダウンロードし（要申請・承認）、Hugging Face Transformers などのライブラリを使って自分のマシンやサーバーで実行します。十分なスペックのGPUが必要になりますが、データのプライバシーを完全に制御できます。Llama 3.3 70Bのような比較的高性能で軽量化されたモデルの登場により、ローカル実行のハードルは下がりつつあります。
専用ツール/プラットフォーム: Ollama, LM Studio, GPUSOROBAN, Groq など、Llamaを含むオープンソースLLMを簡単にローカルやクラウドで実行・管理するためのツールやサービスも増えています。

開発者は、Pythonコードを使ってモデルを読み込み、テキスト生成などのタスクを実行できます。以下はHugging Face Transformersを使った簡単な例です（Llama 3 8B Instructの場合）。

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained( model_id, torch_dtype=torch.bfloat16, # or torch.float16 depending on your GPU device_map="auto", # Automatically uses available GPUs
)
messages = [ {"role": "system", "content": "You are a helpful AI assistant."}, {"role": "user", "content": "日本の首都はどこですか？そして、その都市の有名な観光地を3つ教えてください。"},
]
# Note: Llama 3 Instruct models require specific formatting for prompts
# See: https://llama.meta.com/docs/model-cards-and-prompt-formats/meta-llama-3/#special-tokens-used-for-chat-fine-tuning
# This example uses the simplified chat template provided by Transformers >= 4.41
input_ids = tokenizer.apply_chat_template( messages, add_generation_prompt=True, return_tensors="pt"
).to(model.device)
terminators = [ tokenizer.eos_token_id, tokenizer.convert_tokens_to_ids("<|eot_id|>") # End of Turn token for Llama 3
]
outputs = model.generate( input_ids, max_new_tokens=256, eos_token_id=terminators, do_sample=True, temperature=0.6, top_p=0.9,
)
response = outputs[0][input_ids.shape[-1]:]
print(tokenizer.decode(response, skip_special_tokens=True))

（注意: 上記コードを実行するには、Hugging Face HubへのログインとMetaからのモデルアクセス許可が必要です。）

日本語対応について

Llamaシリーズは元々英語を中心に学習されていますが、Llama 3では訓練データの5%以上が30以上の非英語言語で構成されており、多言語対応が進んでいます。Llama 3.1以降ではさらに多言語能力が強化されました。

しかし、最高の日本語性能を求める場合は、日本の企業や研究機関がLlamaをベースに日本語データを追加学習させたモデル（前述のLlama-3-Swallowなど）を利用することも有効な選択肢です。これらのモデルは、特定の日本語タスクにおいてオリジナルのLlamaよりも優れた性能を発揮することがあります。

将来展望：Llamaの進化は止まらない

MetaはLlamaの開発を継続しており、今後もさらなる進化が期待されます。

より大規模なモデル: Llama 3.1で405Bモデルが登場しましたが、将来的にはさらにパラメータ数の多いモデルや、異なるアーキテクチャ（例: Mixture of Experts – MoE）を採用したモデルが登場する可能性があります。
マルチモーダル能力の強化: Llama 3.2で画像認識機能が搭載されましたが、今後は動画や音声など、より多様なモダリティに対応する能力が強化されることが予想されます。
継続的な性能改善: 訓練データ、アルゴリズム、ハードウェアの進化に伴い、推論能力、知識、安全性などが継続的に改善されていくでしょう。
エコシステムの拡大: オープンソース（条件付き）であることの強みを活かし、Llamaをベースとしたツール、アプリケーション、派生モデルがさらに増え、より活発なエコシステムが形成されることが期待されます。

Llamaシリーズは、オープンなLLM開発の可能性を切り拓き、AI技術の民主化に貢献しています。Metaが今後どのようなモデルを発表し、コミュニティがそれをどのように活用していくのか、目が離せません。

まとめ

本記事では、MetaのLlamaシリーズ（初代LLaMA, Llama 2, Llama 3）の特徴、性能、ライセンス、選び方について詳しく解説しました。

ポイントのおさらい:

LLaMA (初代): 小規模でも高性能を目指した研究用モデル（非公開）。
Llama 2: オープンソース化（条件付き商用利用可）され、性能も向上。4Kトークンのコンテキスト長。
Llama 3シリーズ (3, 3.1, 3.2, 3.3): 訓練データ量、性能、コンテキスト長（最大128K）、Tokenizerなどが大幅に改善。最新モデルはプロプライエタリなLLMに匹敵する性能を持つ。マルチモーダル対応や軽量モデルも登場。ライセンスはLlama 2と同様。
選び方: ライセンス条件を確認した上で、必要な性能、計算リソース、予算、用途に応じてモデルサイズ（8B, 70B, 405Bなど）や種類（Instruct, Visionなど）を選ぶ。
利用方法: クラウドAPI、ローカル環境、専用ツールなどがある。

Llamaシリーズの急速な進化は、AI技術、特にLLM分野のダイナミズムを象徴しています。オープンな（条件付き）開発とコミュニティの力によって、今後も驚くようなイノベーションが生まれることでしょう。この記事が、Llamaモデルへの理解を深め、あなたのプロジェクトや研究に最適なモデルを見つける一助となれば幸いです。