> For the complete documentation index, see [llms.txt](https://docs.maiagent.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.maiagent.ai/tech/maiagent-tech-ja/quickstart/llm.md).

# 大規模言語モデル（LLM）

## **選択時の重要ポイント**

大規模言語モデルを選択する際は、以下のいくつかの重要な要素を考慮してください。

1. **環境（Environment）**：利用環境がインターネットに接続できるかどうかによって、クラウドモデルかオンプレミスモデルかを判断します。
2. **品質（Quality）**：モデルが回答結果を生成する能力と、指示への忠実さです。
3. **速度（Speed）**：テキスト生成の速度およびレイテンシに対する要件で、モデルの応答速度を確保します。
4. **価格（Pricing）**：モデルの利用コストを考慮し、利用ニーズに応じて適切なモデルを選択します。（MaiAgent ではモデルの価格を考慮する必要はありません）
5. **その他**：マルチモーダルに対応しているか、Function calling に対応しているかです。

<figure><img src="/files/DsK2WSRawsfRjBfzkeeX" alt=""><figcaption><p>大規模言語モデル分析 - <a href="https://artificialanalysis.ai/">Artificial Analysis</a></p></figcaption></figure>

***

## MaiAgent で対応している大規模言語モデル

### クローズドソースモデル

<table><thead><tr><th>モデル名</th><th>説明</th><th width="125.28125">推論モデルかどうか</th><th>利用シーン</th></tr></thead><tbody><tr><td>o4-mini</td><td>o3-mini-high より速度が速く、品質は o3-mini-high にやや劣ります</td><td>はい</td><td>高品質かつ高速を重視する選択肢</td></tr><tr><td>o3-mini-high</td><td>品質が高く、速度は中程度で、回答前に思考の連鎖（Chain of Thought）モードで多層的な思考演算を行い、より完全で精緻な回答を提供します</td><td>はい</td><td>難易度が高く、深い推論や創造力を要求するタスク</td></tr><tr><td>o3-mini-medium</td><td>速度が速く、品質は中程度です</td><td>はい</td><td>大部分のビジネス用途、シンプルな創作や一般的な質疑応答</td></tr><tr><td>o3-mini-low</td><td><mark style="color:red;"><strong>速度が最も速く</strong></mark>、品質は基本的で、深い推論には欠けます</td><td>はい</td><td>スピードを求め、生成の深さを求めないシンプルなタスクに適しています</td></tr><tr><td>o1-mini 2024-09-12</td><td>o1 系列の大規模言語モデルは強化学習によって訓練され、複雑な推論を実行します。o1 モデルは回答前にまず思考し、ユーザーに応答する前に非常に長い内的な思考の連鎖を生成します。速度は最も遅く、<mark style="color:red;"><strong>品質は優れています</strong></mark>。</td><td>はい</td><td>非常に難しい問題で、他の LLM ではどうにもならないとき</td></tr><tr><td>GPT-4o 2024-08-06</td><td>品質、速度ともに平均的に高いです</td><td>いいえ</td><td>指示への忠実さと論理能力は Claude 3.5 Sonnet にやや劣りますが、速度は Claude 3.5 Sonnet より速いです。よく使われる選択肢です👍</td></tr><tr><td>GPT-4o mini 2024-07-18</td><td>速度が速く、品質は中程度です。品質は Gemini 2.0 Flash よりやや低いです</td><td>いいえ</td><td>シンプルなタスク、Gemini 2.0 Flash を選択できない場合の代替品</td></tr><tr><td>Claude 4 Sonnet</td><td>速度はやや遅めで、<mark style="color:red;">構造化データの生成／抽出能力が高く</mark>、さらに<mark style="color:red;">ツール呼び出し（Tool Calling）</mark>が特に得意です。論理推論とコーディングの性能は Claude 3.7 Sonnet を上回り、ハルシネーション率はさらに低下しています。</td><td>ハイブリッド推論モデル</td><td>Agent モードの第一候補👍 高難度のタスク、専門領域での応用、超長文の対話に適しています。</td></tr><tr><td>Claude 3.7 Sonnet</td><td>速度はやや遅めで、<mark style="color:red;"><strong>構造化（Structured）データの生成が得意</strong></mark>で、Claude 3.5 Sonnet より強い論理推論能力を備えています。<mark style="color:red;"><strong>ハルシネーションの発生率が低い</strong></mark>です</td><td>ハイブリッド推論モデル</td><td>大部分のケースで第一候補👍 複雑度の高いタスク、専門領域、長文対話の用途に適しています</td></tr><tr><td>Claude 3.5 Sonnet</td><td>役割指示に忠実で、論理推論能力は Claude 3.7 Sonnet に比べて弱いものの、<mark style="color:red;"><strong>速度は比較的速い</strong></mark>です。<mark style="color:red;"><strong>ハルシネーションの発生率が低い</strong></mark>です</td><td>いいえ</td><td>速度が遅いと感じた場合は Gemini 2.0 Flash に切り替えられます</td></tr><tr><td>Gemini 2.5 Pro</td><td>長文の対話やプログラム生成のケースでは品質が Claude 3.7 Sonnet より優れていますが、Agent モードやツール呼び出しでの性能はやや劣ります</td><td>いいえ</td><td>Claude 3.7 Sonnet と併用できます</td></tr><tr><td>Gemini 2.0 Pro</td><td>Claude 3.5 Sonnet と比べて品質は同程度ですが、速度は遅めです</td><td>いいえ</td><td>Claude 3.5 Sonnet の代替品</td></tr><tr><td>Gemini 2.5 Flash</td><td><mark style="color:red;"><strong>速度が速く</strong></mark>、マルチモーダル能力が優れています</td><td>いいえ</td><td></td></tr><tr><td>Gemini 2.0 Flash</td><td><mark style="color:red;"><strong>速度が速く</strong></mark>、品質は中程度です</td><td>いいえ</td><td>シンプルなタスクの第一候補👍</td></tr><tr><td>DeepSeek V3</td><td>速度が速く、品質が高いです</td><td>はい</td><td>文書検索、大規模データベースのクエリを行うタスクに適しています</td></tr><tr><td>DeepSeek R1 Distill Llama 70B</td><td>回答品質が高く、速度は中程度です（DeepSeek V3 より遅い）</td><td>はい</td><td>多段階の推論と背景知識を必要とするタスクに適しています</td></tr><tr><td>DeepSeek R1</td><td>回答速度はやや遅めですが、<mark style="color:red;"><strong>中国語に対する理解力が非常に高く</strong></mark>、<mark style="color:red;"><strong>回答内容の品質が高い</strong></mark>です。深く思考し、役割指示の内容に確実に沿って調整します</td><td>はい</td><td>複雑な複数ターンの中国語対話が必要なシーンや、複雑な役割指示を処理する場合に適しています👍</td></tr></tbody></table>

### オープンソースモデル

以下は主流のオープンソースモデルの比較表です。オープンソースモデルに必要なハードウェアは [GPU](/tech/maiagent-tech-ja/platform-development/gpu.md) の章を参照してください。

| **モデル名**                | **説明**                                        | **Agent 対応** | **利用シーン**                     |
| ----------------------- | --------------------------------------------- | ------------ | ----------------------------- |
| GPT-OSS-120B            | 表形式で情報を整理して回答するのが得意                           | はい           | データ分析、コピー制作                   |
| Gemma3 27B              | 画像 OCR の効果が良い                                 | いいえ          | 請求書認識、画像分析                    |
| Meta Llama3.3 70B       | コストパフォーマンスが極めて高い汎用モデルで、指示への忠実さが高い             | いいえ          | 音声カスタマーサポート、RAG 質疑応答アシスタント    |
| Meta Llama3.2 90B       | 視覚能力を備え、画像とテキストを同時に処理できる                      | いいえ          | 専門領域の質疑応答、高精度タスク              |
| Meta Llama3.1 405B      | 知識の幅広さと推論能力が極めて高い                             | はい           | カスタマーサポートの質疑応答、ナレッジ質疑応答       |
| Llama3 Taiwan 70B       | 繁体字中国語と台湾文化に向けてファインチューニングされ、ローカライズされた用語が的確    | いいえ          | カスタマーサポートの質疑応答、RAG 質疑応答アシスタント |
| DeepSeek R1             | 推論を強化したモデルで、思考の連鎖を通じて複雑な問題を解決するのが得意           | いいえ          | 科学的な論理推論                      |
| DeepSeek V3.2           | MoE アーキテクチャで、推論速度が速くコストが極めて低い                 | いいえ          | 大量テキストの要約                     |
| Qwen3 235B              | プログラムコードと数学に特化し、極めて深い論理理解力を持ち、ハードコアなタスクに適している | はい           | 学術論文の補助                       |
| Qwen3 32B               | 高品質な回答と高効率な処理の間で動的にバランスを取る                    | はい           | 多言語対話と指示への忠実さ                 |
| Qwen3 8B                | 品質は中程度で、性能とコストのバランスが取れている                     | はい           | チャットアシスタント、カスタマーサポートのよくある質疑応答 |
| Qwen2.5 VL 72B instruct | 視覚言語モデルで、画像の細部を的確に識別できる                       | はい           | マルチモーダルチャットアシスタント             |
| Mistral Large (24.07)   | 品質は中程度で、深い推論能力には欠けるが、速度が速い                    | いいえ          | カスタマーサポートの質疑応答、シンプルなテキスト生成    |

## モデルは必ず Fine-tune が必要ですか？

人工知能技術の急速な発展に伴い、言語モデルはすでに強力な言語理解および生成能力を備え、多くの領域で広く応用されています。例えば、事前学習済みの言語モデルは、日常会話、文章生成、シンプルな質疑応答タスクに容易に対応できます。

しかし、医療、法律、技術サポートなど、より挑戦的な専門領域のタスクにモデルが直面する場合、事前学習済みモデルだけに頼っていては最適な性能を提供できないことがあります。一部の開発者は **Fine-tuning**、すなわち特定の領域に向けて追加の訓練を行い、モデルの専門知識を高めることを選択します。

しかし、Fine-tuning は唯一の解決策ではなく、この目標を達成するための有効な方法は他にも 2 つあります。**Prompt Engineering** と **RAG（Retrieval-Augmented Generation）** です。

### 1. Prompt Engineering：精確なプロンプトによるモデル性能の最適化

Prompt Engineering とは、精確なプロンプト文を設計してモデルが求める結果を生成するよう導くことです。この方法の核心は、タスクのニーズに応じて詳細な表現方法を設計し、モデルが回答の範囲を絞り込み、文脈と求められる出力形式を理解できるよう助けることにあります。

ある言語モデルがあり、ユーザーのニーズに応じて適切な製品を推薦することを目的としているとします。この場合、「高性能なスマートフォンを買いたい」と表現すると、モデルが十分に精確でない回答を生成してしまう可能性があります。なぜなら「高性能」という言葉には、処理速度、カメラ性能、バッテリー寿命など、さまざまな解釈があり得るからです。

推薦の精度を高めるために、**Prompt Engineering** を行い、より具体的な質問を設計したり、追加の文脈を提供したりして、ユーザーのニーズをモデルがより的確に理解できるよう導くことができます。例えば、以下のようなプロンプト文に変更します。

> 「**長時間のバッテリー駆動**と**高効率なプロセッサ**を備え、価格が **500 ドルから 800 ドル**の間のスマートフォンが必要です。条件に合うスマートフォンをいくつか推薦してください。」

### 2. RAG：外部知識を組み合わせて生成能力を向上

**RAG** は、外部知識の検索と生成プロセスを組み合わせることで、モデルの性能を向上させる手法です。

従来の生成タスクでは、モデルは事前学習時に学んだ知識のみに頼っていました。一方 RAG は検索システムを活用し、外部資料をリアルタイムで取得して、それらの資料を生成モデルと組み合わせることで、より正確に質問に答えたりテキストを生成したりします。

例を挙げると、医療領域においてモデルがある稀少疾患について質問された場合、RAG はまず専門の医学データベースから関連資料を検索し、それらの資料に基づいてより正確な回答を生成できます。この方法の利点は、モデル自体が訓練過程で見たことのない資料であっても、既存の知識を検索することで高品質な応答を行える点にあります。特に、知識をリアルタイムで更新する必要があるシーンに適しており、モデルの知識範囲を大幅に拡張できます。

{% hint style="success" %}
RAG のより詳しい紹介については、次章の [「RAG ナレッジベース検索システムの説明」](/tech/maiagent-tech-ja/quickstart/rag.md) で行います。
{% endhint %}

まとめると、Fine-tuning、Prompt Engineering、RAG にはそれぞれ長所と適用範囲があり、単一の Fine-tuning 手法だけに頼るのではなく、応用シーンやニーズに応じて最も適した戦略を選択できます。

**Prompt Engineering** は、低コストで柔軟な解決策を提供し、精確なプロンプト文を設計することでモデルが高品質な結果を生成するよう導きます。

**RAG** は、外部知識と生成能力を組み合わせる手法を提供し、知識を動的に取得する必要がある場合に、より精確な回答を提供できます。

**Fine-tuning** はモデルの特定領域での性能を大幅に向上させることができますが、大量の専門資料を必要とし、追加のリソースを消費します。**Prompt Engineering** と **RAG** の両方でうまくいかなかった場合に実行する最後の手段と考えることができます。


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.maiagent.ai/tech/maiagent-tech-ja/quickstart/llm.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
モデル名	説明	推論モデルかどうか	利用シーン
o4-mini	o3-mini-high より速度が速く、品質は o3-mini-high にやや劣ります	はい	高品質かつ高速を重視する選択肢
o3-mini-high	品質が高く、速度は中程度で、回答前に思考の連鎖（Chain of Thought）モードで多層的な思考演算を行い、より完全で精緻な回答を提供します	はい	難易度が高く、深い推論や創造力を要求するタスク
o3-mini-medium	速度が速く、品質は中程度です	はい	大部分のビジネス用途、シンプルな創作や一般的な質疑応答
o3-mini-low	速度が最も速く、品質は基本的で、深い推論には欠けます	はい	スピードを求め、生成の深さを求めないシンプルなタスクに適しています
o1-mini 2024-09-12	o1 系列の大規模言語モデルは強化学習によって訓練され、複雑な推論を実行します。o1 モデルは回答前にまず思考し、ユーザーに応答する前に非常に長い内的な思考の連鎖を生成します。速度は最も遅く、品質は優れています。	はい	非常に難しい問題で、他の LLM ではどうにもならないとき
GPT-4o 2024-08-06	品質、速度ともに平均的に高いです	いいえ	指示への忠実さと論理能力は Claude 3.5 Sonnet にやや劣りますが、速度は Claude 3.5 Sonnet より速いです。よく使われる選択肢です👍
GPT-4o mini 2024-07-18	速度が速く、品質は中程度です。品質は Gemini 2.0 Flash よりやや低いです	いいえ	シンプルなタスク、Gemini 2.0 Flash を選択できない場合の代替品
Claude 4 Sonnet	速度はやや遅めで、構造化データの生成／抽出能力が高く、さらにツール呼び出し（Tool Calling）が特に得意です。論理推論とコーディングの性能は Claude 3.7 Sonnet を上回り、ハルシネーション率はさらに低下しています。	ハイブリッド推論モデル	Agent モードの第一候補👍 高難度のタスク、専門領域での応用、超長文の対話に適しています。
Claude 3.7 Sonnet	速度はやや遅めで、構造化（Structured）データの生成が得意で、Claude 3.5 Sonnet より強い論理推論能力を備えています。ハルシネーションの発生率が低いです	ハイブリッド推論モデル	大部分のケースで第一候補👍 複雑度の高いタスク、専門領域、長文対話の用途に適しています
Claude 3.5 Sonnet	役割指示に忠実で、論理推論能力は Claude 3.7 Sonnet に比べて弱いものの、速度は比較的速いです。ハルシネーションの発生率が低いです	いいえ	速度が遅いと感じた場合は Gemini 2.0 Flash に切り替えられます
Gemini 2.5 Pro	長文の対話やプログラム生成のケースでは品質が Claude 3.7 Sonnet より優れていますが、Agent モードやツール呼び出しでの性能はやや劣ります	いいえ	Claude 3.7 Sonnet と併用できます
Gemini 2.0 Pro	Claude 3.5 Sonnet と比べて品質は同程度ですが、速度は遅めです	いいえ	Claude 3.5 Sonnet の代替品
Gemini 2.5 Flash	速度が速く、マルチモーダル能力が優れています	いいえ
Gemini 2.0 Flash	速度が速く、品質は中程度です	いいえ	シンプルなタスクの第一候補👍
DeepSeek V3	速度が速く、品質が高いです	はい	文書検索、大規模データベースのクエリを行うタスクに適しています
DeepSeek R1 Distill Llama 70B	回答品質が高く、速度は中程度です（DeepSeek V3 より遅い）	はい	多段階の推論と背景知識を必要とするタスクに適しています
DeepSeek R1	回答速度はやや遅めですが、中国語に対する理解力が非常に高く、回答内容の品質が高いです。深く思考し、役割指示の内容に確実に沿って調整します	はい	複雑な複数ターンの中国語対話が必要なシーンや、複雑な役割指示を処理する場合に適しています👍