> For the complete documentation index, see [llms.txt](https://docs.maiagent.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.maiagent.ai/tech/maiagent-tech-ja/quickstart/tu-xiang-bian-shi-zhi-yuan.md).

# 画像認識サポート

## VLM (Vision Language Model) とは？

視覚言語モデル（Vision Language Model, VLM）は、画像の内容を理解し、画像情報とテキスト情報を組み合わせることができる先進的な人工知能モデルです。従来の画像処理技術とは異なり、VLM は単に画像を「見る」だけでなく、画像内の物体・シーン・関係性を「理解」し、画像の内容に基づいてテキストを生成したり、質問に回答したり、関連する指示を実行したりすることができます。

VLM の中核となる能力は、そのマルチモーダル処理能力、すなわち異なるソース（視覚とテキスト）からの情報を同時に処理・理解する能力にあります。これにより、VLM はより複雑で、より文脈を認識したタスクを実行できます。

## VLM と従来の OCR の比較

従来の光学文字認識（OCR）技術は、画像から文字を検出して抽出することに特化していますが、画像全体の意味や非文字コンテンツを理解する面では限界があります。

| 特性              | 従来の OCR              | VLM (Vision Language Model)        |
| --------------- | -------------------- | ---------------------------------- |
| **主な機能**        | 画像から文字を抽出する          | 画像の内容を理解し、テキスト情報と組み合わせる            |
| **情報処理**        | 単一モーダル（文字ピクセルのみを処理）  | マルチモーダル（画像の視覚情報とテキスト意味を同時に処理）      |
| **理解の層**        | 文字レベルの認識             | シーン理解、物体識別、関係推論、文脈認識               |
| **主なタスク**       | 文書スキャン、文字抽出          | 画像説明文の生成、視覚的質問応答 (VQA)、画像検索、物体検出など |
| **文脈認識**        | 限定的。主に後処理の言語モデルに依存する | 強力。画像全体の状況と細部を理解できる                |
| **非文字コンテンツの処理** | 通常は無視するか処理できない       | 画像内の物体・シーン・動作などを識別し理解できる           |

VLM の利点は次のとおりです。

* **より深い理解**：VLM は文字を読み取るだけでなく、画像の意味的な内容も理解できます。たとえば、物体の識別、シーンの分析、画像内の要素間の関係性の理解などです。
* **インタラクティブ性**：VLM は視覚的質問応答（Visual Question Answering, VQA）を行うことができ、画像の内容に基づいてユーザーの質問に回答します。
* **コンテンツ生成**：VLM は画像に対して説明文（Image Captioning）を生成できます。
* **多機能性**：テキスト関連のタスクに加えて、VLM はより幅広い視覚理解タスクにも応用できます。

## VLM の実際の活用事例

VLM の強力な機能により、さまざまな分野で幅広い応用が見込まれています。

1. **視覚的質問応答 (VQA)**
   * **応用**：ユーザーが画像をアップロードし、その内容について質問します。たとえば「画像の中の人物は何色の服を着ていますか？」や「この写真は室内と屋外のどちらで撮影されましたか？」などです。
   * **シーン**：スマートアシスタント、教育、視覚障がい者支援。
2. **画像説明文の生成 (Image Captioning)**
   * **応用**：画像に対して簡潔で正確な説明文を自動生成します。
   * **シーン**：画像の自動タグ付け、コンテンツ管理システム、ソーシャルメディア向けコンテンツ生成、視覚障がい者の画像理解支援。
3. **コンテンツベースの画像検索**
   * **応用**：自然言語による説明を用いて画像を検索できます。たとえば「オフィスで人が会議をしている画像を探す」などです。
   * **シーン**：大規模な画像ライブラリの管理、Eコマースの商品検索。
4. **マルチモーダルデータ分析**
   * **応用**：医用画像とカルテのテキストを組み合わせて医師の診断を支援する、商品画像とユーザーレビューを分析して市場トレンドを予測する、などです。
   * **シーン**：医療、小売、金融。
5. **人間とのインタラクション**
   * **応用**：ロボットや仮想アシスタントが視覚的な環境を理解し、それに基づいて人間とより自然にインタラクションできるようにします。
   * **シーン**：スマートロボット、自動運転車（交通標識や路面状況の理解）。

## MaiAgent 画像認識の優位性

MaiAgent RAG は VLM 技術を統合し、技術者や開発者に対して便利で効率的な画像認識・理解ソリューションを提供します。以下の優位性を備えています。

### 添付画像の VLM 認識（画像理解と質問応答）

MaiAgent RAG は、ユーザーがアップロードした添付画像に対して VLM 認識を行い、画像内容を精密に理解します。

### 添付文書に埋め込まれた画像の VLM 認識

MaiAgent RAG は、添付文書（PDF、Word文書など）内部に埋め込まれた画像の VLM 認識機能を積極的に開発しています。これにより、システムは文書内の文字を理解するだけでなく、画像の内容も解析でき、真の意味でのマルチモーダル文書理解を実現します。これは多くの標準的な RAG システムには備わっていない高度な機能です。

### 添付文書内の画像コンテンツに対する質問応答

添付画像であっても、文書に埋め込まれた画像であっても、MaiAgent RAG は画像内容に基づく質問応答をサポートします。ユーザーは画像の細部について直接質問でき、精密な回答を得られます。

### ナレッジベース文書内の画像コンテンツに対する質問応答

MaiAgent RAG はナレッジベース文書内の画像に対する質問応答をサポートしています（ロール指示の Prompt で、画像を Markdown 形式で表示するよう指定する必要があります）。

### ナレッジベース文書内の画像を VLM 認識した後の質問応答

MaiAgent は、ナレッジベース文書内の画像をまず VLM 認識し、その認識結果と組み合わせて深い質問応答を行う実験版機能を提供します。これにより、画像情報とナレッジベースの連携がさらに進み、より包括的なナレッジサービスを提供します。

MaiAgent の VLM 技術を活用することで、画像情報の価値をより深く掘り起こし、よりスマートな人間とのインタラクションと自動化フローを実現できます。


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.maiagent.ai/tech/maiagent-tech-ja/quickstart/tu-xiang-bian-shi-zhi-yuan.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
