> For the complete documentation index, see [llms.txt](https://docs.maiagent.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.maiagent.ai/tech/quickstart/tu-xiang-bian-shi-zhi-yuan.md).

# 圖像辨識支援

## 什麼是 VLM (Vision Language Model)？

視覺語言模型（Vision Language Model, VLM）是一種先進的人工智慧模型，它能夠理解圖像內容並將圖像資訊與文字資訊相結合。不同於傳統的圖像處理技術，VLM 不僅僅是「看見」圖像，更能「理解」圖像中的物件、場景、關係，並能根據圖像內容進行文字生成、回答問題或執行相關指令。

VLM 的核心能力在於其多模態處理能力，即同時處理和理解來自不同來源（視覺和文字）的資訊。這使得 VLM 能夠執行更複雜和更具上下文感知能力的任務。

## VLM 與傳統 OCR 的比較

傳統的光學字元辨識（OCR）技術專注於從圖像中偵測並提取文字，但在理解圖像的整體語義和非文字內容方面存在局限性。

| 特性          | 傳統 OCR           | VLM (Vision Language Model)  |
| ----------- | ---------------- | ---------------------------- |
| **主要功能**    | 從圖像中提取文字         | 理解圖像內容，並將其與文字資訊結合            |
| **資訊處理**    | 單模態 (僅處理文字像素)    | 多模態 (同時處理圖像視覺資訊和文字語義)        |
| **理解層次**    | 字元級辨識            | 場景理解、物件識別、關係推斷、上下文感知         |
| **主要任務**    | 文件掃描、文字擷取        | 圖像描述生成、視覺問答 (VQA)、圖像檢索、物件偵測等 |
| **上下文感知**   | 有限，主要依賴後處理中的語言模型 | 強，能理解圖像的整體情境和細節              |
| **處理非文字內容** | 通常忽略或無法處理        | 能夠識別和理解圖像中的物件、場景、動作等         |

VLM 的優勢在於：

* **更深層次的理解**：VLM 不僅讀取文字，還能理解圖像的語義內容，例如辨識物件、分析場景、理解圖像中元素之間的關係。
* **互動性**：VLM 可以進行視覺問答（Visual Question Answering, VQA），即根據圖像內容回答用戶提出的問題。
* **內容生成**：VLM 可以為圖像生成描述性文字（Image Captioning）。
* **多功能性**：除了文字相關任務，VLM 還能應用於更廣泛的視覺理解任務。

## VLM 實際應用案例

VLM 的強大功能使其在多個領域都有廣泛的應用前景：

1. **視覺問答 (VQA)**
   * **應用**：用戶上傳一張圖片，並提問關於圖片內容的問題，例如「圖片中的人穿著什麼顏色的衣服？」或「這張照片是在室內還是室外拍攝的？」。
   * **場景**：智慧助理、教育、視障輔助。
2. **圖像描述生成 (Image Captioning)**
   * **應用**：自動為圖片生成簡潔、準確的文字描述。
   * **場景**：自動化圖片標註、內容管理系統、社交媒體內容生成、輔助視障人士理解圖片。
3. **內容導向的圖像檢索**
   * **應用**：允許用戶使用自然語言描述來搜索圖片，例如「查找辦公室裡有人在開會的圖片」。
   * **場景**：大型圖片庫管理、電子商務產品搜索。
4. **多模態資料分析**
   * **應用**：結合醫學影像和病歷文字，輔助醫生進行診斷；分析產品圖片和用戶評論，進行市場趨勢預測。
   * **場景**：醫療、零售、金融。
5. **人機互動**
   * **應用**：讓機器人或虛擬助理能夠理解其視覺環境，並據此與人進行更自然的互動。
   * **場景**：智慧機器人、自動駕駛汽車（理解交通標誌和路況）。

## MaiAgent 圖像辨識的優勢

MaiAgent RAG 整合 VLM 技術，為技術人員和開發者提供了便捷高效的圖像辨識與理解解決方案，具備以下優勢：

### 附件圖片 VLM 辨識（圖像理解與問答）

MaiAgent RAG 能夠對用戶上傳的附件圖片進行 VLM 辨識，提供精準的圖像內容理解

### 附件文件內嵌圖片的 VLM 辨識

MaiAgent RAG 正在積極開發對附件文件（如 PDF、Word文檔）內部嵌入圖片的 VLM 辨識功能。這意味著系統不僅能理解文檔中的文字，更能解析圖片內容，實現真正的多模態文檔理解。這是許多標準 RAG 系統所不具備的進階功能。

### 附件文件圖片的內容問答

無論是附件圖片，還是文檔中嵌入的圖片，MaiAgent RAG 均能支援基於圖片內容的問答，用戶可以直接針對圖像細節提問，獲得精準的回答。

### 知識庫文件圖片的內容問答

MaiAgent RAG 支援知識庫文件中的圖片問答（需要在角色指令下 Prompt，以 Markdown 格式顯示圖片）

### 知識庫文件內的圖片 VLM 辨識後問答

MaiAgent 推出對知識庫文件內的圖片先進行 VLM 辨識，再結合辨識結果進行深度問答的實驗版功能。這將進一步打通圖像資訊與知識庫的連接，提供更全面的知識服務。

透過 MaiAgent 的 VLM 技術，您可以更深入地挖掘圖像資訊的價值，實現更智慧化的人機互動和自動化流程。


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.maiagent.ai/tech/quickstart/tu-xiang-bian-shi-zhi-yuan.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.