Parser 解析工具

什麼是 RAG Parser?

RAG Parser 是 Retrieval-Augmented Generation (RAG) 系統中的關鍵步驟,負責解析與拆解原始資料,作為 Embedding 向量化處理的前置步驟,為後續的向量化與語意檢索提供基礎,對整體資料品質與檢索效果有決定性影響。

RAG 流程

一、文件解析類 Parser

MaiAgent 提供四種文件解析器,適用於 PDF、Word、Excel、圖片等多種文檔格式:

功能特性
MaiAgent Parser(預設)
MaiAgent Parser(Online)
MaiAgent Parser(Offline)
Vision Parser

價格成本

圖片內容解析效果

無法解析圖片中的文字

僅 OCR 可解析圖片中的文字

OCR + AI 理解圖片語意

AI 視覺理解,效果最佳

使用 LLM

文字解析效果

標準

好(結構保留佳)

表格解析

原生提取

AI 智慧提取圖片裡面的文字

原生結構保留(最佳),除了視覺理解外還包含圖片的靜態資源

AI 視覺辨識將圖片產生視覺理解後的文字內容

解析時間

落地(無網路)

可以

不行

可以,但需部署 VLM

不行

支援格式數

22 種

20 種

20 種(僅 PDF 支援 OCR)

7 種


二、語音轉文字類 Parser

MaiAgent 提供四種語音轉文字解析器,可將音訊檔案轉錄為文字後納入知識庫:

功能特性
Azure Speech
Whisper(Groq)
Whisper(OpenAI)
Whisper(Offline)

價格成本

免費

轉錄準確度

高(large-v3)

高(whisper-1)

高(視本地模型)

使用 LLM

解析速度

即時

最快

視硬體而定

落地(無網路)

不行

不行

不行

可以

多語言支援

是(自動偵測)

是(自動偵測)

是(自動偵測)

自訂提示詞

VAD 語音偵測

資料隱私

雲端(Azure)

雲端(Groq)

雲端(OpenAI)

完全本地

音訊檔案上傳至知識庫後,系統會自動進行語音轉文字解析,並提供逐字稿檢視與下載功能:

逐字稿檢視:顯示時間戳與對應文字內容
下載逐字稿:支援 TXT(純文字)與 SRT(字幕格式)兩種格式

Last updated

Was this helpful?