# 回覆評估與監測結果

最後更新：2025-11-14

## 概述

MaiAgent 使用 Deepeval 框架進行回覆評估，目前已升級至 **Deepeval 3.7.0** 版本，提供更強大的評估能力和更彈性的配置選項。

## 版本更新說明

### Deepeval 3.7.0 新功能

MaiAgent 平台已升級至 Deepeval 3.7.0，帶來以下重要改進：

#### 1. 可配置的評估 LLM

在新版本中，您可以自訂用於評估的大型語言模型（LLM）：

* **彈性選擇**：不再限定使用特定的 LLM 進行評估
* **成本優化**：可以選擇較經濟的模型進行評估，降低運營成本
* **效能調整**：根據評估需求選擇適合的模型速度和準確度平衡

**配置範例：**

```python
# 在評估設定中指定使用的 LLM
evaluation_config = {
    "evaluation_model": "gpt-4",  # 或其他支援的模型
    "temperature": 0.0,
    "max_tokens": 1000
}
```

#### 2. 彈性處理空白 Ground Truth

新版本改進了對空白或缺失正確答案（Ground Truth）的處理：

* **自動適應**：當測試案例沒有提供正確答案時，系統會自動調整評估策略
* **部分評估**：即使缺少完整的 Ground Truth，仍可進行其他維度的評估
* **友善提示**：清楚告知哪些評估指標因缺少 Ground Truth 而無法計算

**適用情境：**

* 探索性測試階段，尚未定義標準答案
* 開放式問答場景，沒有單一正確答案
* 快速驗證 AI 助理的基本回答能力

#### 3. 平行處理提升評估效能

Deepeval 3.7.0 引入平行處理機制，大幅提升評估速度：

* **批次評估**：多個測試案例可同時進行評估
* **效能提升**：相較於舊版本，評估速度提升 2-3 倍
* **資源最佳化**：更有效利用運算資源

**效能比較：**

| 測試案例數 | 舊版本耗時  | 新版本耗時  | 效能提升 |
| ----- | ------ | ------ | ---- |
| 10 個  | 45 秒   | 18 秒   | 2.5x |
| 50 個  | 3.5 分鐘 | 1.5 分鐘 | 2.3x |
| 100 個 | 7 分鐘   | 3 分鐘   | 2.3x |

### 升級建議

如果您正在使用舊版本的評估功能，建議考慮以下升級策略：

1. **審查現有評估設定**：確認目前使用的評估參數
2. **測試新配置選項**：嘗試使用新的 LLM 配置功能
3. **優化測試案例**：利用彈性 Ground Truth 處理，擴充測試覆蓋範圍
4. **監控效能改善**：觀察平行處理帶來的速度提升

## 查看回覆評估結果

回覆評估功能位於 **AgentOps** 模組，提供兩種查看方式：

### 即時監控

AgentOps → AI 助理監控

即時計算每次對話的評分，用於監控線上 AI 助理的回覆品質。

### 自動化測試

AgentOps → 自動化測試

使用測試集批次執行評估，產生完整報告與改善建議，適合版本發布前的品質驗證。

## 評分指標

MaiAgent 平台提供回覆評估功能，針對每次問答留下紀錄與自動算分，分數包含

<table><thead><tr><th>指標</th><th>描述</th><th>影響原因</th><th>問題</th><th>回覆</th><th width="118">檢索上下文</th><th>正確答案</th></tr></thead><tbody><tr><td>誠實性評分（Faithfulness）</td><td>LLM 是否有如實的回答，而非自行捏造答案回答</td><td>LLM、RAG、知識庫</td><td></td><td>✅</td><td>✅</td><td></td></tr><tr><td>回答相關性評分（Answer Relevancy）</td><td>LLM 是否切中要點的回答，是否不完整或包含冗餘文字</td><td>LLM、RAG、知識庫</td><td>✅</td><td>✅</td><td></td><td></td></tr><tr><td>上下文精準度評分（Context Precision）</td><td>RAG 檢索的內容是否跟問題相關</td><td>RAG、知識庫</td><td>✅</td><td></td><td>✅</td><td></td></tr><tr><td>上下文相關性評分（Contextual Relevancy）</td><td>檢索內容與問題的整體相關程度</td><td>RAG、知識庫</td><td>✅</td><td></td><td>✅</td><td></td></tr><tr><td>上下文召回率評分（Context Recall）</td><td>RAG 檢索的內容與正確答案相比，是否都有檢索出資料</td><td>RAG、知識庫</td><td></td><td></td><td>✅</td><td>✅</td></tr><tr><td>回答正確性評分（Answer Correctness）</td><td>回覆與正確答案的正確性</td><td>LLM、RAG、知識庫</td><td></td><td>✅</td><td></td><td>✅</td></tr><tr><td>回答相似度評分（Answer Similarity）</td><td>回覆與正確答案的語意相似度</td><td>LLM、RAG、知識庫</td><td></td><td>✅</td><td></td><td>✅</td></tr><tr><td>偏見檢測（Bias）</td><td>檢測回答是否包含性別、種族、宗教等偏見</td><td>LLM</td><td></td><td>✅</td><td></td><td></td></tr><tr><td>毒性檢測（Toxicity）</td><td>檢測回答是否包含有害、冒犯性內容</td><td>LLM</td><td></td><td>✅</td><td></td><td></td></tr><tr><td>幻覺檢測（Hallucination）</td><td>檢測回答是否包含與上下文不符的虛構資訊</td><td>LLM、RAG</td><td></td><td>✅</td><td>✅</td><td></td></tr></tbody></table>

<figure><img src="/files/VRAXDF3ju5a729tpUudc" alt=""><figcaption><p>回覆評估指標關係圖</p></figcaption></figure>

### 誠實性評分（Faithfulness）與幻覺檢測（Hallucination）的差異

這兩個指標經常被混淆，但它們的評估角度不同：

* **Faithfulness**：衡量回答中有「多少比例」的內容是基於檢索上下文，是**正向指標**（分數越高越好）
* **Hallucination**：檢測回答中是否「存在」與上下文矛盾或無法驗證的內容，是**負向指標**（分數越低越好）

| 面向   | Faithfulness  | Hallucination |
| ---- | ------------- | ------------- |
| 衡量方向 | 正向（越高越好）      | 負向（越低越好）      |
| 評估問題 | 回答有多少是基於來源？   | 回答有沒有捏造內容？    |
| 計算方式 | 可驗證陳述數 ÷ 總陳述數 | 檢測是否存在虛構資訊    |

**範例**

> **檢索上下文**：「台北 101 的高度為 508 公尺，於 2004 年完工」
>
> **回答**：「台北 101 高度為 508 公尺，於 2004 年完工，曾是世界最高建築」

* **Faithfulness 分數偏低**：因為只有 2/3 的內容有依據
* **Hallucination 分數偏高**：因為「曾是世界最高建築」在上下文中沒有提及，被視為幻覺內容

簡言之，Faithfulness 關注「忠於來源的程度」，Hallucination 關注「是否有捏造」。兩者相關但不相同：Faithfulness 低不一定有幻覺，但有幻覺一定會導致 Faithfulness 下降。

## 功能支援對照

| 指標                             | 即時監控 | 自動化測試 |
| ------------------------------ | :--: | :---: |
| 誠實性評分（Faithfulness）            |   ✅  |   ✅   |
| 回答相關性評分（Answer Relevancy）      |   ✅  |   ✅   |
| 上下文精準度評分（Context Precision）    |   ✅  |   ✅   |
| 上下文相關性評分（Contextual Relevancy） |      |   ✅   |
| 上下文召回率評分（Context Recall）       |  ⚠️  |   ✅   |
| 回答正確性評分（Answer Correctness）    |  ⚠️  |       |
| 回答相似度評分（Answer Similarity）     |  ⚠️  |       |
| 偏見檢測（Bias）                     |      |   ✅   |
| 毒性檢測（Toxicity）                 |      |   ✅   |
| 幻覺檢測（Hallucination）            |      |   ✅   |

> ⚠️ 即將提供

## 分數意義

* 0.5：以下通常被認為需要改進
* 0.6-0.7：是可接受的範圍
* 0.8：以上被認為是良好表現
* 0.9：以上是優秀表現

## 分數偏低的原因釐清與解決方法

* LLM 能力問題，無法根據參考資料回答問題
  * 解決方法：更換能力更強的 LLM，或使用新版本可配置的評估 LLM 功能
* RAG 檢索能力，是否有找到與問題相關的資料
  * 解決方法：聯繫 MaiAgent 官方
* 知識庫的資料提供是否充足
  * 解決方法：補充正確的知識庫資料與 FAQ 常見問題

## 最佳實踐

### 使用彈性 Ground Truth

在沒有標準答案的情況下，您仍然可以：

1. 先進行基礎評估（不需要 Ground Truth 的指標）
2. 觀察 AI 助理的回答模式
3. 根據實際表現逐步建立評估標準
4. 補充 Ground Truth 進行完整評估

### 善用平行處理

為了獲得最佳評估效能：

* 建議一次評估多個測試案例（10 個以上）
* 避免過於頻繁的小批次評估
* 考慮在非尖峰時段進行大量評估

## 技術資源

* [Deepeval 官方文檔](https://docs.confident-ai.com/)
* [Deepeval 3.7.0 更新日誌](https://github.com/confident-ai/deepeval/releases/tag/v3.7.0)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.maiagent.ai/tech/ai-agents/evaluation.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
