# 回覆評估與監測結果

最後更新：2025-11-14

## 概述

MaiAgent 使用 Deepeval 框架進行回覆評估，目前已升級至 **Deepeval 3.7.0** 版本，提供更強大的評估能力和更彈性的配置選項。

## 版本更新說明

### Deepeval 3.7.0 新功能

MaiAgent 平台已升級至 Deepeval 3.7.0，帶來以下重要改進：

#### 1. 可配置的評估 LLM

在新版本中，您可以自訂用於評估的大型語言模型（LLM）：

* **彈性選擇**：不再限定使用特定的 LLM 進行評估
* **成本優化**：可以選擇較經濟的模型進行評估，降低運營成本
* **效能調整**：根據評估需求選擇適合的模型速度和準確度平衡

**配置範例：**

```python
# 在評估設定中指定使用的 LLM
evaluation_config = {
    "evaluation_model": "gpt-4",  # 或其他支援的模型
    "temperature": 0.0,
    "max_tokens": 1000
}
```

#### 2. 彈性處理空白 Ground Truth

新版本改進了對空白或缺失正確答案（Ground Truth）的處理：

* **自動適應**：當測試案例沒有提供正確答案時，系統會自動調整評估策略
* **部分評估**：即使缺少完整的 Ground Truth，仍可進行其他維度的評估
* **友善提示**：清楚告知哪些評估指標因缺少 Ground Truth 而無法計算

**適用情境：**

* 探索性測試階段，尚未定義標準答案
* 開放式問答場景，沒有單一正確答案
* 快速驗證 AI 助理的基本回答能力

#### 3. 平行處理提升評估效能

Deepeval 3.7.0 引入平行處理機制，大幅提升評估速度：

* **批次評估**：多個測試案例可同時進行評估
* **效能提升**：相較於舊版本，評估速度提升 2-3 倍
* **資源最佳化**：更有效利用運算資源

**效能比較：**

| 測試案例數 | 舊版本耗時  | 新版本耗時  | 效能提升 |
| ----- | ------ | ------ | ---- |
| 10 個  | 45 秒   | 18 秒   | 2.5x |
| 50 個  | 3.5 分鐘 | 1.5 分鐘 | 2.3x |
| 100 個 | 7 分鐘   | 3 分鐘   | 2.3x |

### 升級建議

如果您正在使用舊版本的評估功能，建議考慮以下升級策略：

1. **審查現有評估設定**：確認目前使用的評估參數
2. **測試新配置選項**：嘗試使用新的 LLM 配置功能
3. **優化測試案例**：利用彈性 Ground Truth 處理，擴充測試覆蓋範圍
4. **監控效能改善**：觀察平行處理帶來的速度提升

## 查看回覆評估結果

回覆評估功能位於 **AgentOps** 模組，提供兩種查看方式：

### 即時監控

AgentOps → AI 助理監控

即時計算每次對話的評分，用於監控線上 AI 助理的回覆品質。

### 自動化測試

AgentOps → 自動化測試

使用測試集批次執行評估，產生完整報告與改善建議，適合版本發布前的品質驗證。

## 評分指標

MaiAgent 平台提供回覆評估功能，針對每次問答留下紀錄與自動算分，分數包含

<table><thead><tr><th>指標</th><th>描述</th><th>影響原因</th><th>問題</th><th>回覆</th><th width="118">檢索上下文</th><th>正確答案</th></tr></thead><tbody><tr><td>誠實性評分（Faithfulness）</td><td>LLM 是否有如實的回答，而非自行捏造答案回答</td><td>LLM、RAG、知識庫</td><td></td><td>✅</td><td>✅</td><td></td></tr><tr><td>回答相關性評分（Answer Relevancy）</td><td>LLM 是否切中要點的回答，是否不完整或包含冗餘文字</td><td>LLM、RAG、知識庫</td><td>✅</td><td>✅</td><td></td><td></td></tr><tr><td>上下文精準度評分（Context Precision）</td><td>RAG 檢索的內容是否跟問題相關</td><td>RAG、知識庫</td><td>✅</td><td></td><td>✅</td><td></td></tr><tr><td>上下文相關性評分（Contextual Relevancy）</td><td>檢索內容與問題的整體相關程度</td><td>RAG、知識庫</td><td>✅</td><td></td><td>✅</td><td></td></tr><tr><td>上下文召回率評分（Context Recall）</td><td>RAG 檢索的內容與正確答案相比，是否都有檢索出資料</td><td>RAG、知識庫</td><td></td><td></td><td>✅</td><td>✅</td></tr><tr><td>回答正確性評分（Answer Correctness）</td><td>回覆與正確答案的正確性</td><td>LLM、RAG、知識庫</td><td></td><td>✅</td><td></td><td>✅</td></tr><tr><td>回答相似度評分（Answer Similarity）</td><td>回覆與正確答案的語意相似度</td><td>LLM、RAG、知識庫</td><td></td><td>✅</td><td></td><td>✅</td></tr><tr><td>偏見檢測（Bias）</td><td>檢測回答是否包含性別、種族、宗教等偏見</td><td>LLM</td><td></td><td>✅</td><td></td><td></td></tr><tr><td>毒性檢測（Toxicity）</td><td>檢測回答是否包含有害、冒犯性內容</td><td>LLM</td><td></td><td>✅</td><td></td><td></td></tr><tr><td>幻覺檢測（Hallucination）</td><td>檢測回答是否包含與上下文不符的虛構資訊</td><td>LLM、RAG</td><td></td><td>✅</td><td>✅</td><td></td></tr></tbody></table>

<figure><img src="https://527168072-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F38pkhhqHl1oA6yyE9R2n%2Fuploads%2Fgit-blob-5afff8be7e607c93ab1d4aa997e76120ea0b84db%2FRAG_Evaluation_Metrics_8f5973cd74%E5%89%AF%E6%9C%AC.jpg?alt=media" alt=""><figcaption><p>回覆評估指標關係圖</p></figcaption></figure>

### 誠實性評分（Faithfulness）與幻覺檢測（Hallucination）的差異

這兩個指標經常被混淆，但它們的評估角度不同：

* **Faithfulness**：衡量回答中有「多少比例」的內容是基於檢索上下文，是**正向指標**（分數越高越好）
* **Hallucination**：檢測回答中是否「存在」與上下文矛盾或無法驗證的內容，是**負向指標**（分數越低越好）

| 面向   | Faithfulness  | Hallucination |
| ---- | ------------- | ------------- |
| 衡量方向 | 正向（越高越好）      | 負向（越低越好）      |
| 評估問題 | 回答有多少是基於來源？   | 回答有沒有捏造內容？    |
| 計算方式 | 可驗證陳述數 ÷ 總陳述數 | 檢測是否存在虛構資訊    |

**範例**

> **檢索上下文**：「台北 101 的高度為 508 公尺，於 2004 年完工」
>
> **回答**：「台北 101 高度為 508 公尺，於 2004 年完工，曾是世界最高建築」

* **Faithfulness 分數偏低**：因為只有 2/3 的內容有依據
* **Hallucination 分數偏高**：因為「曾是世界最高建築」在上下文中沒有提及，被視為幻覺內容

簡言之，Faithfulness 關注「忠於來源的程度」，Hallucination 關注「是否有捏造」。兩者相關但不相同：Faithfulness 低不一定有幻覺，但有幻覺一定會導致 Faithfulness 下降。

## 功能支援對照

| 指標                             | 即時監控 | 自動化測試 |
| ------------------------------ | :--: | :---: |
| 誠實性評分（Faithfulness）            |   ✅  |   ✅   |
| 回答相關性評分（Answer Relevancy）      |   ✅  |   ✅   |
| 上下文精準度評分（Context Precision）    |   ✅  |   ✅   |
| 上下文相關性評分（Contextual Relevancy） |      |   ✅   |
| 上下文召回率評分（Context Recall）       |  ⚠️  |   ✅   |
| 回答正確性評分（Answer Correctness）    |  ⚠️  |       |
| 回答相似度評分（Answer Similarity）     |  ⚠️  |       |
| 偏見檢測（Bias）                     |      |   ✅   |
| 毒性檢測（Toxicity）                 |      |   ✅   |
| 幻覺檢測（Hallucination）            |      |   ✅   |

> ⚠️ 即將提供

## 分數意義

* 0.5：以下通常被認為需要改進
* 0.6-0.7：是可接受的範圍
* 0.8：以上被認為是良好表現
* 0.9：以上是優秀表現

## 分數偏低的原因釐清與解決方法

* LLM 能力問題，無法根據參考資料回答問題
  * 解決方法：更換能力更強的 LLM，或使用新版本可配置的評估 LLM 功能
* RAG 檢索能力，是否有找到與問題相關的資料
  * 解決方法：聯繫 MaiAgent 官方
* 知識庫的資料提供是否充足
  * 解決方法：補充正確的知識庫資料與 FAQ 常見問題

## 最佳實踐

### 使用彈性 Ground Truth

在沒有標準答案的情況下，您仍然可以：

1. 先進行基礎評估（不需要 Ground Truth 的指標）
2. 觀察 AI 助理的回答模式
3. 根據實際表現逐步建立評估標準
4. 補充 Ground Truth 進行完整評估

### 善用平行處理

為了獲得最佳評估效能：

* 建議一次評估多個測試案例（10 個以上）
* 避免過於頻繁的小批次評估
* 考慮在非尖峰時段進行大量評估

## 技術資源

* [Deepeval 官方文檔](https://docs.confident-ai.com/)
* [Deepeval 3.7.0 更新日誌](https://github.com/confident-ai/deepeval/releases/tag/v3.7.0)
