# 回覆評估與監測結果最後更新：2025-11-14 ## 概述 MaiAgent 使用 Deepeval 框架進行回覆評估，目前已升級至 **Deepeval 3.7.0** 版本，提供更強大的評估能力和更彈性的配置選項。 ## 版本更新說明 ### Deepeval 3.7.0 新功能 MaiAgent 平台已升級至 Deepeval 3.7.0，帶來以下重要改進： #### 1. 可配置的評估 LLM 在新版本中，您可以自訂用於評估的大型語言模型（LLM）： * **彈性選擇**：不再限定使用特定的 LLM 進行評估 * **成本優化**：可以選擇較經濟的模型進行評估，降低運營成本 * **效能調整**：根據評估需求選擇適合的模型速度和準確度平衡 **配置範例：** ```python # 在評估設定中指定使用的 LLM evaluation_config = { "evaluation_model": "gpt-4", # 或其他支援的模型 "temperature": 0.0, "max_tokens": 1000 } ``` #### 2. 彈性處理空白 Ground Truth 新版本改進了對空白或缺失正確答案（Ground Truth）的處理： * **自動適應**：當測試案例沒有提供正確答案時，系統會自動調整評估策略 * **部分評估**：即使缺少完整的 Ground Truth，仍可進行其他維度的評估 * **友善提示**：清楚告知哪些評估指標因缺少 Ground Truth 而無法計算 **適用情境：** * 探索性測試階段，尚未定義標準答案 * 開放式問答場景，沒有單一正確答案 * 快速驗證 AI 助理的基本回答能力 #### 3. 平行處理提升評估效能 Deepeval 3.7.0 引入平行處理機制，大幅提升評估速度： * **批次評估**：多個測試案例可同時進行評估 * **效能提升**：相較於舊版本，評估速度提升 2-3 倍 * **資源最佳化**：更有效利用運算資源 **效能比較：** | 測試案例數 | 舊版本耗時 | 新版本耗時 | 效能提升 | | ----- | ------ | ------ | ---- | | 10 個 | 45 秒 | 18 秒 | 2.5x | | 50 個 | 3.5 分鐘 | 1.5 分鐘 | 2.3x | | 100 個 | 7 分鐘 | 3 分鐘 | 2.3x | ### 升級建議如果您正在使用舊版本的評估功能，建議考慮以下升級策略： 1. **審查現有評估設定**：確認目前使用的評估參數 2. **測試新配置選項**：嘗試使用新的 LLM 配置功能 3. **優化測試案例**：利用彈性 Ground Truth 處理，擴充測試覆蓋範圍 4. **監控效能改善**：觀察平行處理帶來的速度提升 ## 查看回覆評估結果回覆評估功能位於 **AgentOps** 模組，提供兩種查看方式： ### 即時監控 AgentOps → AI 助理監控即時計算每次對話的評分，用於監控線上 AI 助理的回覆品質。 ### 自動化測試 AgentOps → 自動化測試使用測試集批次執行評估，產生完整報告與改善建議，適合版本發布前的品質驗證。 ## 評分指標 MaiAgent 平台提供回覆評估功能，針對每次問答留下紀錄與自動算分，分數包含

指標	描述	影響原因	問題	回覆	檢索上下文	正確答案
誠實性評分（Faithfulness）	LLM 是否有如實的回答，而非自行捏造答案回答	LLM、RAG、知識庫		✅	✅
回答相關性評分（Answer Relevancy）	LLM 是否切中要點的回答，是否不完整或包含冗餘文字	LLM、RAG、知識庫	✅	✅
上下文精準度評分（Context Precision）	RAG 檢索的內容是否跟問題相關	RAG、知識庫	✅		✅
上下文相關性評分（Contextual Relevancy）	檢索內容與問題的整體相關程度	RAG、知識庫	✅		✅
上下文召回率評分（Context Recall）	RAG 檢索的內容與正確答案相比，是否都有檢索出資料	RAG、知識庫			✅	✅
回答正確性評分（Answer Correctness）	回覆與正確答案的正確性	LLM、RAG、知識庫		✅		✅
回答相似度評分（Answer Similarity）	回覆與正確答案的語意相似度	LLM、RAG、知識庫		✅		✅
偏見檢測（Bias）	檢測回答是否包含性別、種族、宗教等偏見	LLM		✅
毒性檢測（Toxicity）	檢測回答是否包含有害、冒犯性內容	LLM		✅
幻覺檢測（Hallucination）	檢測回答是否包含與上下文不符的虛構資訊	LLM、RAG		✅	✅

### 誠實性評分（Faithfulness）與幻覺檢測（Hallucination）的差異這兩個指標經常被混淆，但它們的評估角度不同： * **Faithfulness**：衡量回答中有「多少比例」的內容是基於檢索上下文，是**正向指標**（分數越高越好） * **Hallucination**：檢測回答中是否「存在」與上下文矛盾或無法驗證的內容，是**負向指標**（分數越低越好） | 面向 | Faithfulness | Hallucination | | ---- | ------------- | ------------- | | 衡量方向 | 正向（越高越好） | 負向（越低越好） | | 評估問題 | 回答有多少是基於來源？ | 回答有沒有捏造內容？ | | 計算方式 | 可驗證陳述數 ÷ 總陳述數 | 檢測是否存在虛構資訊 | **範例** > **檢索上下文**：「台北 101 的高度為 508 公尺，於 2004 年完工」 > > **回答**：「台北 101 高度為 508 公尺，於 2004 年完工，曾是世界最高建築」 * **Faithfulness 分數偏低**：因為只有 2/3 的內容有依據 * **Hallucination 分數偏高**：因為「曾是世界最高建築」在上下文中沒有提及，被視為幻覺內容簡言之，Faithfulness 關注「忠於來源的程度」，Hallucination 關注「是否有捏造」。兩者相關但不相同：Faithfulness 低不一定有幻覺，但有幻覺一定會導致 Faithfulness 下降。 ## 功能支援對照 | 指標 | 即時監控 | 自動化測試 | | ------------------------------ | :--: | :---: | | 誠實性評分（Faithfulness） | ✅ | ✅ | | 回答相關性評分（Answer Relevancy） | ✅ | ✅ | | 上下文精準度評分（Context Precision） | ✅ | ✅ | | 上下文相關性評分（Contextual Relevancy） | | ✅ | | 上下文召回率評分（Context Recall） | ⚠️ | ✅ | | 回答正確性評分（Answer Correctness） | ⚠️ | | | 回答相似度評分（Answer Similarity） | ⚠️ | | | 偏見檢測（Bias） | | ✅ | | 毒性檢測（Toxicity） | | ✅ | | 幻覺檢測（Hallucination） | | ✅ | > ⚠️ 即將提供 ## 分數意義 * 0.5：以下通常被認為需要改進 * 0.6-0.7：是可接受的範圍 * 0.8：以上被認為是良好表現 * 0.9：以上是優秀表現 ## 分數偏低的原因釐清與解決方法 * LLM 能力問題，無法根據參考資料回答問題 * 解決方法：更換能力更強的 LLM，或使用新版本可配置的評估 LLM 功能 * RAG 檢索能力，是否有找到與問題相關的資料 * 解決方法：聯繫 MaiAgent 官方 * 知識庫的資料提供是否充足 * 解決方法：補充正確的知識庫資料與 FAQ 常見問題 ## 最佳實踐 ### 使用彈性 Ground Truth 在沒有標準答案的情況下，您仍然可以： 1. 先進行基礎評估（不需要 Ground Truth 的指標） 2. 觀察 AI 助理的回答模式 3. 根據實際表現逐步建立評估標準 4. 補充 Ground Truth 進行完整評估 ### 善用平行處理為了獲得最佳評估效能： * 建議一次評估多個測試案例（10 個以上） * 避免過於頻繁的小批次評估 * 考慮在非尖峰時段進行大量評估 ## 技術資源 * [Deepeval 官方文檔](https://docs.confident-ai.com/) * [Deepeval 3.7.0 更新日誌](https://github.com/confident-ai/deepeval/releases/tag/v3.7.0)