# 評估洞察報告

本篇將介紹如何使用評估洞察功能，協助您快速理解 AI 助理的測試結果，並獲得系統自動生成的改善建議。

## 什麼是評估洞察？

評估洞察是 AgentOps 自動化測試的延伸功能。當您完成一次批次測試後，系統不僅會顯示各項指標分數，還會自動分析測試結果，並生成一份「洞察報告」。

這份報告會告訴您：

* **測試結果的整體表現如何**
* **主要問題出在哪裡**
* **具體該如何改善**
* **優先處理哪些項目**

就像請一位資深顧問幫您看過測試報告，並給您一份改善建議書。

## 評估洞察的核心優勢

### 📊 自動化分析

不需要手動解讀複雜的評分數據，系統會自動識別問題模式並整理成易懂的報告。

### 🎯 優先順序建議

系統會依據問題的嚴重程度和影響範圍，建議您優先處理哪些項目，讓改善工作更有效率。

### 💡 具體改善方向

不只告訴您「有問題」，還會提供具體的改善建議，例如應該調整哪些設定、補充哪些內容。

### 🌐 多語言支援

洞察報告支援繁體中文、簡體中文、英文等多種語言，您可以依據團隊需求選擇適合的語言。

## 如何使用評估洞察功能

### 步驟一：完成批次測試

1. 進入「<mark style="color:blue;">AgentOps</mark>」→「<mark style="color:blue;">自動化測試</mark>」
2. 執行一次批次測試（參考 [AgentOps 操作指南](https://docs.maiagent.ai/agent-ops/broken-reference)）
3. 等待測試完成

<figure><img src="https://1593648278-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fmzb5NG9GDzFP2YDKeYVl%2Fuploads%2Fgit-blob-06f0a8f71a921e02e030b8b8e71bc49977fc7154%2Ftrack-evaluations-list.png?alt=media" alt="自動化測試列表"><figcaption><p>自動化測試列表，顯示各次測試的成功率與平均回應秒數</p></figcaption></figure>

### 步驟二：查看評估結果

1. 進入測試結果詳情頁
2. 查看各項評分指標
3. 找到「洞察報告」區塊

<figure><img src="https://1593648278-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fmzb5NG9GDzFP2YDKeYVl%2Fuploads%2Fgit-blob-aeec25455ae679a86ed97bc0ed49d20cb37e8b24%2Ftrack-evaluation-detail.png?alt=media" alt="評估詳情與洞察報告"><figcaption><p>測試詳情頁面：包含成功率、AI 洞察摘要、指標統計與改進建議</p></figcaption></figure>

### 步驟三：選擇報告語言

在洞察報告區塊中，您可以選擇報告的顯示語言：

* **繁體中文**：適合台灣團隊使用
* **簡體中文**：適合中國大陸團隊使用
* **英文**：適合國際團隊或需要英文報告的情境

選擇語言後，系統會自動生成對應語言的洞察報告。

### 步驟四：閱讀洞察報告

洞察報告通常包含以下內容：

#### 1. 整體評估摘要

* 測試通過率
* 主要優勢
* 需要改善的領域

#### 2. 問題分析

* 回答相關性問題
* 安全性風險（偏見、冒犯性、幻覺）
* 回應速度問題

#### 3. 改善建議

* 優先處理項目（標示為「高優先級」、「中優先級」、「低優先級」）
* 具體改善步驟
* 預期改善效果

### 步驟五：依據建議進行改善

1. 依照報告中的優先順序，逐項處理問題
2. 參考具體改善步驟調整 AI 助理設定
3. 完成調整後，再次執行測試驗證效果

## 評估洞察的計算方式

系統會綜合考量以下因素來生成洞察報告：

* **評分指標**：各項評分的高低和分布
* **失敗案例**：失敗案例的數量和失敗原因
* **問題模式**：相似問題的重複出現頻率
* **最佳實踐**：業界標準和優化建議

{% hint style="info" %}
洞察報告的生成需要一定的處理時間，通常在測試完成後的 1-2 分鐘內生成。
{% endhint %}

## 實際應用場景

### 🏥 醫療診所客服

**測試結果**：

* 通過率：72%
* 幻覺分數：偏高

**洞察報告建議**：

> 「測試發現部分回答包含未經驗證的醫療建議。建議在角色指令中明確限制：『請勿提供診斷或治療建議，僅提供掛號和診所資訊。』」

### 🏢 企業內部知識管理

**測試結果**：

* 通過率：88%
* 回答相關性：偏低

**洞察報告建議**：

> 「測試發現部分回答過於簡略或未完整回答問題。建議在知識庫中補充更詳細的操作步驟和範例。」

## 常見問題

### Q1：洞察報告可以下載嗎？

目前洞察報告僅能在系統中查看，建議您可以複製報告內容並整理成內部文件。

### Q2：洞察報告會隨著測試結果自動更新嗎？

是的，每次執行新的批次測試後，系統都會生成新的洞察報告，反映最新的測試結果。

### Q3：洞察報告的語言可以切換嗎？

可以，您可以隨時切換報告語言，系統會重新生成對應語言的報告。

### Q4：洞察報告的建議一定要全部執行嗎？

不一定。您可以依據實際需求和資源，優先處理「高優先級」的項目。系統的建議是參考方向，您可以根據業務需求調整。

### Q5：為什麼我的測試沒有生成洞察報告？

可能原因：

* 測試案例數量過少（建議至少 10 個以上）
* 測試尚未完成
* 系統處理中（請稍候 1-2 分鐘）
