# AgentOps 總覽

## 什麼是 AgentOps?

AgentOps (Agent Operations) 是 MaiAgent 平台提供的 AI 助理運作管理模組,專注於測試、評估與監控 AI 助理的實際表現。透過 AgentOps,您可以系統化地管理 AI 助理的品質,確保持續提供優質的服務體驗。

## 為什麼需要 AgentOps?

建立 AI 助理只是第一步,持續監控與優化才能確保長期成功。AgentOps 幫助您:

**確保品質穩定**

* 建立標準化的測試機制
* 追蹤 AI 助理表現的變化趨勢
* 及時發現並修正品質問題

**提升運作效率**

* 自動化測試流程,節省人力
* 快速識別效能瓶頸
* 優化系統資源與成本

**數據驅動決策**

* 量化 AI 助理的表現指標
* 比較不同設定或模型的效果
* 根據實際數據制定優化策略

## AgentOps 核心功能

### 1. 測試資料集管理

建立並管理測試案例集合,用於驗證 AI 助理的回應品質。

**主要功能:**

* 建立多組測試資料集
* 管理測試案例與預期回應
* 支援搜尋與分類
* 團隊共同維護測試案例

**適用情境:**

* 知識庫更新後驗證回應準確性
* 建立標準測試流程
* 收集常見問題作為測試基準

> 詳細說明: [測試資料集管理](https://docs.maiagent.ai/agent-ops/test-datasets)

### 2. 自動評估

使用測試資料集自動化執行評估,產生詳細的品質報告。

**主要功能:**

* 一鍵執行批量測試
* 計算成功率與回應時間
* 產生詳細的通過/失敗報告
* 比較不同時期或 AI 助理的表現

**適用情境:**

* 定期品質檢查
* 更新前後的回歸測試
* 比較不同 AI 助理或模型的效果

> 詳細說明: [自動評估](https://docs.maiagent.ai/agent-ops/evaluations)

### 3. AI 助理監控

即時監控 AI 助理的運作狀況,深入分析每一次對話的細節。

**主要功能:**

* 查看輸入/輸出訊息內容
* 追蹤回覆時間與處理時間
* 監控 Token 用量與成本
* 分析品質評分與使用者回饋

**適用情境:**

* 即時監控系統運作狀況
* 識別效能問題與異常
* 追蹤成本與用量
* 深度分析個別對話

> 詳細說明: [AI 助理監控](https://docs.maiagent.ai/agent-ops/evaluations)

## AgentOps 工作流程

### 標準品質管理流程

```
1. 建立測試資料集
   ↓
   收集常見問題與預期回應
   建立結構化的測試案例

2. 執行自動評估
   ↓
   定期或更新後執行測試
   產生成功率與品質報告

3. 分析評估結果
   ↓
   識別失敗案例
   找出需要改善的問題

4. 優化 AI 助理
   ↓
   更新知識庫內容
   調整 AI 設定與 Prompt

5. 監控實際運作
   ↓
   使用 AI 助理監控追蹤實際對話
   持續確保品質穩定

6. 持續改善
   ↓
   根據監控數據發現新問題
   更新測試資料集
   重複評估與優化循環
```

### 快速上手步驟

**第一週: 建立基礎測試**

1. 收集 20-30 個常見問題
2. 建立第一個測試資料集
3. 執行初次自動評估
4. 記錄當前成功率作為基準線

**第二週: 持續優化**

1. 分析失敗的測試案例
2. 更新知識庫或調整 AI 設定
3. 重新執行評估驗證改善效果
4. 開始使用 AI 助理監控觀察實際對話

**第三週: 建立習慣**

1. 每週執行一次自動評估
2. 每天查看監控數據識別異常
3. 持續新增測試案例涵蓋更多情境
4. 建立品質報告追蹤長期趨勢

## AgentOps 與其他功能的整合

### AgentOps + 知識庫管理

**整合應用:**

* 知識庫更新後,立即執行自動評估驗證
* 監控數據顯示知識不足時,補充知識庫內容
* 根據實際對話建立測試案例,反向優化知識庫

> 相關文檔: [打造企業知識庫](https://github.com/Playma-Co-Ltd/maiagent-user-guide-gitbook/blob/main/zh-tw/km/km.md)

### AgentOps + 使用分析

**互補分析:**

* **使用分析**: 提供整體趨勢與統計 (對話量、滿意度等)
* **AgentOps**: 提供深度品質分析與個別對話細節

結合使用可以:

* 從整體趨勢發現異常
* 從監控細節找出根本原因
* 全面評估 AI 助理表現

> 相關文檔: [使用分析](https://github.com/Playma-Co-Ltd/maiagent-user-guide-gitbook/blob/main/zh-tw/track/usage.md)

### AgentOps + 回覆品質控管

**整合應用:**

* AgentOps 提供技術面的品質監控
* 回覆品質控管提供人工審核與標註
* 兩者結合可建立完整的品質保證體系

> 相關文檔: [回覆品質控管](https://github.com/Playma-Co-Ltd/maiagent-user-guide-gitbook/blob/main/zh-tw/track/quality.md)

## 最佳實踐建議

### 1. 建立定期評估機制

**每日檢查 (5 分鐘):**

* 查看 AI 助理監控識別異常

**每週評估 (30 分鐘):**

* 執行核心測試資料集
* 檢視成功率是否維持穩定
* 更新或新增測試案例

**每月分析 (2 小時):**

* 執行完整評估
* 匯出監控數據深度分析
* 製作品質報告
* 規劃下月優化目標

### 2. 設定品質基準線

為您的 AI 助理設定合理的品質目標:

| 指標       | 基準    | 目標    | 說明         |
| -------- | ----- | ----- | ---------- |
| 自動評估成功率  | ≥ 85% | ≥ 95% | 標準測試案例通過率  |
| 平均回覆時間   | < 5 秒 | < 3 秒 | 使用者感知的回應速度 |
| 使用者滿意度   | ≥ 80% | ≥ 90% | 讚/總回饋比例    |
| Token 用量 | -     | -     | 根據預算設定上限   |

### 3. 建立問題追蹤流程

當發現品質問題時:

```
問題發現
↓
記錄到測試資料集 (避免重複發生)
↓
分析根本原因 (知識庫/AI設定/模型能力)
↓
實施改善措施
↓
執行評估驗證效果
↓
持續監控確認穩定
```

### 4. 團隊協作

建立 AgentOps 責任分工:

**AI 管理者:**

* 整體品質監控
* 制定優化策略
* 定期評估與報告

**知識庫管理員:**

* 根據評估結果更新知識庫
* 補充缺失的知識內容

**技術人員:**

* 分析效能問題
* 優化系統設定
* 處理技術異常

### 5. 持續改善循環

AgentOps 的核心是持續改善:

1. **測量**: 透過評估與監控取得數據
2. **分析**: 識別問題與改善機會
3. **行動**: 實施優化措施
4. **驗證**: 確認改善效果
5. **標準化**: 將成功經驗納入流程

## 常見問題

### Q1: AgentOps 與「使用分析」有什麼不同?

**使用分析:**

* 整體趨勢與統計 (對話量、字數、滿意度)
* 適合了解 AI 助理的使用概況
* 關注業務指標

**AgentOps:**

* 深度品質分析與個別對話細節
* 適合技術面的品質管理
* 關注技術指標 (成功率、回應時間、成本)

兩者互補,建議結合使用。

### Q2: 需要多久執行一次評估?

建議頻率:

* **核心功能**: 每週一次
* **完整測試**: 每月一次
* **重大更新後**: 立即執行
* **發現問題時**: 隨時測試驗證

您可以根據 AI 助理的重要性與變更頻率調整。

### Q3: 測試資料集應該包含多少測試案例?

建議數量:

* **最少**: 20 個測試案例 (涵蓋核心功能)
* **建議**: 50-100 個測試案例 (平衡覆蓋率與效率)
* **完整**: 200+ 個測試案例 (大型或關鍵系統)

從核心功能開始,逐步擴充。

### Q4: 成功率多少才算合格?

取決於 AI 助理的用途:

* **高風險應用** (金融、醫療): ≥ 95%
* **客服支援**: ≥ 90%
* **通用對話**: ≥ 85%
* **實驗性功能**: ≥ 80%

重要的是建立基準線並持續改善。

### Q5: AgentOps 會影響實際用戶嗎?

不會。AgentOps 的測試與監控都是在獨立環境或後台執行,不會干擾實際用戶的使用體驗。

### Q6: 可以針對不同業務建立多組測試嗎?

可以。建議針對不同業務或功能建立多個測試資料集:

* 產品查詢測試集
* 訂單處理測試集
* 技術支援測試集
* ...等

這樣可以分別追蹤各領域的品質表現。

***

## 開始使用 AgentOps

準備好開始使用 AgentOps 了嗎?建議按照以下順序:

1. [**建立測試資料集**](https://docs.maiagent.ai/agent-ops/test-datasets): 收集常見問題,建立第一個測試集
2. [**執行自動評估**](https://docs.maiagent.ai/agent-ops/evaluations): 測試 AI 助理並查看評估報告
3. [**使用 AI 助理監控**](https://docs.maiagent.ai/agent-ops/evaluations): 深入了解實際運作狀況

透過 AgentOps,您可以建立系統化的品質管理流程,確保 AI 助理持續提供優質服務。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.maiagent.ai/agent-ops/agent-ops.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
