自動評估

自動執行測試評估,追蹤 AI 助理回應品質與成功率

什麼是自動評估?

自動評估功能讓您能夠使用預先建立的測試資料集,自動化測試 AI 助理的回應品質。系統會將測試資料集中的每個問題發送給 AI 助理,並比對實際回應與預期回應,產生詳細的評估報告。

主要優點:

提升效率

一鍵執行數十個甚至上百個測試案例
無需人工逐一測試,大幅節省時間
支援定期自動執行,持續監控品質

量化品質指標

成功率百分比:清楚了解通過測試的比例
平均回應時間:掌握 AI 助理的反應速度
測試案例通過/失敗明細:快速定位問題

版本比較

比較不同版本 AI 助理的表現差異
評估知識庫更新前後的影響
確保更新後品質不退化

如何進入自動評估

進入左側功能欄的「AgentOps」,點選「自動評估」,即可看到評估管理頁面。

頁面中會顯示以下資訊:

測試 ID: 系統自動產生的評估記錄編號
評估名稱: 您為此次評估設定的名稱
描述: 評估的用途說明
測試資料集: 使用的測試資料集名稱
AI 助理: 被測試的 AI 助理名稱
成功率: 通過測試的案例百分比
平均時間: AI 助理回應的平均時間
建立時間: 評估執行的日期與時間
操作按鈕: 查看詳情、重新執行、刪除等功能

建立並執行自動評估

1. 準備測試資料集

在執行自動評估前,請先確認您已建立測試資料集。

如何建立測試資料集?請參考: 測試資料集管理

2. 開始建立評估

點擊頁面右上角的「Create Test」按鈕,開始建立新的自動評估。

3. 設定評估參數

在彈出的對話框中,輸入以下資訊:

評估名稱 (必填)

建議使用有意義的名稱,例如:「2024-11 產品知識庫更新後測試」
方便日後追蹤與比較不同時期的評估結果

評估描述 (選填)

記錄此次評估的目的與背景
例如:「更新產品規格文件後,驗證回應準確性」

選擇測試資料集 (必填)

從下拉選單中選擇要使用的測試資料集
可以看到每個資料集包含的測試案例數量

選擇 AI 助理 (必填)

選擇要測試的 AI 助理
可以選擇多個 AI 助理進行比較

4. 執行評估

設定完成後,點擊「開始評估」,系統會自動:

將測試資料集中的每個問題發送給 AI 助理
收集 AI 助理的實際回應
比對實際回應與預期回應
計算成功率與平均回應時間
產生詳細的評估報告

評估執行時間取決於測試案例數量,通常 50 個測試案例約需 2-3 分鐘

查看評估結果

評估列表總覽

在評估列表中,您可以快速查看所有評估的關鍵指標:

成功率指標:

綠色 (≥90%): 表現優異,品質穩定
黃色 (70-89%): 表現良好,但有改善空間
紅色 (<70%): 需要立即檢視並改善

平均回應時間:

顯示 AI 助理回應每個測試案例的平均時間
幫助評估系統效能與使用者體驗

查看詳細報告

點擊評估記錄的「查看詳情」按鈕,可以看到完整的評估報告,包含:

1. 整體統計

總測試案例數
通過案例數 / 失敗案例數
成功率百分比
平均回應時間
最快/最慢回應時間

2. 測試案例明細

每個測試案例會顯示:

測試問題: 發送給 AI 助理的問題
預期回應: 測試資料集中設定的預期回應
實際回應: AI 助理的實際回答
測試結果: 通過 ✓ 或失敗 ✗
回應時間: 此案例的處理時間
失敗原因: 若未通過,說明原因 (例如:「實際回應未包含預期關鍵字」)

3. 失敗案例分析

重點檢視未通過的測試案例:

查看 AI 助理的實際回應與預期回應的差異
判斷是知識庫內容不足、AI 理解錯誤,或是測試案例設定需要調整
根據分析結果進行對應改善

管理評估記錄

搜尋評估記錄

使用頁面上方的搜尋與篩選功能:

關鍵字搜尋

測試 ID
評估名稱
描述內容

測試集篩選

選擇特定測試資料集,查看所有使用該資料集的評估

AI 助理篩選

選擇特定 AI 助理,查看其所有評估記錄
追蹤單一 AI 助理的品質變化趨勢

重新執行評估

點擊操作欄位中的「重新執行」按鈕,可以使用相同的測試資料集與 AI 助理再次執行評估。

適用情境:

修改知識庫內容後,重新測試驗證改善效果
調整 AI 助理設定後,確認表現是否提升
定期執行相同測試,追蹤長期品質趨勢

比較不同評估

選擇多筆評估記錄,進行對比分析:

比較不同時期的成功率變化
評估不同 AI 助理在相同測試下的表現
追蹤優化措施的實際效果

匯出評估報告

點擊「匯出」按鈕,可將評估結果匯出為 Excel 或 PDF 格式,方便:

與團隊成員分享
製作品質報告
長期保存記錄

刪除評估記錄

點擊操作欄位中的「刪除」按鈕,即可刪除不再需要的評估記錄。

刪除評估記錄後無法復原,但不會影響測試資料集與 AI 助理本身

自動評估最佳實踐

1. 建立定期評估機制

建議建立定期評估的習慣:

每週評估:
└── 執行核心功能測試集,確保基本品質

每月評估:
└── 執行完整測試集,全面檢視 AI 助理表現

重大更新後:
└── 更新知識庫、調整 AI 設定後立即執行評估

2. 設定品質基準線

為不同類型的 AI 助理設定合理的品質目標:

AI 助理類型

建議成功率基準

說明

產品查詢助理

≥ 95%

知識範圍明確,應維持高準確度

客服支援助理

≥ 90%

涵蓋多種情境,但核心問題應準確

通用對話助理

≥ 80%

問題範圍廣,允許較大彈性

專業諮詢助理

≥ 98%

涉及專業領域,需極高準確性

3. 追蹤品質趨勢

建立評估記錄追蹤表,觀察長期變化:

2024-10-01: 產品查詢測試 → 成功率 92%
2024-10-15: 產品查詢測試 → 成功率 88% ⚠️ (下降,需檢視)
2024-10-20: 更新知識庫
2024-10-22: 產品查詢測試 → 成功率 95% ✓ (改善成功)
2024-11-01: 產品查詢測試 → 成功率 96% ✓ (持續穩定)

4. 分析失敗案例並持續改善

針對失敗案例進行分類與分析:

知識庫問題:

知識內容不足或過時 → 更新相關文件
知識表達不清晰 → 重新撰寫或增加範例
相關知識分散 → 整合至同一文件

AI 設定問題:

AI 理解問題意圖錯誤 → 調整 System Prompt
回應過於簡短或冗長 → 優化角色指令
未正確引用知識庫 → 檢查知識庫連結設定

測試案例問題:

預期回應設定過於嚴格 → 調整為關鍵字匹配
測試問題表達不清 → 改寫測試案例
預期回應已過時 → 更新測試資料集

5. 建立回歸測試流程

每次重大更新前後都應執行評估:

更新前:
1. 執行完整評估,記錄當前表現 (基準線)

更新中:
2. 執行知識庫更新或 AI 設定調整

更新後:
3. 立即執行相同評估
4. 比較更新前後的成功率差異
5. 若成功率下降,檢視失敗案例並調整
6. 重複測試直到成功率符合或超越基準線

6. 跨 AI 助理比較

若您有多個處理類似業務的 AI 助理:

使用相同測試資料集評估所有 AI 助理
比較各自的成功率與回應時間
識別表現最佳的 AI 助理配置
將成功經驗應用至其他 AI 助理

評估指標說明

成功率計算方式

成功率 = (通過測試案例數 ÷ 總測試案例數) × 100%

範例:
測試資料集包含 50 個測試案例
AI 助理通過 45 個測試案例
成功率 = (45 ÷ 50) × 100% = 90%

測試案例判定標準

通過條件:

AI 助理的實際回應中「包含」預期回應的關鍵內容
不需要完全一致,但必須涵蓋核心資訊
系統使用智慧比對演算法,考慮語意相似度

失敗原因:

實際回應未包含預期關鍵字或句子
AI 助理回答錯誤資訊
AI 助理表示無法回答
回應超時 (超過設定的最大等待時間)

平均回應時間

平均回應時間 = 所有測試案例回應時間總和 ÷ 測試案例數量

理想回應時間:
• 簡單查詢: < 3 秒
• 一般問題: 3-5 秒
• 複雜分析: 5-10 秒
• 超過 10 秒: 可能需要優化知識庫或 AI 設定

常見問題

Q1: 自動評估與手動測試有什麼不同?

自動評估:

使用預先定義的測試資料集
系統自動執行並產生報告
適合大量、重複性的測試
可量化追蹤品質趨勢

手動測試:

在「內部問答」或「所有對話」中手動輸入問題
人工判斷回應品質
適合探索性測試與特殊情境驗證

建議兩者搭配使用:自動評估作為主要品質監控機制,手動測試用於深度驗證與問題探索。

Q2: 為什麼成功率突然下降?

可能的原因:

知識庫內容被修改或刪除: 檢視最近的知識庫變更記錄
AI 助理設定被調整: 檢查 System Prompt 或其他設定是否變更
測試資料集內容更新: 確認測試案例的預期回應是否仍然合理
系統或 LLM 模型更新: 聯繫技術支援確認是否有系統變更

Q3: 如何提升評估成功率?

短期改善:

查看失敗案例的實際回應
判斷是知識不足或 AI 理解錯誤
針對性補充知識或調整 AI 設定
重新執行評估驗證改善效果

長期優化:

定期審查並更新知識庫內容
收集真實用戶對話,新增為測試案例
持續優化 AI 角色指令與設定
建立知識庫內容維護流程

Q4: 可以針對特定主題進行評估嗎?

可以。建議針對不同業務主題建立多個測試資料集:

產品相關測試集
訂單流程測試集
會員服務測試集
技術支援測試集

這樣可以分別追蹤各主題的品質表現,精準定位需要改善的領域。

Q5: 評估會影響實際用戶對話嗎?

不會。自動評估使用獨立的測試環境,不會干擾實際用戶的對話,也不會出現在「所有對話」記錄中。

Q6: 可以設定自動定期執行評估嗎?

目前需要手動執行評估。未來版本將支援排程自動執行功能,例如每週自動執行指定的評估並發送報告通知,敬請期待。

Q7: 評估結果可以整合到報告中嗎?

可以。您可以:

匯出評估結果為 Excel 或 PDF 格式
整合到品質監控報表中
與使用分析數據結合,全面評估 AI 助理表現

下一步

執行自動評估後,您可以:

透過 AI 助理監控追蹤實際對話中的表現
根據評估結果調整知識庫內容
優化 AI 助理的角色指令
查看使用分析了解真實用戶的使用情況

Previous測試資料集管理 NextAI 助理監控

Last updated 20 minutes ago

Was this helpful?

hashtag什麼是自動評估?

hashtag如何進入自動評估

hashtag建立並執行自動評估

hashtag1. 準備測試資料集

hashtag2. 開始建立評估

hashtag3. 設定評估參數

hashtag4. 執行評估

hashtag查看評估結果

hashtag評估列表總覽

hashtag查看詳細報告

hashtag管理評估記錄

hashtag搜尋評估記錄

hashtag重新執行評估

hashtag比較不同評估

hashtag匯出評估報告

hashtag刪除評估記錄

hashtag自動評估最佳實踐

hashtag1. 建立定期評估機制

hashtag2. 設定品質基準線

hashtag3. 追蹤品質趨勢

hashtag4. 分析失敗案例並持續改善

hashtag5. 建立回歸測試流程

hashtag6. 跨 AI 助理比較

hashtag評估指標說明

hashtag成功率計算方式

hashtag測試案例判定標準

hashtag平均回應時間

hashtag常見問題

hashtagQ1: 自動評估與手動測試有什麼不同?

hashtagQ2: 為什麼成功率突然下降?

hashtagQ3: 如何提升評估成功率?

hashtagQ4: 可以針對特定主題進行評估嗎?

hashtagQ5: 評估會影響實際用戶對話嗎?

hashtagQ6: 可以設定自動定期執行評估嗎?

hashtagQ7: 評估結果可以整合到報告中嗎?

hashtag下一步

什麼是自動評估?

如何進入自動評估

建立並執行自動評估

1. 準備測試資料集

2. 開始建立評估

3. 設定評估參數

4. 執行評估

查看評估結果

評估列表總覽

查看詳細報告

管理評估記錄

搜尋評估記錄

重新執行評估

比較不同評估

匯出評估報告

刪除評估記錄

自動評估最佳實踐

1. 建立定期評估機制

2. 設定品質基準線

3. 追蹤品質趨勢

4. 分析失敗案例並持續改善

5. 建立回歸測試流程

6. 跨 AI 助理比較

評估指標說明

成功率計算方式

測試案例判定標準

平均回應時間

常見問題

Q1: 自動評估與手動測試有什麼不同?

Q2: 為什麼成功率突然下降?

Q3: 如何提升評估成功率?

Q4: 可以針對特定主題進行評估嗎?

Q5: 評估會影響實際用戶對話嗎?

Q6: 可以設定自動定期執行評估嗎?

Q7: 評估結果可以整合到報告中嗎?

下一步