clipboard-check自動評估

自動執行測試評估,追蹤 AI 助理回應品質與成功率

什麼是自動評估?

自動評估功能讓您能夠使用預先建立的測試資料集,自動化測試 AI 助理的回應品質。系統會將測試資料集中的每個問題發送給 AI 助理,並比對實際回應與預期回應,產生詳細的評估報告。

主要優點:

提升效率

  • 一鍵執行數十個甚至上百個測試案例

  • 無需人工逐一測試,大幅節省時間

  • 支援定期自動執行,持續監控品質

量化品質指標

  • 成功率百分比:清楚了解通過測試的比例

  • 平均回應時間:掌握 AI 助理的反應速度

  • 測試案例通過/失敗明細:快速定位問題

版本比較

  • 比較不同版本 AI 助理的表現差異

  • 評估知識庫更新前後的影響

  • 確保更新後品質不退化

如何進入自動評估

進入左側功能欄的 「AgentOps」,點選 「自動評估」,即可看到評估管理頁面。

自動評估管理介面

頁面中會顯示以下資訊:

  • 測試 ID: 系統自動產生的評估記錄編號

  • 評估名稱: 您為此次評估設定的名稱

  • 描述: 評估的用途說明

  • 測試資料集: 使用的測試資料集名稱

  • AI 助理: 被測試的 AI 助理名稱

  • 成功率: 通過測試的案例百分比

  • 平均時間: AI 助理回應的平均時間

  • 建立時間: 評估執行的日期與時間

  • 操作按鈕: 查看詳情、重新執行、刪除等功能

建立並執行自動評估

1. 準備測試資料集

在執行自動評估前,請先確認您已建立測試資料集。

circle-info

如何建立測試資料集?請參考: 測試資料集管理

2. 開始建立評估

點擊頁面右上角的 「Create Test」按鈕,開始建立新的自動評估。

3. 設定評估參數

在彈出的對話框中,輸入以下資訊:

評估名稱 (必填)

  • 建議使用有意義的名稱,例如:「2024-11 產品知識庫更新後測試」

  • 方便日後追蹤與比較不同時期的評估結果

評估描述 (選填)

  • 記錄此次評估的目的與背景

  • 例如:「更新產品規格文件後,驗證回應準確性」

選擇測試資料集 (必填)

  • 從下拉選單中選擇要使用的測試資料集

  • 可以看到每個資料集包含的測試案例數量

選擇 AI 助理 (必填)

  • 選擇要測試的 AI 助理

  • 可以選擇多個 AI 助理進行比較

4. 執行評估

設定完成後,點擊 「開始評估」,系統會自動:

  1. 將測試資料集中的每個問題發送給 AI 助理

  2. 收集 AI 助理的實際回應

  3. 比對實際回應與預期回應

  4. 計算成功率與平均回應時間

  5. 產生詳細的評估報告

circle-info

評估執行時間取決於測試案例數量,通常 50 個測試案例約需 2-3 分鐘

查看評估結果

評估列表總覽

在評估列表中,您可以快速查看所有評估的關鍵指標:

成功率指標:

  • 綠色 (≥90%): 表現優異,品質穩定

  • 黃色 (70-89%): 表現良好,但有改善空間

  • 紅色 (<70%): 需要立即檢視並改善

平均回應時間:

  • 顯示 AI 助理回應每個測試案例的平均時間

  • 幫助評估系統效能與使用者體驗

查看詳細報告

點擊評估記錄的 「查看詳情」按鈕,可以看到完整的評估報告,包含:

1. 整體統計

  • 總測試案例數

  • 通過案例數 / 失敗案例數

  • 成功率百分比

  • 平均回應時間

  • 最快/最慢回應時間

2. 測試案例明細

每個測試案例會顯示:

  • 測試問題: 發送給 AI 助理的問題

  • 預期回應: 測試資料集中設定的預期回應

  • 實際回應: AI 助理的實際回答

  • 測試結果: 通過 ✓ 或失敗 ✗

  • 回應時間: 此案例的處理時間

  • 失敗原因: 若未通過,說明原因 (例如:「實際回應未包含預期關鍵字」)

3. 失敗案例分析

重點檢視未通過的測試案例:

  • 查看 AI 助理的實際回應與預期回應的差異

  • 判斷是知識庫內容不足、AI 理解錯誤,或是測試案例設定需要調整

  • 根據分析結果進行對應改善

管理評估記錄

搜尋評估記錄

使用頁面上方的搜尋與篩選功能:

關鍵字搜尋

  • 測試 ID

  • 評估名稱

  • 描述內容

測試集篩選

  • 選擇特定測試資料集,查看所有使用該資料集的評估

AI 助理篩選

  • 選擇特定 AI 助理,查看其所有評估記錄

  • 追蹤單一 AI 助理的品質變化趨勢

重新執行評估

點擊操作欄位中的 「重新執行」按鈕,可以使用相同的測試資料集與 AI 助理再次執行評估。

適用情境:

  • 修改知識庫內容後,重新測試驗證改善效果

  • 調整 AI 助理設定後,確認表現是否提升

  • 定期執行相同測試,追蹤長期品質趨勢

比較不同評估

選擇多筆評估記錄,進行對比分析:

  • 比較不同時期的成功率變化

  • 評估不同 AI 助理在相同測試下的表現

  • 追蹤優化措施的實際效果

匯出評估報告

點擊 「匯出」按鈕,可將評估結果匯出為 Excel 或 PDF 格式,方便:

  • 與團隊成員分享

  • 製作品質報告

  • 長期保存記錄

刪除評估記錄

點擊操作欄位中的 「刪除」按鈕,即可刪除不再需要的評估記錄。

circle-exclamation

自動評估最佳實踐

1. 建立定期評估機制

建議建立定期評估的習慣:

2. 設定品質基準線

為不同類型的 AI 助理設定合理的品質目標:

AI 助理類型
建議成功率基準
說明

產品查詢助理

≥ 95%

知識範圍明確,應維持高準確度

客服支援助理

≥ 90%

涵蓋多種情境,但核心問題應準確

通用對話助理

≥ 80%

問題範圍廣,允許較大彈性

專業諮詢助理

≥ 98%

涉及專業領域,需極高準確性

3. 追蹤品質趨勢

建立評估記錄追蹤表,觀察長期變化:

4. 分析失敗案例並持續改善

針對失敗案例進行分類與分析:

知識庫問題:

  • 知識內容不足或過時 → 更新相關文件

  • 知識表達不清晰 → 重新撰寫或增加範例

  • 相關知識分散 → 整合至同一文件

AI 設定問題:

  • AI 理解問題意圖錯誤 → 調整 System Prompt

  • 回應過於簡短或冗長 → 優化角色指令

  • 未正確引用知識庫 → 檢查知識庫連結設定

測試案例問題:

  • 預期回應設定過於嚴格 → 調整為關鍵字匹配

  • 測試問題表達不清 → 改寫測試案例

  • 預期回應已過時 → 更新測試資料集

5. 建立回歸測試流程

每次重大更新前後都應執行評估:

6. 跨 AI 助理比較

若您有多個處理類似業務的 AI 助理:

  • 使用相同測試資料集評估所有 AI 助理

  • 比較各自的成功率與回應時間

  • 識別表現最佳的 AI 助理配置

  • 將成功經驗應用至其他 AI 助理

評估指標說明

成功率計算方式

測試案例判定標準

通過條件:

  • AI 助理的實際回應中「包含」預期回應的關鍵內容

  • 不需要完全一致,但必須涵蓋核心資訊

  • 系統使用智慧比對演算法,考慮語意相似度

失敗原因:

  • 實際回應未包含預期關鍵字或句子

  • AI 助理回答錯誤資訊

  • AI 助理表示無法回答

  • 回應超時 (超過設定的最大等待時間)

平均回應時間

常見問題

Q1: 自動評估與手動測試有什麼不同?

自動評估:

  • 使用預先定義的測試資料集

  • 系統自動執行並產生報告

  • 適合大量、重複性的測試

  • 可量化追蹤品質趨勢

手動測試:

  • 在「內部問答」或「所有對話」中手動輸入問題

  • 人工判斷回應品質

  • 適合探索性測試與特殊情境驗證

建議兩者搭配使用:自動評估作為主要品質監控機制,手動測試用於深度驗證與問題探索。

Q2: 為什麼成功率突然下降?

可能的原因:

  • 知識庫內容被修改或刪除: 檢視最近的知識庫變更記錄

  • AI 助理設定被調整: 檢查 System Prompt 或其他設定是否變更

  • 測試資料集內容更新: 確認測試案例的預期回應是否仍然合理

  • 系統或 LLM 模型更新: 聯繫技術支援確認是否有系統變更

Q3: 如何提升評估成功率?

短期改善:

  1. 查看失敗案例的實際回應

  2. 判斷是知識不足或 AI 理解錯誤

  3. 針對性補充知識或調整 AI 設定

  4. 重新執行評估驗證改善效果

長期優化:

  1. 定期審查並更新知識庫內容

  2. 收集真實用戶對話,新增為測試案例

  3. 持續優化 AI 角色指令與設定

  4. 建立知識庫內容維護流程

Q4: 可以針對特定主題進行評估嗎?

可以。建議針對不同業務主題建立多個測試資料集:

  • 產品相關測試集

  • 訂單流程測試集

  • 會員服務測試集

  • 技術支援測試集

這樣可以分別追蹤各主題的品質表現,精準定位需要改善的領域。

Q5: 評估會影響實際用戶對話嗎?

不會。自動評估使用獨立的測試環境,不會干擾實際用戶的對話,也不會出現在「所有對話」記錄中。

Q6: 可以設定自動定期執行評估嗎?

目前需要手動執行評估。未來版本將支援排程自動執行功能,例如每週自動執行指定的評估並發送報告通知,敬請期待。

Q7: 評估結果可以整合到報告中嗎?

可以。您可以:

  • 匯出評估結果為 Excel 或 PDF 格式

  • 整合到品質監控報表中

  • 使用分析 數據結合,全面評估 AI 助理表現


下一步

執行自動評估後,您可以:

Last updated

Was this helpful?